数据:
超强CUDA内核性能提升高达400%,AI优化内核超越人类专家。
线索:
斯坦福大学的研究表明,利用AI生成的CUDA内核在深度学习操作中的性能超越传统PyTorch。投资者应关注AI在新技术领域的应用,推动计算和深度学习性能的大幅提升,同时也需注意技术替代可能带来的风险。
正文:
斯坦福大学日前宣布,他们意外地利用AI生成了一种性能超强的CUDA内核,其性能竟比经过人类专家优化的内核还要优秀。这些AI优化的内核在多个深度学习操作中表现出色,使性能提升可达400%。例如,在矩阵乘法中,该内核性能达到PyTorch的101.3%;二维卷积性能达到179.9%;Softmax达到111.8%;而层归一化则更是提高至484.4%。
这一让人惊讶的进展来自于研究团队最初的目标——生成合成数据以训练内核生成模型。他们意外地发现:在测试阶段生成的合成数据本身就具备生成高性能内核的能力。研究团队并没有仅仅依赖于传统的逐步优化,而是在每次迭代中引入语言推理的步骤,鼓励不同的想法出现,从而增强搜索的多样性。
具体而言,斯坦福团队的研究思路是,在接到torch代码后,首先通过自然语言生成优化的想法,然后将这些想法转化为新的代码变体。这种方法与以往的逐步修改有所不同,因为它增加了多样性,避免了局部极小值的问题。最终,他们在五轮迭代中不断优化出多个性能最佳的内核,展现了与人类经验相似的内存访问和计算优化策略。
这项研究的核心团队包括华人主创,三位作者分别是Anne Ouyang、Azalia Mirhoseini和Percy Liang。Ouyang是斯坦福大学的博士生,曾在麻省理工和英伟达工作;Mirhoseini则是斯坦福的助理教授,曾参与多个知名项目;而Liang则是斯坦福计算机科学的副教授。目前研究团队仍在不断优化这项技术,对于未来的发展持乐观态度。
与此同时,另一家开发Devin的团队也在研发大型语言模型以编写CUDA内核,他们的模型Kevin-32B表现出了强劲的性能。这表明AI在内核生成领域的潜力不断被挖掘。
发布时间:
2025-05-31 17:52:39
评论 ( 0 )