HTK新闻网

AI意外生成高性能CUDA内核研究背景 斯坦福团队意外发现AI生成的CUDA内

AI意外生成高性能CUDA内核

研究背景

斯坦福团队意外发现AI生成的CUDA内核性能超越人类专家优化结果,性能提升最高达484.4%。

性能对比

矩阵乘法(FP32):性能达PyTorch的101.3%。

二维卷积:性能达PyTorch的179.9%。

Softmax:性能达PyTorch的111.8%。

层归一化:性能达PyTorch的484.4%。

组合操作(Conv2D+ReLU+MaxPool):性能达PyTorch参考实现的290.1%。

方法创新

自然语言优化思想:AI首先生成优化建议,再转化为代码。

多分支探索:分散衍生多个实现,选择性能最优者迭代。

避免局部最优:通过“思考”步骤增加多样性。

优化策略

内存访问优化:提升数据移动效率。

异步操作:隐藏延迟。

数据类型优化:使用低精度减少带宽需求。

并行性增强:最大化线程数量。

控制流优化:减少循环和分支开销。

团队与未来展望

华人主创团队:Anne Ouyang、Azalia Mirhoseini和Percy Liang。

意外发现:测试阶段合成数据直接生成高性能内核。

未来方向:优化FP16和Flash Attention性能。

资源高效:仅消耗少量token实现显著提升。