谢赛宁回应DiT争议DiT架构真的错了吗最近X上有人抛出一句话:DiT(Scal

量子位看科技 2025-08-20 17:44:42

谢赛宁回应DiT争议DiT架构真的错了吗

最近X上有人抛出一句话:DiT(Scalable Diffusion Models with Transformers)错了,是数学上、形式上的错。【图1】

但很快,DiT作者之一谢赛宁现身回应:“我知道你在标题党(click-baiting),但还是想回一下。”

他这番回应不仅平实直接,也透露出一线科学研究应有的基本态度和方法:

- 每个研究者都希望自己的架构是“错的”。如果一个架构永远没错,那才更成问题;

- 研究者天天都在试图“打破”DiT,SiT、REPA、REPA-E这些改进方法就是例子;

- 但必须要形成假设、做实验、检验结果,不能只在脑海里“角色扮演式地搞科学”(LARPing science in your head);

随后,谢赛宁也补充了目前在DiT架构上真正存在的问题和演进方向:

- 现在被讨论的`tread`模块,其实是一种让模型“有选择地跳过部分处理”的机制,这能让训练更稳定,表现也更好,和“出错”关系不大。

- 真正好用的,是升级版的Lightning DiT。它用了更高效的公式和方法,在各方面表现都更稳,建议有条件就用这个版本。

- 有人怀疑DiT的某些结构会影响效果,比如所谓“post-norm”设计,但目前并没有实验证据支持这种说法。

- 过去一年最大的进展是:怎么让模型学得更好。比如设计更聪明的输入方式、更合理的结构、给模型加点“额外训练目标”等,这些方法都在不断试验中。

- 模型在生成图像时,需要根据“起点”和“目标”之间的变化来学习,现在主流推荐的方法叫SiT,更稳定也更容易收敛。

- 如果模型要理解“时间”或“文本”这类更复杂的信息,有些做法更合适,比如谢赛宁建议使用“共享的时间嵌入方式”,能省不少计算资源,也提升效果。

- 值得注意的一点是:DiT里的VAE模块太臃肿了。比如生成一张256×256的图,就要耗费大量算力,而且流程也不是“从头到尾一体化”的。现在一些改进方法(比如VA-VAE、REPA-E)能缓解这问题,但还远没解决根本。

简而言之,DiT不是“错”的,而是在快速演化中不断被改进。真正的科学研究,应该基于实证,而非揣测。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注