Transformer危了谷歌推出全新底层架构MoR
超越Transformer,谷歌推出全新底层架构——
Mixture-of-Recursions(MoR),注意不是MoE,它能推理速度提高2倍,而KV内存直接减半!
而且All in One,首次在单一框架中实现,用同一组参数处理不同任务的同时,进行动态分配计算资源。
就像给LLM开了个双层增强buff,模型性能和效率全都要。
谷歌DeepMind联合KAIST AI、Mila人团队通过统一参数共享、自适应递归深度和高效KV缓存,在保持大模型性能的同时降低计算和内存成本,形成新的效率最优解。
不少网友甚至将它形容为Transformer Killer。
更有甚者表示,该架构的出现或许能代表,潜在空间推理也许将会成为下一个LLM突破所在。
具体MoR创新在哪些方面?下方文章一一详解。