月之暗面发布 Attention Residuals 技术

月之暗面(Moonshot AI)推出 Attention Residuals 技术,对 Transformer 架构进行改进,使每一层能够选择性地关注此前各层的输出,而非统一求和。该技术已应用于其 48B 参数的 Kimi Linear 模型,其达到相同性能所需的算力比基线少约 20%,同时在 GPQA-Diamond 推理基准上提升 7.5 分,编程与数学能力亦有所提升。

Previous:

Next:

发表回复

Please Login to Comment
SHARE
TOP
🍉
🔈Hi,朋友。欢迎来到木木的博客小站!