小米发布 MiMo-V2-Flash 大模型

小米发布了 MiMo-V2-Flash 大模型,这是一个采用混合专家(MoE)架构的语言模型,总参数量达 309B,激活参数为 15B。

MiMo-V2-Flash 的核心特性包括混合注意力架构,以 5:1 的比例交替使用滑动窗口注意力和全局注意力,KV 缓存存储减少近 6 倍;多令牌预测模块使推理输出速度提升 3 倍;支持最长 256K 的上下文窗口。该模型在多项基准测试中表现优异,在 SWE-Bench 等复杂推理任务上超越了参数量更大的竞品模型。小米已在 Hugging Face 平台开源该模型的基础版本。

Previous:

Next:

发表回复

Please Login to Comment
SHARE
TOP
🔈Hi,朋友。欢迎来到木木的博客小站!