小米发布 MiMo-V2-Flash 大模型

小米发布了 MiMo-V2-Flash 大模型，这是一个采用混合专家（MoE）架构的语言模型，总参数量达 309B，激活参数为 15B。

MiMo-V2-Flash 的核心特性包括混合注意力架构，以 5:1 的比例交替使用滑动窗口注意力和全局注意力，KV 缓存存储减少近 6 倍；多令牌预测模块使推理输出速度提升 3 倍；支持最长 256K 的上下文窗口。该模型在多项基准测试中表现优异，在 SWE-Bench 等复杂推理任务上超越了参数量更大的竞品模型。小米已在 Hugging Face 平台开源该模型的基础版本。

小米发布 MiMo-V2-Flash 大模型

发表回复