Google Research 推出向量量化算法 TurboQuant,并同时公布 QJL 与 PolarQuant,目标是在大语言模型和向量搜索场景中大幅压缩高维向量,缓解 KV 缓存的内存瓶颈。实验结果显示,TurboQuant 在无需训练或微调的情况下可将 KV 缓存量化到 3 比特;在长上下文“needle-in-a-haystack”测试中,相关内存占用至少压缩 6 倍,同时保持下游结果不变。
Google Research 推出 TurboQuant
Previous: Claude Code 推出自动模式