Google Research 推出 TurboQuant

Google Research 推出向量量化算法 TurboQuant，并同时公布 QJL 与 PolarQuant，目标是在大语言模型和向量搜索场景中大幅压缩高维向量，缓解 KV 缓存的内存瓶颈。实验结果显示，TurboQuant 在无需训练或微调的情况下可将 KV 缓存量化到 3 比特；在长上下文“needle-in-a-haystack”测试中，相关内存占用至少压缩 6 倍，同时保持下游结果不变。