Google Research 推出 TurboQuant

Google Research 推出向量量化算法 TurboQuant,并同时公布 QJL 与 PolarQuant,目标是在大语言模型和向量搜索场景中大幅压缩高维向量,缓解 KV 缓存的内存瓶颈。实验结果显示,TurboQuant 在无需训练或微调的情况下可将 KV 缓存量化到 3 比特;在长上下文“needle-in-a-haystack”测试中,相关内存占用至少压缩 6 倍,同时保持下游结果不变。

Previous:

Next:

发表回复

Please Login to Comment
SHARE
TOP
🍉
🔈Hi,朋友。欢迎来到木木的博客小站!