

本文作家 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,悉尼大学博士,接洽标的为高效机器学习系统,标的袒护 模子训推算法与系统协同想象,LLM 压缩与量化。团队成员均来自 TogetherAI,悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。
Together AI 于 2022 年 6 月创立,由苹果前高管 Vipul Ved Prakash、斯坦福大模子接洽中心主任 Percy Liang、芝加哥大学副讲授 Ce Zhang、Flash Attention 作家 Tri Dao 联接创办。
高出 TurboQuant,内存有救了!TogetherAI 最新论文 OSCAR 直面冲击 TurboQuant,提倡一个面向长高下文推理干事的着实的 2-bit KV Cache 系统,开盒即用。

论文标题:OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization
长高下文模子越来越强,但干事时的瓶颈常常不是算力,而是 KV Cache:每生成一个 token,王人要从显存中读取越来越长的历史 key,value。高下文越长、batch 越大,KV Cache 越吃显存,也越吃带宽。把历史 KV 压到 2-bit,表面上不错让历史段显存减少约 8 倍;但着实难的是,压完之后推理能力不成崩,系统也必须能在简直 serving 框架里跑起来。
为什么 2-bit KV Cache 这样难?INT2 唯有 4 个量化品级,而 KV activation 中常常有少数幅值极大的 outlier channel。若是这些 outlier 主导量化圭臬,大多数平常值会被挤到很少的有用品级里,瞩主张漫衍很快漂移。庸俗 Hadamard 旋转能把 outlier 摊平,但它不知说念模子在 attention 里着实读哪些标的。OSCAR 的中枢即是把旋转方针从「重建原始 K/V 向量」改成「保留 attention 破钞 KV 的模式」。
比较之前量化的职责,比如 TurboQuant 压缩的是向量,但忽略了着实影响模子的是 attention 的质地,OSCAR 保留的是 attention 着实会读的标的。朴素 INT2 和全模子层的 3-bit K/V TurboQuant 王人会在结巴推理任务上显露掉分;OSCAR 在约 2.28 effective bits per KV element 下仍能接近 BF16,并在 Qwen3-4B-Thinking 上相对 3-bit K/V TurboQuant 最高提高 40.1 分。
OSCAR 的动机

图 1:为什么只看 K/V 重建罪过会误导判断
图 1 对比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化罪过传播链路上的互异。重要点是,原始 K/V 的重建罪过并不成统共表现模子最终进展;着实影响推理质地的是 attention-score KL、attention-block output MSE 以及后续 hidden-state error。OSCAR 的上风不仅仅让向量数值更平滑,而是把量化罪过压到 attention 不解锐的方朝上。
OSCAR 的想象
具体来说,对 key 来说,量化罪过会投入 attention logits,也即是 QKᵀ,因此 OSCAR 用 query covariance(QᵀQ)构造 key 的旋转方针;对 value 来说,罪过经过瞩主张权重投入输出,因此 OSCAR 使用 score-weighted value covariance(VᵀSᵀSV)。离线校准阶段,OSCAR 从极少校准样本中测度这些 attention-aware covariance,为每层、每个 head 生成固定旋转和 clipping 阈值。最终旋转写稿 R = U・Hadamard・bit-reversal:U 瞄准 attention 辩论标的,Hadamard 辞别 outlier,bit-reversal 均衡 INT2 分组,幸免某个 group 被少数通说念掌握。
更垂危的是,OSCAR 不是以往的量化论文,离线跑量化获取筹办,而是照旧接入 SGLang,作念到开箱即用的 2-bit KV serving。OSCAR 在 SGLANG 中贵重一个 token 池:
BF16 sink (64 tokens) | INT2 history (~2.28 BPE) | BF16 recent (256 tokens)
其中 sink token 和 recent window 保捏 BF16,用来保护 attention sink 与短期局部高下文;中间最长的历史段存成旋转后的 INT2。新 token 先写入 recent window,跟着解码鼓舞,最老的 recent token 再由和会 Triton kernel 施行 rotate /clip/quantize/pack,并 demote 到 INT2 history。每 4 个 2-bit 值打包进 1 个 byte。decode 阶段,OSCAR 在 GPU 上把缓存分红 BF16 段和 INT2 段:INT2 kernel 崇拜 unpack、scale/zero point 规复和浮点累加,BF16 kernel 贬责 sink/recent,临了用 online softmax merge 合并效果。它同期兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline,因此不错径直用于长高下文 workload,而不是停留在论文图内外。

图 2:OSCAR 全体经由图
图 2 展示 OSCAR 从离线校准到在线 serving 的竣工旅途。左侧是离线阶段:OSCAR 从极少校准样本中测度 attention-aware rotation 和 clipping threshold,让 KV activation 在投入 INT2 前变得更稳妥量化。右侧是在线阶段:sink/recent token 无间保捏 BF16,中间最长的 history KV 投入旋转后的 INT2 cache,并在 SGLang paged KV 中完成简直 serving。因此 OSCAR 不是单一量化手段,而是一整套 2-bit KV Cache pipeline。
开云2026世界杯官方授权平台评估效果
OSCAR 在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上测试,任务袒护 GPQA、HumanEval、LiveCodeBench v6、AIME25、MATH500,生成长度最高 32K,每个树立运转 5 次取均。
OSCAR 在 2.28 BPE 下,Qwen3-4B-Thinking 距 BF16 仅 3.78 分,Qwen3-8B 距 BF16 仅 1.42 分,Qwen3-32B 与 GLM-4.7-FP8 基本与 BF16 捏平。比较之下,QuaRot-INT2 和 naive INT2 在这些 reasoning /coding 任务上大多径直崩溃;TurboQuant 在全层 3-bit K/V、无 mixed-precision 保护的公道树立下,也在小模子推理任务上掉分显露。
OSCAR 还在 128K 长高下文树立下对中 / 大边界模子作念了 RULER-NIAH 测试:OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上王人保捏了显露更逍遥的检索性能,阐述这种 attention-aware 旋转不仅能撑住短评测,也能违犯超长历史中 KV 罪过的积存。换句话说,2026世界杯比赛在线高清直播网OSCAR 是少数能在真近 2-bit 树立下仍保捏当代 reasoning model 质地的门径。
系统收益也相称径直:相对 BF16 history storage,OSCAR 可减少约 8× KV Cache memory;在 100k context、batch-size-1、full prefix-cache hit 树立下,decode 最高约 3× 加快;在大 batch、同显存预算下,job-level throughput 最高约 7×。prefix cache 掷中率越高,OSCAR 越能诳骗更小的 KV footprint 提高并发婉曲,这对分享系统领导、多轮 Agent、器具调用轮回等长前缀复用场景尤其垂危。
精度赔本

图 3:竣工主效果表,多种 KV 量化门径同场对比

图 4:AIME25 32K 生成,和 KIVI / Kitty 的专项对比
图 3 是论文主效果表,包含 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四个模子、五个任务上的竣工对比。BF16 是精度上界;Saw-INT4 是强 4-bit 参考,BPE 为 4.25;TurboQuant 在这里使用无 mixed-precision 保护的全层 3-bit K/V 树立,BPE 为 3.25;QuaRot-INT2 和 Naive INT2 是接近 2-bit 的旋转 / 朴素基线,BPE 约 2.25;OSCAR 则在 2.28 BPE 下运转。
这张表的要点不是单一模子,而是「低比特能不成逍遥」。在 Qwen3-4B-Thinking 上,TurboQuant mean 为 31.74,QuaRot-INT2 唯有 1.40,Naive INT2 为 0.00;OSCAR 达到 71.86,距离 BF16 只差 3.78,并相对 TurboQuant 提高 40.1 分。在 Qwen3-8B 上,OSCAR mean 为 69.42,距离 BF16 只差 1.42,而 TurboQuant 为 56.88。到 Qwen3-32B 和 GLM-4.7-FP8,OSCAR 基本与 BF16 捏平。换句话说,在接近 2-bit 的 KV 预算下,OSCAR 是表中独一能在多模子、多任务上逍遥面临 BF16 的 INT2 门径。
图 4 单独看 AIME25 这个高难数学推理任务,并对比 KIVI-KV2、Kitty 和 OSCAR。但由于 KIVI, KITTY 莫得 framework 支捏,无法进行 long context run,是以登第了他们门径独一在 32K 陈说的效果 - AIME25。在 Qwen3-8B 上,OSCAR 以 2.38 BPE 达到 66.67,基本追平 BF16 的 66.00,显露高于 KIVI-KV2 和 Kitty;在 Qwen3-32B 上,OSCAR 达到 74.00,致使略高于 BF16 的 72.59,也高出 Kitty 的 69.26。这阐述 OSCAR 不仅仅相对 TurboQuant 有上风,在已有 KV-cache 量化门径中,也能在接近 2-bit 的预算下保住结巴数学推理能力。
系统加快

图 5:100k 长高下文下的 decode /batch throughput
图 5 展示 100k 高下文下的系统性能。OSCAR 在 batch-size-1、full prefix-cache hit 的纯 decode 场景下最高约 3× 加快;在固定显存预算下,batch size 增大时,INT2 history 带来的 KV footprint 裁汰不错权贵提高 job-level throughput,最高约 7×。这阐述 OSCAR 不仅仅精度能保住,也能实打实裁汰显存带宽压力。

图 6:prefix cache 掷中率越高,婉曲前沿越往外推
图 6 展示 prefix-cache hit ratio 对端到端 serving throughput 的影响。横轴是单用户婉曲,纵轴是单 GPU 婉曲;从 cache disabled 到 normal cache,再到接近 100% warmup replay,婉曲前沿缓缓外扩。OSCAR 保捏步调 paged KV /prefix cache 概括,因此分享系统领导、多轮 Agent、器具调用轮回等长前缀复用场景不错径直纳益。
这些效果的一个垂危含义是,OSCAR 并莫得依赖「挑选少数层保留高精度」来保住分数。好多低比特门径在着实部署时会借助搀和精度:第一层、临了一层或多少明锐层仍然保留较高 bit,这会让平均 bit 数飞腾,也会让 kernel 和 cache layout 变复杂。OSCAR 的对比更严格:历史 KV 主体保捏长入的 INT2 默示,只在 sink 和 recent 两个很小窗口保留 BF16。这样作念的克己是,系统工程上更容易接入 paged cache、prefix cache 和批量诊治,也更接近简直干事场景中的显存预算。
追忆
另一个值得强调的点是,OSCAR 的收益不是只在小模子或短高下文上开辟。论文同期测试了 4B、8B、32B 以及 GLM-4.7-FP8 这样的大模子;既看了数学、代码、学问问答等 32K 推理生成任务,也看了 128K RULER-NIAH 长高下文检索。短评测里,OSCAR 能接近 BF16;长高下文里,它也能让 attention 漫衍随高下文增长更逍遥。这阐述 attention-aware rotation 不是只在某个 benchmark 上调参有用,而是在缓解 KV 罪过随历史长度积存这个压根问题。
从应用角度看,这对长高下文 Agent 止境重要。简直 Agent 常常包含很长的系统领导、器具阐述、历史对话和检索骨子,况且不同央求之间存在浩繁分享前缀。若是 KV Cache 只可用 BF16 存,系统很快会被显存卡住;若是径直作念朴素 INT2,又可能让推理链条失真。OSCAR 的想象刚好夹在两者之间:长历史用 INT2 降显存和带宽,重要 sink/recent 用 BF16 兜住逍遥性,再让 prefix cache 复用分享前缀。换句话说,它把「能压到 2-bit」和「能上线 serving」 放在吞并个系统里推敲。
TurboQuant 是很强的通用 online vector quantization 门径;OSCAR 针对的是 attention-aware 2-bit KV serving。二者不是简便替代关系,举例OSCAR 的 最新codebase中照旧在attention-aware rotation 引入了更强的 Lloyd Max Codebook,将压缩推向极致。OSCAR 带来了一个私有的不雅点:2-bit KV Cache 要能上线,旋转不仅仅「有莫得」,而是必须瞄准 attention2026世界杯比赛在线高清直播网,况且要有简直 serving 系统撑捏。