
DeepSeek V4的API订价出来了——Flash版输入1元/百万token,Pro版12元。同期GPT-5.4和Claude Opus 4.6的调用成本,纰漏是它的50倍。
不是低廉一半,是低廉50倍。这个数字大到不像是团结场比赛里的报价。
但价钱自己不是要点。往回看三代家具——V2检修成本是GPT-4 Turbo的1/70,V3是GPT-4的1/14,R1是GPT-4o的1/20。DeepSeek画出了一条笔陡的成本下落弧线。连奥尔特曼我方都说,AI成本每12个月降10倍,比摩尔定律还猛。
V4还带来了一个更大的变量:它在时候阐扬中明确写入了华为昇腾NPU与英伟达GPU的比肩考据,是首个在昇腾平台上原生适配的前沿大模子。黄仁勋在播客里说,这件事是"可怜性的"。英伟达的护城河不是GPU算力自己,而是CUDA作为默许起初的软件生态位。
低廉50倍,还在昇腾上跑通了。DeepSeek到底是奈何作念到的?这条效劳门道走到终端,又意味着什么?

50倍价差
DeepSeek V4的API订价出来了:Flash版输入1元/百万token,输出2元;Pro版输入12元,输出24元。缓存掷中的情况下,Flash版输入价钱压到了0.2元/百万token。
同期GPT-5.4和Claude Opus 4.6的API调用成本,纰漏是V4的50倍。
V4在MIT公约下齐备开源,发布时期恰好卡在OpenAI上线新Agent功能的前一天。贴身肉搏的意味照旧很彰着了。
但V4的订价并不是一次伶仃的降价事件。往回看三代家具,DeepSeek画出了一条笔陡的成本下落弧线。
2024岁首,V2的检修成本比GPT-4 Turbo下落至1/70,靠的是MLA架构和MoE疏淡架构的组合转换。同庚底,V3的检修成本560万好意思元,比较GPT-4的7800万好意思元降至1/14。紧接着,R1的检修成本600万好意思元,对标GPT-4o约1.2亿好意思元的检修开支,压到了1/20。
三代家具,每代都在往下打一个数目级。这不是一次促销,是一条弧线。

一年前,R1发布本日,英伟达单日市值挥发近6000亿好意思元,"DeepSeek时刻"成了通盘科技圈的牵挂锚点。V4把这个故事又往前推了一步。
虽然,这条弧线不是莫得争议。谷歌DeepMind崇敬东谈主哈萨比斯直言DeepSeek的成本数据"被报小了,而且有些误导性",宣称公司"只公布了最终检修阶段的成本,而这仅仅总成本的一小部分"。分析机构SemiAnalysis进一步估算,DeepSeek在硬件上的破耗远高于5亿好意思元,论文中600万好意思元的数字仅仅预检修运行的GPU成本。
DeepSeek硬件插足即便高出5亿好意思元,这是一笔包含芯片采购在内的本钱开支;而GPT-4o的检修成本约1.2亿好意思元,指的是单次检修运行的算力用度,两者口径并不疏导。不外,即便把OpenAI背后数十亿好意思元的算力基础设施插足也纳入考量,DeepSeek在单次检修成本上的上风依然是数目级的。争议的焦点恰巧证据了论断:即便成本被低估了,它依然低廉得离谱。
这不仅仅DeepSeek一家的故事。从GPT-4到GPT-4o,OpenAI我方的每token价钱也降了约150倍。即便降了这样多,DeepSeek的API价钱仍然比OpenAI低廉95%。
奥尔特曼我方在2025年2月的著述中写得昭着:使用特定水平AI的成本每12个月下落约10倍。摩尔定律曾以每18个月翻一倍的速率编削全国,而AI成本的下落"愈加强盛"。
当你的竞争敌手亲口帮你论证了你的叙事,这个叙事就不仅仅叙事了。AI行业正在资格我方的摩尔定律,而DeepSeek,是这条定律最激进的履行者。
定律背后的机制是什么?三代家具的成本为什么能一谈往下砸?谜底藏在DeepSeek的时候门道里。
从算法推广到芯片
V3检修只用了2048张H800。同级别模子的检修集群动辄上万张卡,但DeepSeek用这2048张卡训出了对标GPT-4的模子,靠的是一个其时没东谈主敢在大限度检修中真实用上的时候:FP8混杂精度。
英伟达的Transformer Engine早就支撑FP8检修,但在V3之前,莫得开源大模子确实确检修阶段跑通过FP8。DeepSeek第一个吃螃蟹,用细粒度量化策略把激活值按1x128的tile量化、权重按128x128的block量化,在不赔本模子质地的前提下把研究成本大幅压低。
火器不在多,在会用。2048张卡即是别东谈主上万张卡的活。
V4在这条路上又往前走了一大步,径直校阅了留心力机制自己。
中枢是两种全新的留心力结构。CSA(压缩疏淡留心力)把每4个token的KV缓存压缩成1个条目,再用一个叫Lightning Indexer的筛选器从扫数压缩块中只挑出最关联的512个来研究。
HCA(档次化压缩留心力)更激进,压缩比达到128倍,径直跳过筛选设施作念全量研究来捏全局结构。两种留心力交错建树,再赓续滑动窗口保留最近128个token的原始KV,多管王人下把百万token长文本的推理支出打了下来。
深度求索方面径直表态:"从咫尺开动,百万潦倒文将是DeepSeek扫数官方做事的标配。"以前百万token是各家发布会上拿来炫技的臆想打算,咫尺是默许参数。
其时候成本低到不错成为默许选项时,它就不再是竞争上风,而是基础设施的一部分。
成果径直写在基准分上。
V4-Pro,1.6万亿参数、激活49B,在100万token潦倒文下处理一个新token需要的算力唯有V3.2的27%,KV缓存只占10%。资源耗尽砍到四分之一。
而顶配Pro Max呢?常识基准SimpleQA拿下57.9分,比开源最好高出20个点;数学竞赛Putnam 2025作念到120/120满分;编程竞赛Codeforces在东谈主类选手中排第23。三个分属齐备不同类型的任务,同期冲顶。

算力用了四分之一,得益冲到了第一。这不是降本增效,2026世界杯比赛在线高清直播网是换了一套物理定律在跑。
但V4最值得护理的变量,不在算法层。
V4时候阐扬3.1节写了一句话:"咱们在NVIDIA GPU和华为昇腾NPU两个平台上考据了这个细粒度的民众并行决议。"两个平台比肩,写在考据论断里。这不是"兼容适配"的措辞,是"原生支撑"的姿态。
这套决议的中枢是把MoE的通讯和研究切成更细的颗粒按"波"调理,通用推理加快1.50到1.73倍,强化学习长尾小批次最高加快1.96倍。昇腾照旧从备选项酿成了比肩选项。
迁徙并不玩忽。据接近DeepSeek的工程师败露,V4从CUDA到CANN的适配经过中,最耗时的不是算子重写,而是精度对王人。雷同的模子在英伟达和昇腾上跑出齐备一致的数学收尾,需要反复调试。
此前用910C检修时,DeepSeek翻过车:1024卡集群梯度同步超时、CANN旧版短缺关节算子,寂静性一度不及。950PR针对性地补上了这些短板:芯片间带宽翻了3倍,CANN Next内置了FlashAttention和PagedAttention算子。
真实的时候迁徙不是换一个品牌的芯片,是让两套齐备不同的硬件跑出一样的数学收尾。DeepSeek把这条路蹚通了,其后者的门槛就低了一大截。
华为的策略也很明晰。昇腾950PR在FP4精度下算力达到2 PFLOPS,芯片间互联带宽2TB/s。CANN Next的定位不是推倒重来,是无缝替换:新增SIMT编程模子与CUDA高度对标,让成立者沿用CUDA的编程民俗,最终编译出昇腾优化模范。
黄仁勋在帕特尔的播客专访中说出了英伟达真实短促什么。不是中国作念出好模子,而是好模子不再以CUDA为默许优化起初。
开云2026世界杯中国官网英伟达的护城河从来不是GPU自己的算力,而是CUDA作为"事实圭臬"运行了近二十年的软件生态位。险些扫数主流AI框架、算子库、开源模子的首发优化,都把CUDA看成默许起初。DeepSeek在昇腾上完成原生适配,点破的恰正是这条链条的起初:至少存在一条真实、可运行、被顶级模子考据过的非CUDA旅途。
当全国上最好的开源模子证据了一条完满的非CUDA旅途,二十年的生态壁垒就出现了第一谈错误。效劳门道从算法推广到芯片,推广到了英伟达最短促的阿谁位置。
算力变水电
中信建投在V4发布后的研报里作念了一个分手:R1复兴的问题是"中国能不可作念出全国级模子",V4复兴的是两个更具体的问题——"能不可在算力闭塞下无间进化",以及"大模子能不可酿成能赢利的企业级家具"。
第一个问题,学术界照旧给了谜底。2025年9月,R1论文登上Nature封面,8位民众逐条审稿,这是全球首个通过顶级学术期刊同业评审的主流大模子。"中国能不可作念"这个问题翻篇了。
第二个问题才是V4真实要复兴的。
巨头们在用最传统的式样抢商场。2026年春节时间,字节、阿里、腾讯三家烧掉近百亿元拉新。千问豪掷30亿元送"奶茶大礼包",豆包登上央视春晚,元宝抛出10亿元现款红包。
QuestMobile数据自大,甘休2026年2月,豆包活跃用户1.03亿、千问3245万,DeepSeek 2477万排第三。
但DeepSeek的困境和巨头不同。日活从1.2亿飙到约2亿,半年增长超67%,算力却只扩了约8.3%。日均算力成本超千万元,本年照旧三次大限度宕机,每次都在晚间用户岑岭期爆发。
用户增长67%,算力增长8.3%。这个剪刀差即是DeepSeek必须走效劳门道的原因,亦然V4必须跑在昇腾上的原因。
融资信号也在转向。2025岁首DeepSeek最火的时候,梁文锋拒却了扫数投资机构。他曾建议访佛OpenAI与微软投资公约的酬报上限条目,莫得任何机构给与,而后再没跟投资东谈办法过面。
一年后的4月17日,DeepSeek传出至少100亿好意思元估值融资;五天后,路透社报谈阿里和腾讯正在洽谈投资,估值已被抬到200亿好意思元以上。一位接近DeepSeek的投资东谈主说:"这不是一个你出得起价就能进的标的,梁文锋的筛选圭臬里,钱是最不弥留的那一项。"
一年前拒却扫数东谈主,一年后扫数东谈主争着进。变的不是梁文锋的气魄,是DeepSeek的位置。从时候考据期走到了交易化拐点。
DeepSeek"换芯"昇腾激发的四百四病正在扩散。阿里、字节、腾讯已向华为批量采购昇腾950PR,订单所有这个词数十万颗,聚积采购鼓吹芯片价钱近几周高潮20%。当行业龙头用脚投票跟进非CUDA旅途,效劳门道就从一家公司的选拔酿成了行业共鸣。
交易化的数据也在印证拐点。智谱2025年全年收入7.24亿元,同比增132%,MaaS API平台年度经常性收入作念到17亿元,同比涨了60倍。大模子正在从烧钱的故事酿成赢利的生意。
当行业里开动有东谈主赢利,"AI泡沫"的叙事就该换一个了。
米勒在《巴伦》杂志的判断提供了另一个坐标。他说,好意思中之间的差距不在东谈主才、不在转换,而在检修时插足的运算资源。这是典型的存量逻辑,谁的卡多谁赢。
但DeepSeek作念的是增量逻辑:让每张卡的产出更高。V4在昇腾上跑通,即是用效劳把存量差距酿成了一个不错绕当年的问题。
而战略信号,可能是三重信号中最耐东谈主寻味的。
工信部发布了《普惠算力赋能中小企业发展专项活动》,方向是到2028年底显贵缩小中小企业使用算力的门槛。文献里出现了两个见解:"算力银行"和"算力超市"。企业不错把闲置算力存进去,按需取用,按卡时、核时致使Token来计费。
当战略开动用水电的逻辑来惩办算力,前沿智能就确实在酿成基础设施。DeepSeek从算法层到芯片层一谈把成本打下来,战略从顶层把算力酿成寰球做事。
一个从供给侧降本2026世界杯,一个从轨制侧普惠。两条线交织的阿谁点,即是AI不再是武备竞赛的那一天。