2026世界杯总揽AI十年的Transformer, 要被亲爹亲手砸碎?

[新智元导读]80分钟的拳击式考虑！Transformer聚首髻明东说念主躬行下场为我方的作品狡辩，对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。总揽AI黄金十年的架构，地基是不是一经松了？

Transformer凭什么总揽AI这样久？

长高低文、回首、推理这些短板，新架构真能冲破吗？

所谓「后Transformer」，到底是更强的回首机制、更高效的序列建模，如故从测验到系统王人得换一套？

5月5日，旧金山，Pathway搞了场拳击擂台式的考虑赛。

这不是譬如，是真擂台。

一边是Transformer的共同发明东说念主ŁukaszKaiser，另一边是办法「后Transformer时期」的新架构派。

防范一个细节：防范力机制的两位聚首髻明东说念主，「Transformer八子」之一LlionJones，坐在了Kaiser的对立面。。

话题就一个：下一代AI架构到底长什么样。

现场坐满参谋者、创业者和投资东说念主。输赢不靠投票，靠「clapometer」——鼓掌计分器，谁掌声响谁赢。

这是一场刀刀见红、提名说念姓的硬碰硬。

当裁判晓谕比赛运转，总揽了全球AI架构近十年的传闻，第一次被它的树立者躬行拉上了被告席进行自保狡辩。

这场想想界的重量级对决，从Transformer的五大死穴运转。

苦Transformer久矣

五大死穴

ŁukaszKaiser的身份让这场考虑的重量平直拉满。

他是Transformer的聚首髻明东说念主。

2017年那篇篡改扫数这个词AI形态的论文「AttentionIsAllYouNeed」，他是作家之一。之后他参与了ChatGPT、GPT系列和o1的本色工程斥地。

他是当事东说念主。他今天坐在这里，是为我方的作品作念狡辩。

对面的三位挑战者，来头相通不小。

LlionJones，Transformer的另一位聚首髻明东说念主，SakanaAI麇集独创东说念主。

AdrianKosowski，Pathway首席科学官，BDH架构的发明东说念主。

MatthiasLechner，LiquidAI首席时间官，MIT液态神经网罗的共同发明东说念主。

这本人便是时间史上极其凄迷的画面。创造归拢个东西的东说念主，对它的将来产生了根人性不合。

Kaiser开场用了一个类比。

他说Transformer的防范力机制，就像典籍治理员的卡片索引系统。

你走进藏书楼，说出你要找的内容（query），治理员翻开卡片目次（key），找到对应的书架位置，把书取出来交给你（value）。

轻率。高效。全局检索。

但挑战者们要问的是：如若这个藏书楼有一亿本书呢？每次查询王人要翻遍扫数卡片，这个系统还能撑住吗？

这便是O(n²)，悬在Transformer头上的达摩克利斯之剑。

三位挑战者莫得缺乏地说「Transformer不成了」。他们拆出了五个具体的、面前Transformer架构无法在狡计层面处分的开放艰难。

每一个王人直指枢纽。

挑战者们最猛烈的隐喻，直指Transformer的回首与抓续学习劣势：「土拨鼠之日」。

在电影《土拨鼠之日》中，主角每天醒来，天下王人会重置，昨天的回首化为乌有。

咫尺，Transformer亦然如斯。

每一次推理（ForwardPass），它的权重（Weights）王人是全王人冻结的。

哪怕你今天跟它聊了十个小时，它学到了绝妙的新学问，不才一次会话启动时，它依然是一个失忆的痴人。

咫尺工业界为了处分这个问题，拚命往里塞RAG（检索增强生成）、长高低文（KVCache）。

但这根柢不是架构级的解法，而是用富贵的算力在伤口上贴创可贴。

五大死穴，每一个单拎出来王人不是小事。合在一说念，组成了一张完整的告状书。

但告状书不等于判决书。

Kaiser的底牌

你行你上，拿弧线言语

面临五大膺惩，Kaiser莫得逐一批驳。

他没说O(n²)不是问题，没说苦难性渐忘不存在，世界杯比赛在线高清直播没说Transformer白壁微瑕。

他抛出了一句话，成了整场考虑的中枢：

除非Post-Transformer解释更好的scaling弧线，不然Transformer仍然是主流。

这句话的杀伤力在于，它把举证包袱推回了挑战者。

什么是scaling弧线？

浮浅说，便是「插足更多算力和数据，AI才能进步若干」。

Transformer总揽近十年，最中枢的原因不是它没劣势，而是它的scaling弧线于今没被任何架构卓越。

这是OpenAI敢砸几十亿好意思元测验GPT、Anthropic抓续扩大Claude限制的底气。

Kaiser的逻辑极其明晰：

你说Transformer有五个问题？我甘愿。

但有问题的东西和应该被替换的东西之间，有一说念领域。跨过它，你需要的不是五篇论文，是一条更好的scaling弧线。

然后，他张开了更具体的狡辩，况兼带着工程现场的铁锈味。

并行性是硬敬爱。

上周，在最新的Nvidia硬件上，Kaiser从头完了了Transformer和几个旧式RNN，并作念了对比。

十分小的GRU，比一个大得多的Transformer还要慢50倍。

RNN如实优好意思，但它的规则执行特点在面前硬件上便是一场苦难。

如若真存在一种更好的架构，你需要用50倍的时候去解释它——而绽开阔实验室莫得这个耐烦。

十年的工程积攒。

不仅仅GPU优化，编译器、测验框架（PyTorch、JAX）、推理引擎（vLLM、TensorRT-LLM）、量化用具——扫数这个词AI工程栈王人围绕Transformer搭建。

换架构意味着这一切王人要重来。

隐式的「抓续学习」，早已发生。

Kaiser指出，Transformer在大限制预测验后，前向传播中概念出的高低体裁习（In-ContextLearning），在数学上其实好意思满模拟了反向传播中的梯度下落。

换句话说，你们说它不会学，它其果然以另一种神气暗暗地学。

他的狡辩不是「Transformer始终是最优解」，而是「Transformer咫尺是最优解，除非你解释不是」。

然后他甩出一句让对面哑口难熬的话：

也许找到下一个架构的，无意会是Transformer本人——而不是你们。

全场笑声。

但人人王人听出来了：这是进展的。

AI：无东说念主可挡的光明将来

Kaiser的抑制陈词，莫得说「Transformer始终是最优解」。他说的是：「咫尺，Transformer仍然赢。」

「咫尺」这个词，是他留给挑战者的独一间隙。

更玄机的是，他亲手交出了一件本属于我方阵营的刀兵。

后Transformer阵营此前最大的短板，是「衰败大算力的工程和硬件考证」——新架构跑得慢、没东说念主怡悦为它改芯片。但Kaiser我方承认，这说念壁垒正在被瓦解：

咫尺，AIAgent一经学会了写极高难度的CUDA和Triton核函数。

即便一个新架构领先运行慢50倍，你只需要把代码丢给Agent，它就能在短时候内帮你优化脱险些能榨干GPU算力的专用内核。

硬件彩票的壁垒，正在被智能体斥地生态我方砸碎。

这意味着，一朝有东说念主在百万Token、千万Token的极长高低文任务上，用Post-Transformer架构跑出一条更漂亮的困惑度弧线，哪怕惟有少许点上风，也会在scaling的放大镜下，酿成对旧帝国的致命一击。

Kaiser甚而主动提出：应该建造一个斡旋的测试程序——用困惑度测度扫数架构在同等条款下的学习才能。

「咱们应该在这件事上达成共鸣，然后各自去解释我方的架构更好。」

这句话的潜台词是：挑战赛矜重运转。

而Jones的临了一句话更平直：

今天我莫得获得任何意义让我怀疑我方的信念：有更好的东西存在。当阿谁冲破到来，咱们扫数东说念主王人会进入后Transformer时期，Łukasz也不例外——因为他届时别无选定。

2026世界杯博亚体育(中国)官方平台

这场「拳击赛」看似戏谑，但它的赢输平直决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。

如若后Transformer（Post-Transformer）阵营领有更优胜的ScalingLaw（缩放定律）弧线2026世界杯，扫数这个词东说念主类通往AGI的物理道路图王人将被改写。

世界杯技术统计

2026世界杯 总揽AI十年的Transformer, 要被亲爹亲手砸碎?

2026世界杯总揽AI十年的Transformer, 要被亲爹亲手砸碎?