2026世界杯 总揽AI十年的Transformer, 要被亲爹亲手砸碎?

发布时间: 浏览:147 来源:2026世界杯比赛在线高清直播网

2026世界杯 总揽AI十年的Transformer, 要被亲爹亲手砸碎?

[新智元导读]80分钟的拳击式考虑!Transformer聚首髻明东说念主躬行下场为我方的作品狡辩,对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。总揽AI黄金十年的架构,地基是不是一经松了?

Transformer凭什么总揽AI这样久?

长高低文、回首、推理这些短板,新架构真能冲破吗?

所谓「后Transformer」,到底是更强的回首机制、更高效的序列建模,如故从测验到系统王人得换一套?

5月5日,旧金山,Pathway搞了场拳击擂台式的考虑赛。

这不是譬如,是真擂台。

一边是Transformer的共同发明东说念主ŁukaszKaiser,另一边是办法「后Transformer时期」的新架构派。

防范一个细节:防范力机制的两位聚首髻明东说念主,「Transformer八子」之一LlionJones,坐在了Kaiser的对立面。。

话题就一个:下一代AI架构到底长什么样。

现场坐满参谋者、创业者和投资东说念主。输赢不靠投票,靠「clapometer」——鼓掌计分器,谁掌声响谁赢。

这是一场刀刀见红、提名说念姓的硬碰硬。

当裁判晓谕比赛运转,总揽了全球AI架构近十年的传闻,第一次被它的树立者躬行拉上了被告席进行自保狡辩。

这场想想界的重量级对决,从Transformer的五大死穴运转。

苦Transformer久矣

五大死穴

ŁukaszKaiser的身份让这场考虑的重量平直拉满。

他是Transformer的聚首髻明东说念主。

2017年那篇篡改扫数这个词AI形态的论文「AttentionIsAllYouNeed」,他是作家之一。之后他参与了ChatGPT、GPT系列和o1的本色工程斥地。

他是当事东说念主。他今天坐在这里,是为我方的作品作念狡辩。

对面的三位挑战者,来头相通不小。

LlionJones,Transformer的另一位聚首髻明东说念主,SakanaAI麇集独创东说念主。

AdrianKosowski,Pathway首席科学官,BDH架构的发明东说念主。

MatthiasLechner,LiquidAI首席时间官,MIT液态神经网罗的共同发明东说念主。

这本人便是时间史上极其凄迷的画面。创造归拢个东西的东说念主,对它的将来产生了根人性不合。

Kaiser开场用了一个类比。

他说Transformer的防范力机制,就像典籍治理员的卡片索引系统。

你走进藏书楼,说出你要找的内容(query),治理员翻开卡片目次(key),找到对应的书架位置,把书取出来交给你(value)。

轻率。高效。全局检索。

但挑战者们要问的是:如若这个藏书楼有一亿本书呢?每次查询王人要翻遍扫数卡片,这个系统还能撑住吗?

这便是O(n²),悬在Transformer头上的达摩克利斯之剑。

三位挑战者莫得缺乏地说「Transformer不成了」。他们拆出了五个具体的、面前Transformer架构无法在狡计层面处分的开放艰难。

每一个王人直指枢纽。

挑战者们最猛烈的隐喻,直指Transformer的回首与抓续学习劣势:「土拨鼠之日」。

在电影《土拨鼠之日》中,主角每天醒来,天下王人会重置,昨天的回首化为乌有。

咫尺,Transformer亦然如斯。

每一次推理(ForwardPass),它的权重(Weights)王人是全王人冻结的。

哪怕你今天跟它聊了十个小时,它学到了绝妙的新学问,不才一次会话启动时,它依然是一个失忆的痴人。

咫尺工业界为了处分这个问题,拚命往里塞RAG(检索增强生成)、长高低文(KVCache)。

但这根柢不是架构级的解法,而是用富贵的算力在伤口上贴创可贴。

五大死穴,每一个单拎出来王人不是小事。合在一说念,组成了一张完整的告状书。

但告状书不等于判决书。

Kaiser的底牌

你行你上,拿弧线言语

面临五大膺惩,Kaiser莫得逐一批驳。

他没说O(n²)不是问题,没说苦难性渐忘不存在,世界杯比赛在线高清直播没说Transformer白壁微瑕。

他抛出了一句话,成了整场考虑的中枢:

除非Post-Transformer解释更好的scaling弧线,不然Transformer仍然是主流。

这句话的杀伤力在于,它把举证包袱推回了挑战者。

什么是scaling弧线?

浮浅说,便是「插足更多算力和数据,AI才能进步若干」。

Transformer总揽近十年,最中枢的原因不是它没劣势,而是它的scaling弧线于今没被任何架构卓越。

这是OpenAI敢砸几十亿好意思元测验GPT、Anthropic抓续扩大Claude限制的底气。

Kaiser的逻辑极其明晰:

你说Transformer有五个问题?我甘愿。

但有问题的东西和应该被替换的东西之间,有一说念领域。跨过它,你需要的不是五篇论文,是一条更好的scaling弧线。

然后,他张开了更具体的狡辩,况兼带着工程现场的铁锈味。

并行性是硬敬爱。

上周,在最新的Nvidia硬件上,Kaiser从头完了了Transformer和几个旧式RNN,并作念了对比。

十分小的GRU,比一个大得多的Transformer还要慢50倍。

RNN如实优好意思,但它的规则执行特点在面前硬件上便是一场苦难。

如若真存在一种更好的架构,你需要用50倍的时候去解释它——而绽开阔实验室莫得这个耐烦。

十年的工程积攒。

不仅仅GPU优化,编译器、测验框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化用具——扫数这个词AI工程栈王人围绕Transformer搭建。

换架构意味着这一切王人要重来。

隐式的「抓续学习」,早已发生。

Kaiser指出,Transformer在大限制预测验后,前向传播中概念出的高低体裁习(In-ContextLearning),在数学上其实好意思满模拟了反向传播中的梯度下落。

换句话说,你们说它不会学,它其果然以另一种神气暗暗地学。

他的狡辩不是「Transformer始终是最优解」,而是「Transformer咫尺是最优解,除非你解释不是」。

然后他甩出一句让对面哑口难熬的话:

也许找到下一个架构的,无意会是Transformer本人——而不是你们。

全场笑声。

但人人王人听出来了:这是进展的。

AI:无东说念主可挡的光明将来

Kaiser的抑制陈词,莫得说「Transformer始终是最优解」。他说的是:「咫尺,Transformer仍然赢。」

「咫尺」这个词,是他留给挑战者的独一间隙。

更玄机的是,他亲手交出了一件本属于我方阵营的刀兵。

后Transformer阵营此前最大的短板,是「衰败大算力的工程和硬件考证」——新架构跑得慢、没东说念主怡悦为它改芯片。但Kaiser我方承认,这说念壁垒正在被瓦解:

咫尺,AIAgent一经学会了写极高难度的CUDA和Triton核函数。

即便一个新架构领先运行慢50倍,你只需要把代码丢给Agent,它就能在短时候内帮你优化脱险些能榨干GPU算力的专用内核。

硬件彩票的壁垒,正在被智能体斥地生态我方砸碎。

这意味着,一朝有东说念主在百万Token、千万Token的极长高低文任务上,用Post-Transformer架构跑出一条更漂亮的困惑度弧线,哪怕惟有少许点上风,也会在scaling的放大镜下,酿成对旧帝国的致命一击。

Kaiser甚而主动提出:应该建造一个斡旋的测试程序——用困惑度测度扫数架构在同等条款下的学习才能。

「咱们应该在这件事上达成共鸣,然后各自去解释我方的架构更好。」

这句话的潜台词是:挑战赛矜重运转。

而Jones的临了一句话更平直:

今天我莫得获得任何意义让我怀疑我方的信念:有更好的东西存在。当阿谁冲破到来,咱们扫数东说念主王人会进入后Transformer时期,Łukasz也不例外——因为他届时别无选定。

2026世界杯博亚体育(中国)官方平台

这场「拳击赛」看似戏谑,但它的赢输平直决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。

如若后Transformer(Post-Transformer)阵营领有更优胜的ScalingLaw(缩放定律)弧线2026世界杯,扫数这个词东说念主类通往AGI的物理道路图王人将被改写。