我们一直深信,人类的大脑,是靠着一套严谨的规则、语法和结构分析来理解语言的,复杂且独一无二。 这是一个持续了数十年的「共识」。 可最近Nature Communications上发表的一项颠覆性研究,把这个古老的信仰掀了个底朝天。
《LLM学习笔记:最好的学习方法是带着问题去寻找答案》中有简要讲到如何构建一个LLM,看过后应该会想,最初被预训练、后训练修正的原始“模型”是怎么来的,为什么给数据,经过不断训练就能得到一个会说人话的“超大函数”出来呢?
标准的自注意力机制本质上是将输入序列X分别通过三个线性变换WQ,WK,WV生成Query(Q)、Key(K)、Value(V),再通过softmax计算注意力权重: ...
谷歌DeepMind掌门人断言,2030年AGI必至!不过,在此之前,还差1-2个「Transformer级」核爆突破。恰在NeurIPS大会上,谷歌甩出下一代Transformer最强继任者——Titans架构。
现在AI领域已经达成共识的是,Transformer虽好,但自注意力机制的效率问题正在日益凸显:每个token都要“关注”其他所有token,导致计算量和内存消耗与序列长度的平方成正比(O (N2))。
八年前,谷歌 Transformer 奠基之作出世,彻底改变了 AI 界。如今,谷歌另一个极有潜力成为 Transformer 的全新架构 ——Titans,正式在 NeurIPS 2025 亮相。 它完美融合了「RNN 极速响应 ...
如果说传统的 Transformer 是一个只有短期记忆的“单核处理器”,那么 HOPE 更像是一个符合神经科学原理的“双重记忆大脑”。它通过两个组件,复刻了类似生物大脑中海马体(Hippocampus)与大脑皮层(Cortex)的协作机制 。
信息量极大,包括AI的底层范式转变、GPT-5.1的命名规则、未来AI的发展趋势……以及 Transformer 诞生背后的二三事。 这类似于 摩尔定律 ,几十年来摩尔定律始终有效,甚至在GPU的推动下还在加速,归根结底也是因为它历经了数代技术的迭代 ...
人工智能领域正经历一场静默却深刻的范式变革,其影响或将与Transformer架构的诞生相提并论。过去一年间,行业内部对技术发展路径的认知出现显著分歧:部分观点认为预训练模型已触及天花板,而另一派则持续发布迭代版本,引发关于AI发展速度的激烈讨论。针对这些争议,Transformer核心作者之一、现任OpenAI研究科学家的Łukasz Kaiser通过独家访谈,从技术演进、模型迭代和未来趋势三个 ...
近日,浙江大学医学院祝向东教授团队在 Brain-X 发表了题为:Potential roles of transformers in brain tumor diagnosis and treatment 的综述论文。 该综述总结了人工智能模型Transformer在脑肿瘤诊断和治疗中的应用现状。第一兼通讯作者为浙江大学医学院附属第二医院神经外科 ...