数据:
谷歌新模型Moneta、Yaad、Memora在多个任务中超越Transformer,参数减少40%,训练速度提升5-8倍,部分任务性能提高7.2%。
线索:
谷歌最新提出的Miras框架及其三种新模型展示了在语音识别和自然语言处理等领域的巨大潜力,带来了投资在高效算法开发和机器学习领域的机会。然而,将这些新技术应用于实际产品中的挑战、对现有模型的淘汰风险、竞争对手的跟进都可能影响投资回报。
正文:
谷歌团队针对深度学习领域的传统模型(如RNN和Transformer)提出了全新架构,重点在于通过引入“注意力偏向”和“保留门”机制来替代传统的遗忘机制,重新定义AI架构设计。他们开发了三种新模型——Moneta、Yaad和Memora,声称在多个任务上超越了现有的Transformer架构。
这些新模型的主要优势包括:参数减少40%、训练速度相比RNN提升5-8倍,在某些任务上性能甚至较Transformer提高了7.2%。在大语言模型(LLMs)中,谷歌团队借鉴人类心理学中的“关联记忆”和“注意力偏向”概念,把这两者整合为一个统一的视角,认为Transformer和RNN都旨在优化内在记忆目标。
在此基础上,他们提出了名为Miras的框架,为下一代序列模型的构建提供了四个关键设计维度:记忆架构、注意力偏向、保留门控和记忆学习算法。同时,借助这一框架,谷歌团队推出了三种新模型,具有各自的优势。具体而言:
– Moneta在语言建模任务中PPL指标提升23%;
– Yaad在常识推理中的准确率达89.4%,超越Transformer 7.2%;
– Memora在记忆密集型任务中的召回率达到91.8%。
研究者还表明,几乎所有现代序列模型的底层学习过程均可以归结为关联记忆机制,并且传统的遗忘机制本质上是对注意力偏向进行正则化的运算。根据他们的研究,由于不同模型间的差异可用“注意力偏向+保留机制”结合来解释,因此他们设计了新的保留门控机制,以平衡新概念的学习和已学概念的保留。此举带来了新的洞察,帮助改善信息存储和更新的决策。
接下来,谷歌的研究团队定义了“注意力偏向”作为序列模型的内部记忆目标,以此衡量学习到的映射质量。他们提出将保留门代替遗忘门,让模型选择性对过去记忆进行评估,而不是完全清除。例如,训练模型时采用的梯度下降方法,可优化模型对新信息的记忆更新,以确保在信息处理上的稳定性。
综合运用上述手段,新的模型在语言理解、常识推理、搜索隐藏信息、长文本信息保留等任务中展现出优异的性能。三种新模型在实验中具备更好的扩展性,并在上下文长度和模型规模上均表现突出。
在未来,谷歌团队的研究成果可能对机器学习和AI领域的各个方面产生显著影响,潜力可观。不过,如何将这些创新融入产品,以及面对的技术挑战,将是产业需要认真考虑的问题。
发布时间:
2025-06-09 17:34:59
评论 ( 0 )