ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

MIT博士加盟AI初创公司Thinking Machines,聚焦大模型效率

2026-01-13

摘要:麻省理工学院(MIT)博士肖光烜(Guangxuan Xiao)于近期毕业,并宣布加入由OpenAI前首席技术官创立的公司Thinking Machines,专注于大模型预训练工作。其博士论文《Efficient Algorithms and Systems for Large Language Models》针对大模型成本高、推理慢、长上下文处理难三大核心挑战,提出了包括SmoothQuant、StreamingLLM、DuoAttention、XAttention及FlashMoBA等在内的一系列高效算法与系统解决方案。行业数据显示,Thinking Machines为技术员工提供的平均年薪高达约46.25万美元,显著高于OpenAI和Anthropic等竞争对手。

线索

* 投资机会:Thinking Machines能够以极具竞争力的薪酬吸引肖光烜这类顶尖研究人才,表明其可能拥有雄厚的资本支持(如已完成大额融资)和明确的技术愿景。肖光烜的研究方向(大模型高效训练与推理)直击当前AI商业化的核心成本与性能瓶颈,其成果若成功应用于产品,将可能显著提升Thinking Machines模型的竞争力与成本效益,构成潜在的技术护城河。

* 投资风险:为顶尖人才支付远超行业平均水平的薪酬,可能给初创公司带来持续的财务压力,尤其是在尚未实现稳定营收的阶段。初创公司本身在技术落地、市场拓展和团队管理方面存在较高不确定性。此外,AI领域人才竞争白热化,未来可能面临人才被挖角或薪酬成本进一步攀升的风险。

正文

麻省理工学院(MIT)博士肖光烜(Guangxuan Xiao)近期在社交媒体宣布,其已顺利完成MIT博士学位,并即将加入人工智能公司Thinking Machines,专注于大模型预训练相关工作。Thinking Machines由OpenAI前首席技术官创立。此消息获得了包括英伟达科学家、xAI研究员等业内人士的祝贺。

肖光烜本科毕业于清华大学,获得计算机科学与金融学双学位。在校期间,他曾获得清华大学综合优秀奖学金、全国大学生数学建模竞赛一等奖、国家奖学金、清华大学「未来学者」奖学金等荣誉。2020年至2021年,他曾作为访问学生在斯坦福大学计算机系开展科研。2022年,他进入MIT攻读博士学位,导师为韩松(Song Han)教授,研究方向聚焦于深度学习的高效算法与系统,特别是大规模基础模型。2022年9月至2026年1月,他在MIT EECS担任全职研究助理。

攻读博士期间,肖光烜曾在多家科技公司实习。2023年,他在Meta实习,研究方向为流式语言模型的高效注意力机制,相关成果已发布在arXiv上。2024年2月至5月,他在英伟达实习,研究方向是为长上下文大语言模型推理加速,与团队共同提出了结合检索与流式注意力头的DuoAttention方法以提升推理效率。此外,他还参与了XAttention(基于反对角评分的块稀疏注意力机制)、StreamingVLM(面向无限视频流的实时理解模型)、FlashMoBA(混合块注意力的高效优化)等项目的研究。

肖光烜的博士论文题为《Efficient Algorithms and Systems for Large Language Models》,旨在解决大语言模型面临的显存占用高、推理速度慢、长上下文处理困难等工程挑战。论文主要贡献包括:

1. SmoothQuant:通过数学变换将量化难点从激活值转移至权重,实现了在十亿级参数模型上的W8A8无损量化,无需重新训练即可减少显存占用并加快推理。

2. StreamingLLM:发现了注意力机制中的“注意力汇点”现象,通过保留初始的若干标记,实现了常数内存的流式推理,使模型能够处理百万标记级别的超长上下文。该思想被进一步扩展至多模态领域,形成了StreamingVLM,用于处理长达数小时的视频内容。

3. 针对性的高效注意力方案:为应对不同瓶颈,提出了多种方案。其中,DuoAttention通过让少数注意力头负责全局检索、多数注意力头关注最近上下文,以降低KVCache的显存占用;XAttention则利用反对角线评分机制选择性计算必要的注意力块,以加速预填充阶段;FlashMoBA是一种定制化的CUDA内核,使理论上更优的小块混合注意力架构在实践中可行,实现了最高可达9倍的加速。

在薪酬方面,有行业数据显示,Thinking Machines为其技术员工提供了极具竞争力的薪资。根据一份2025年第一季度的招聘数据,该公司向四名技术员工支付的平均基础年薪为462,500美元(约合人民币350万元),其中最高为50万美元,最低为45万美元。作为对比,同期OpenAI申报的29名技术员工平均年薪为292,115美元,Anthropic的14名技术员工平均年薪为387,500美元。

发布时间:2026-01-09 16:08:25

相关推荐

评论 ( 0 )

3.6 W

文章

72.7 W

点赞

回顶部