ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

小红书开源1420亿参数的大模型dots.llm1

2025-06-12

数据:

小红书开源了首个大模型dots.llm1,该模型具有1420亿参数,其中仅激活140亿参数。dots.llm1在C-Eval上中文性能达到92.2分,超越所有其他模型,包括DeepSeek-V3。模型训练使用了11.2万亿的非合成数据。

线索:

小红书的dots.llm1开源大模型通过高级数据处理和结构优化达到高性能,这可能引发投资者对数据驱动AI模型的关注与信心。随着技术的发展,可能带来大规模的市场机会,但也面临模型训练成本与新兴竞争的风险。

正文:

近日,小红书开源了第一个大模型,名为dots.llm1。该模型采用了1420亿参数的MoE(混合专家)架构,但在实际应用中仅激活了140亿参数。它在中英文、数学等任务上展现出与阿里Qwen3-32B相当的性能,中文表现上dots.llm1在C-Eval上达到92.2分,这一成绩超过了DeepSeek-V3等其他模型。

dots.llm1的开源大模型的一大特点是使用了庞大的非合成数据进行训练。在预训练阶段,该模型使用了11.2万亿个非合成数据,这些数据主要来源于通用和自身的网络爬虫抓取。小红书正在构建一个通过高效设计和高质量数据扩展大模型边界的框架。

小红书的hi lab团队在技术报告中总结了其主要贡献:

1. 增强的数据处理框架,以生成大规模高质量的数据,提升可复现性。

2. 该模型在推理时仅激活14亿参数,具有良好的性能和计算效率,且没有依赖合成数据。

3. 引入了创新的高效计算配方,以提高模型的计算效率。

4. 以开源形式发布训练检查点,促进研究透明和加速创新。

模型经过训练后,其性能在多个任务上超过Qwen2.5-72B模型,在双语任务、数学推理和对齐能力方面表现优异。虽然它在代码生成和高级数学任务上的表现还略逊于DeepSeek-V3等先进模型,但在中文和英文多领域基准测试中的表现相对稳定,显示出其强大的问题解决能力。

此外,dots.llm1的数据处理管道结合了多种创新,以确保数据的高质量和多样性,经过人工校验与验证,达到显著优于开源的Txt360数据的训练效果。

该模型包含62层,第一个层为普通密集FFN,其余则为MoE。在预训练过程中,最大序列长度设置为8k,后续阶段扩展到32k,可以有效处理长序列输入。dots.llm1降低了训练成本,企图提供与更大模型相当的结果。

通过dots.llm1的发布,小红书展示了高效设计与高质量数据的重要性,以此为其在日益激烈的市场竞争中建立优势。

发布时间:

2025-06-10 20:19:25

相关推荐

评论 ( 0 )

3.1 W

文章

53.4 W

点赞

回顶部