ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

阿里千问开源Qwen3-TTS支持音色克隆10种语言

2026-02-11

摘要:阿里巴巴旗下千问团队开源了Qwen3-TTS全系列语音生成模型,包含1.7B和0.6B两种参数规模的版本。该系列模型支持包括中文、英文、日语等在内的10种主流语言及多种方言音色,具备音色克隆、创造、高质量拟人化语音生成及自然语言指令控制等功能。关键性能指标显示,其在多项任务上达到先进水平,例如在音色控制任务中平均词错率为2.34%,其专用的Tokenizer在语音质量评估(PESQ)上取得3.21(宽带)和3.68(窄带)的分数。

线索

* 投资机会

1. 降低应用门槛与生态构建:核心模型的全系列开源将显著降低开发者和企业在语音合成领域的接入成本与技术壁垒,可能加速智能客服、虚拟人、有声内容创作、教育、娱乐等场景的AI语音应用普及。阿里通过开源扩大开发者生态,有望巩固其在大模型领域的影响力,并推动其云服务及相关API的采用。

2. 技术竞争力展示:公布的详细性能数据(如超越部分闭源模型)展示了其在多语言、音色控制、实时生成等方面的技术实力,这可能吸引合作伙伴并提升市场对其AI技术能力的信心。

* 潜在风险

1. 技术同质化与竞争加剧:开源虽能促进行业发展,但也使得先进技术方案更快扩散,可能缩短产品的差异化窗口期,加剧行业内竞争。

2. 实际落地效果待验证:实验室评测数据虽优,但模型在实际复杂场景中的稳定性、成本效益以及对长尾需求的满足程度,仍需经过大规模商业应用的检验。

3. 战略依赖风险:对于采用该技术的企业而言,其技术路线将与阿里千问的后续更新和维护深度绑定,存在一定的供应链集中风险。

正文

阿里巴巴千问团队宣布开源其Qwen3-TTS多码本全系列语音生成模型。该系列包含1.7B和0.6B两种参数尺寸的模型,其中1.7B模型旨在追求高性能与强控制能力,0.6B模型则在性能与推理效率之间取得平衡。

Qwen3-TTS是一系列功能强大的语音生成模型,全面支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制功能。模型覆盖10种主流语言,包括中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语,并支持多种方言音色。

该模型采用自研的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,实现对语音信号的高效压缩与强表征,据称能完整保留副语言信息和声学环境特征。模型架构采用离散多码本语言模型进行端到端建模,而非传统的LM+DiT方案,旨在规避信息瓶颈与级联误差。通过Dual-Track双轨建模技术,模型实现了低延迟流式生成,声称首包音频最快可在输入单个字符后输出,端到端合成延迟可低至97毫秒。模型具备上下文理解能力,可根据指令和文本语义自适应调整语气、节奏与情感表达,并对输入文本噪声具有鲁棒性。模型已在代码托管平台开源,并可通过API体验。

在模型性能方面,官方评估结果显示:

* 在音色创造任务上,Qwen3-TTS-VoiceDesign在InstructTTS-Eval评估中的指令遵循能力和生成表现力据称整体超越MiniMax-Voice-Design闭源模型。

* 在音色控制任务上,Qwen3-TTS-Instruct具备单人多语言泛化能力,平均词错率为2.34%;在风格控制能力上,于InstructTTS-Eval取得75.4%的分数;在长语音生成能力上,一次性合成10分钟语音的中文词错率为2.36%,英文为2.81%。

* 在音色克隆任务上,Qwen3-TTS-VoiceClone在Seed-tts-eval评估的中英文克隆语音稳定性上据称超越MiniMax和SeedTTS;在TTS multilingual test set的10个语言项上,平均词错误率为1.835%,说话人相似度为0.789,据称超越MiniMax和ElevenLabs;其跨语种音色克隆能力据称超越CosyVoice3。

在对Qwen-TTS-Tokenizer的语音重构评估中,基于LibriSpeech test-clean数据集的结果显示:

* 感知语音质量评估(PESQ)得分:宽带3.21,窄带3.68。

* 短时客观可懂度(STOI)得分:0.96。

* 语音质量主观评估(UTMOS)得分:4.16。

* 说话人相似度得分:0.95。

发布时间:2026-01-22 21:55:00

相关推荐

评论 ( 0 )

3.7 W

文章

73.6 W

点赞

回顶部