欢迎访问RC外部版V3.1
大数据优选每日重点财经资讯

中文语料短缺(1.3%),质量不佳;中式价值观类语料重要但开发不足;数据合作机制不完善,版权争议存在;流通环节问题突出;标注专业化、规模化需求高,但产业初级,人才匮乏。

要点:
1. 互联网中文语料占比仅1.3%,高质量中文语料短缺。
2. 中式价值观类语料极为重要,但开放共享与开发利用不足。
3. 数据供需双方合作机制尚待完善,版权类语料使用存在争议。
4. 数据流通环节问题突出,确保数据“流得通”是关键。
5. 数据标注专业化、规模化提上日程,但国内产业较为初级,专业标注人才匮乏。

利好:

利空:

标签:中文语料短缺,质量不佳,中式价值观类语料不足,数据合作机制不完善,版权争议,流通环节问题,标注专业化,规模化需求高,产业初级,人才匮乏

原文发布时间:2024-06-27T13:52:00