数据:
史上最大规模视觉语言数据集:1000亿图像-文本对,较此前纪录扩大10倍,名为WebLI-100B。研究表明,数据Scaling Law尚未达到上限,该数据集可提升多文化、多语言覆盖的性能,且在构建多模态大模型中至关重要。
线索:
该研究表明,海量数据能够显著提升推理和少数语种的表现,为多模态大模型的投资机会提供依据。然而,数据筛选可能导致文化多样性下降,这会影响模型的公平性和适应性,投资者需关注数据使用及模型训练的平衡,以避免潜在的文化代表性风险。
正文:
谷歌推出了名为WebLI-100B的1000亿图像-文本对数据集,成为有史以来最大的视觉语言数据集。此数据集使得对长期存在的文化和语言差异的覆盖更加全面,能够加速多模态大模型的构建。研究发现,数据规模越大,模型对细节的理解能力越强。
论文专注于三个方面:验证1000亿数据集在视觉语言模型(VLMs)上的效果,证明这一规模的数据能增强文化多样性和减少性能差异,以及发现CLIP等模型的数据过滤可能降低文化多元性。研究人员从网络收集了1000亿图像-文本对,过滤掉有害和敏感内容,使用CLIP模型进行质量评估,最终形成高对齐度的图像-文本对。
在模型训练上,研究者从1000亿数据集中随机抽取了1%和10%的样本,进行不同大小模型的对比实验。结果显示,数据量从1B到10B再到100B,模型对细节的捕捉和性能提升都有显著进步。对多语言能力和公平性分析显示,在非西方文化背景下,1000亿规模的提升非常明显。
值得注意的是,通过提高低资源语言的占比,能在基准测试中显著增强模型性能。研究表明,虽然数据过滤能提高模型在一些传统任务上的性能,但也可能损害数据集的多样性。具体而言,需在数据的多样性与模型性能之间找到最佳平衡点。
发布时间:
2025-02-13 17:00:07



评论 ( 0 )