高质量数据成为大模型“卡脖子”问题

（CWW）数据集是大模型竞争的关键要素之一，AI大模型的突破得益于高质量数据的发展。AI大模型需要大规模、高质量数据，而数据的高效处理方式是大模型成功的关键。随着数据集规模的增大，数据管理难度也在攀升，产生高质量数据存量耗尽、数据安全风险、数据合规等问题。建议加强数据合规监管和评估机制；重视数据多样性和代表性发展；加强数据隐私保护和安全措施；加快高质量数据集发展。

(资料图)

AI大模型需要大规模、高质量数据，数据高效处理方式是关键

训练大模型需要大规模、高质量、多模态的数据集，通常需要从各个领域和多个数据源收集数据，这些数据可以是文本、图像、语音、视频等多种形式。大语言模型训练使用的数据集规模爆发式增长。从2018年GPT-1数据集约为4.6GB，2020年GPT-3数据集达到了753GB，而ChatGPT的数据集为超万亿单词的人类语言数据集（约45TB）。OpenAI并没有公开训练ChatGPT的相关数据集来源和具体信息，这也形成了一道无形的技术壁垒。常见的数据集主要由海外开源组织、高校、互联网巨头、政府机构等掌握。

图1 常见大模型数据集总结

资料来源：OpenDataLab，CSDN

ChatGPT的突破性进展除了依赖于更高质量、更丰富的训练数据集外，同样得益于其高效的数据处理能力，特别是数据清洗、标注等。ChatGPT从多个数据源采集到大量原始数据后，首先使用自然语言处理技术对原始数据进行清洗，同时，还使用了特定的过滤器，去除常见的噪声数据和无用信息。为了提高准确性和表现力，ChatGPT使用数据增强技术对数据集进行扩充，增加语料库的规模和多样性，从而提高ChatGPT的泛化能力和鲁棒性。另外，ChatGPT使用RLHF（来自人工反馈过程的强化学习）生成用于微调的高质量标记数据。最后，ChatGPT使用标注和增强后的语料库来训练助理大模型。

AI大模型面临高质量数据耗尽、数据安全、数据合规等风险

1.高质量数据将耗尽，寻找新的数据来源迫在眉睫

高质量数据是大模型不断优化的稀缺资源。高质量训练数据越大，大模型的推理能力越强。以GPT-3为例，来源于维基百科、书籍及学术期刊等高质量数据仅占其数据集的17.8%，但其在模型训练中的权重占到了40%。而大模型训练所需要的数据集的增速远大于高质量数据生成的速度，导致高质量数据逐渐面临枯竭。当前的存量数据中，高质量数据将在2026年耗尽，低质量数据将最晚在2050年耗尽，图像数据将最晚在2060年耗尽。

为了解决高质量数据不足的问题，OpenAI主要采用合成数据的方法，即借助生成对抗网络（GAN）来生成数据。将样本数据输入至预先准备好的模型，通过数据变换、旋转、缩放、仿射变换等操作增加数据的多样性和复杂度。合成数据因其高质量、高垂直的特性，将有可能最先在金融、医疗等行业率先适用，并将在2030年超过真实数据。目前，英伟达、微软、Meta等均已在合成数据领域完成布局。

2.数据安全风险日益凸显，输入至模型的数据安全缺乏保障

大模型必须对用户隐私进行过滤，否则带来的隐私泄露风险将不可估量。大模型数据来源除了所有公开数据、合作数据、合成数据，用户在与大模型的交互过程中产生的数据也成为了模型训练的语料基础。这使得大模型成为了“数据中心”，在输出过程中必须确保数据安全。ChatGPT在发布之后，便出现了大量的用户隐私泄露事件。今年3月，三星半导体部门连续出现三起ChatGPT数据泄露事件，源于员工将公司机密输入而导致。截至目前，为避免企业信息泄露，苹果、三星、亚马逊、摩根大通等多家企业已经明确禁止使用外部生成式AI工具。

为避免用户数据泄露，ChatGPT采用了数据脱敏处理、加密存储、外部安全审计等方式，但效果有限。在经历数起用户隐私泄露事件后，ChatGPT上线了“关闭聊天记录”功能，开启后用户的隐私数据将不会被保存，这意味着ChatGPT将隐私安全的风险又交回给了用户手中。

3.数据合规风险或成为限制大模型发展的首要因素

从公开数据源中获取的数据会存在危害国家安全、歧视、暴力、色情、谣言、政治倾向、犯罪等不合规数据。这就要求大模型在训练之前需要对数据进行严格清洗和准确标注。ChatGPT避免数据合规风险的方法包括数据清洗、数据标注、模型的预训练、降低不良信息权重、自我反思等。但这些方法仍然存在被用户通过“恶意诱导”的方式绕过，包括生成恶意软件、编造虚假消息。国内某用户在利用ChatGPT测试过程中，发现利用特定方式可以让ChatGPT生成钓鱼信息的模板，从而绕过其监管策略。

全球范围内，针对人工智能的监管已经来临。美国、欧洲、中国均已经对大模型的监管提出相应的政策及法案，对生成式人工智能的个人隐私、知识产权、虚假信息、政治倾向等方面提出了监管意见。美国商务部下属国家电信和信息管理局 (NTIA) 在4月11日发起了一项关于AI风险和机遇的征求意见倡议，涉及歧视标准、社会和治理保证、风险管理、透明度和反偏见等。并在5月16日举行了OpenAI听证会，围绕着版权侵害、虚假内容、影响选举、数据安全、大公司垄断等议题展开。OpenAI的CEO Altman在听证会上就美国政府应该如何监管AI公司，提了四条建议：一是组建一个新的政府机构，负责给AI厂商提供许可证，并吊销不符合政府标准的厂商的许可证；二是为AI大模型创建一套安全标准，大模型必须通过安全测试与风险评估；三是指派第三方专家独立审核AI产品的各方面指标；四是创立一个由美国领导为AI制定相关标准的国际组织。欧盟在5月11日通过了《欧盟人工智能法案（The AI Act）》，该法案针对不同类型的人工智能系统制定了相应的监管措施，区分了不可接受的风险、高风险、有限风险和低或轻微风险四种风险类型，并针对不同类型施加了不同的监管措施以及相应类型的人工智能系统的提供者义务。我国国家网信办在4月11日发布《生成式人工智能服务管理办法（征求意见稿）》，并对大模型备案、安全评估、内容真实准确、尊重他人合法利益、公平竞争、处罚等问题作出了相关规定。

相关建议

1.建立数据合规的监管和评估机制

推动完善AIGC监管立法，保护和规范人工智能领域的内容合规。相关机构和政府部门应建立相应的监管机制，对大模型的数据采集来源、处理方法、合规性等进行监督和审查。此外，应加强对大模型的社会影响和风险评估，及时发现和解决可能存在的问题。

2.加强数据保护和安全措施

相关机构和企业应制定严格的数据隐私保护政策，加强数据安全技术和措施，确保用户个人隐私得到充分保护。同时，要加强数据共享和合作的安全管理，防止数据泄漏和滥用。

3.加强高质量数据集发展

一方面，借助数字中国战略，通过数据交易所，实现数据资源在各行业、各企业间自由流通，缓解大模型训练数据量不足问题。同时，大力发展数据服务商，提供数据标注、清洗、维护等服务，助力大模型训练数据质量提升。另一方面，加强AI生成技术，利用AI合成数据缓解数据耗尽问题。