点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:“喂”给人工智能的真实数据终将耗尽 合成数据能否让AI模型精确可靠?
首页> 国际频道> 国际要闻 > 正文

“喂”给人工智能的真实数据终将耗尽 合成数据能否让AI模型精确可靠?

来源:科技日报2025-01-22 08:22

  人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。

  澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据具有诸多优势,但过度依赖合成数据也可能削弱AI的精确性和可靠性。

  图片来源:物理学家组织网

  合成数据应运而生

  以往,科技公司主要依赖真实数据来构建、训练和改进AI模型。真实数据是指由人类创建的文本、视频和图像。它们通过调查、实验、观察或挖掘网站和社交媒体等途径被收集而来。

  真实数据因蕴含真实事件以及其场景和背景而极具价值,但其并非尽善尽美。它可能掺杂拼写错误、不一致或无关的内容,甚至潜藏严重偏见,导致生成式AI模型在某些情况下创建的图像仅展示男性或白人形象。

  但真实数据日益匮乏,因为人类生成数据的速度赶不上AI不断增长的需求。

  美国开放人工智能研究中心联合创始人伊利亚·苏茨克维尔在去年12月举行的机器学习会议上声称,AI行业已触及他所称的“数据峰值”,AI的训练数据如同化石燃料一样面临着耗尽的危机。此外,有研究预测,到2026年,ChatGPT等大型语言模型的训练将耗尽互联网上所有可用文本数据,届时将没有新的真实数据可供使用。

  为给AI提供充足的“养分”,一种由算法生成的、模仿真实世界情况的数据——合成数据应运而生。合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。它可以作为真实世界数据的替代品,来训练、测试、验证AI模型。

  从理论上来说,合成数据为训练AI模型提供了一种经济高效且快捷的解决方案。它有效解决了AI训练使用真实数据时饱受诟病的隐私问题和道德问题,尤其是涉及个人健康数据等敏感信息时。更重要的是,与真实数据不同,合成数据在理论上可以无限供应。

  研究机构高德纳公司估计,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。

  科技公司来者不拒

  事实上,微软、元宇宙平台公司,以及Anthropic等众多科技头部企业和初创企业,已经开始广泛使用合成数据来训练其AI模型。

  例如,微软在1月8日开源的AI模型“Phi-4”,便是合成数据携手真实数据训练的;谷歌的“Gemma”模型也采用了类似方法。Anthropic公司也利用部分合成数据,开发出其性能最优异的AI系统之一“Claude 3.5 Sonnet”。苹果自研AI系统Apple Intelligence,在预训练阶段,也大量使用了合成数据。

  随着科技公司对合成数据的需求与日俱增,生产合成数据的工具也接踵而至。

  英伟达公司发布的3D仿真数据生成引擎Omniverse Replicator,能够生成合成数据,用于自动驾驶汽车和机器人训练。去年6月,英伟达开源了Nemotron-4340b系列模型,开发者可使用该模型生成合成数据,用于训练大型语言模型,以应用于医疗保健、金融、制造、零售等行业。在医疗、金融等专业领域,该模型能够根据特定需求生成高质量的合成数据,帮助构建更为精准的行业专属模型。微软推出的开源合成数据工具Synthetic Data Showcase则旨在通过生成合成数据和用户界面,实现隐私保护的数据共享和分析。亚马逊云科技推出的Amazon SageMaker Ground Truth也能为用户生成数十万张自动标记的合成图像。

  此外,去年12月,元宇宙平台公司推出开源大模型Llama 3.3,更是大幅降低了生成合成数据的成本。

  过度依赖风险难测

  尽管合成数据暂时解决了AI训练的燃眉之急,但它也并非尽善尽美。

  一个关键问题在于:当AI模型过于依赖合成数据时,它们可能会“崩溃”。它们会产生更多“幻觉”,编造看似合理可信但实际上并不存在的信息。而且,AI模型的质量和性能也会飞速下降,甚至无法使用。例如,某个AI模型生成的数据出现了一些拼写错误,利用这些充满了错误的数据训练其他模型,这些AI模型必定会“以讹传讹”,导致更大的错误。

  此外,合成数据也存在过于简单化的风险。它可能缺乏真实数据集蕴含的细节和多样性,这可能导致在其上训练的AI模型的输出也过于简单,缺乏实用性。

  为解决这些问题,国际标准化组织需要着手创建强大的系统,来跟踪和验证AI训练数据。此外,AI系统可以配备元数据追踪功能,让用户或系统能对合成数据进行溯源。人类也需要在AI模型的整个训练过程中对合成数据进行监督,以确保其高质量且符合道德标准。

  AI的未来在很大程度上取决于数据的质量,合成数据将在克服数据短缺方面发挥越来越重要的作用。对合成数据的使用,人们必须保持谨慎态度,尽量减少错误,确保其作为真实数据的可靠补充,从而保障AI系统的准确性和可信度。(记者刘 霞)

[ 责编:杨煜 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 天幕悬红镜,人间闹元宵

  • 正月十五闹元宵

独家策划

推荐阅读
在从事概率地震危险性分析、地震灾害风险评估工作中,我深刻感受到新兴技术发展日新月异,大大提升了我国的防灾减灾能力。
2026-03-04 09:42
从火星之上的精细探测,到地球深处探测的装备突破,我们用持续的创新创造,把关键核心技术牢牢掌握在中国人自己手中,为培育新质生产力、促进高质量发展贡献力量。
2026-03-04 09:41
我们始终坚持教育、科技、人才一体发展,推行“本硕博一体贯通+产业+专家+基地”模式,通过“博士村长”计划,培养了一大批知农爱农的复合型人才。
2026-03-04 09:40
回望“十四五”,中国经济在世界百年未有之大变局中彰显强大韧性,让我对高质量发展路径有了更深刻的认知。
2026-03-04 09:39
中国科学院国家天文台,年过八旬的中国科学院院士汪景琇春节假期一直在办公室忙碌,“有篇科普文章刚开了头,得抓紧写出来。”
2026-03-04 09:38
从实验室到产业化应用并不容易。王鹤说:“企业要想迅速响应市场需求,需要强化企业创新主体地位,让创新链和产业链无缝对接。”
2026-03-04 09:37
创新驱动是产业从“量大”走向“质强”的关键一跃,更是培育新质生产力的主引擎。
2026-03-04 09:36
我国生成式人工智能用户规模和普及率快速提升。
2026-03-03 09:37
本报讯(记者陶稳 通讯员张莹)突然出现头晕、头痛、视力障碍、肢体麻木无力,持续几分钟到几小时,无法缓解……遇到这些情况别大意,可能是“沉默的杀手”脑梗死在作祟。
2026-03-03 09:35
近日,中国科学院青岛生物能源与过程研究所太阳能光电转化与利用全国重点实验室联合香港科技大学研究团队,在钙钛矿太阳能电池埋底界面工程领域取得重要突破。
2026-03-03 09:34
今年元宵节,适逢月全食。新华社发(刘兵 摄)  本次月全食将从3日傍晚开始,整个过程主要分为半影食始、初亏、食既、食甚、生光、复圆、半影食终七个阶段。2025年9月7日夜晚至8日凌晨,在山西大同古城墙乾楼拍摄的月全食轨迹(多张堆栈),形似“金箍棒”。
2026-03-03 09:33
水稻患上了病毒病,往往矮化、分蘖(稻等植物发育的时候,在幼苗靠近土壤的茎节上生出分枝)增多,严重的甚至绝收。这一成果不仅解决了困扰学界的植物抗病毒免疫扩增谜题,更为培育“抗病不减产”的水稻新品种开辟了全新路径。
2026-03-03 09:33
这三项国家标准是:《食品安全国家标准 植物源性食品中352种农药及其代谢物残留量的测定液相色谱-质谱联用法》《食品安全国家标准 植物源性食品中242种农药及其代谢物残留量的测定 气相色谱-质谱联用法》和《食品安全国家标准植物源性食品中草甘膦等4种农药及其代谢物残留量的测定 液相色谱-质谱联用法》。
2026-03-03 09:32
由中国科学院古脊椎动物与古人类研究所主导的一项研究,在江西省九江市武宁县志留纪地层中发现盔甲鱼类大庸鱼科一新属种——武宁西海鱼。
2026-03-03 09:32
太空探索技术公司下属企业xAI为该项目另一竞争方,尽管其创始人埃隆·马斯克长期表示反对开发“杀人的新工具”。
2026-03-02 13:02
国家能源局发布的数据显示:截至2025年底,我国可再生能源总装机达到23.4亿千瓦。
2026-03-02 09:57
多国正将AI、物联网与大数据融入现有空气监测体系,追踪大气变化,预警污染风险,为人类在数字时代的每一次呼吸保驾护航。
2026-03-02 09:56
北部湾海域油田无人机系统运营项目正式落地,这是我国海上油田首次实现无人机规模化作业,为海洋能源开发与低空经济融合提供了实践范例。
2026-03-02 09:55
很多人都有过这样的疑问:AI离真正成为“人”,到底还有多远?研究人员表示:有突破,但仍有难以逾越的鸿沟,短期内无法实现“类人完整智能”。
2026-03-02 09:55
人工智能不再只会“死记硬背”了——我国科研团队最新研发出一种新型神经网络,让AI能像人类一样,从看到、听到的信息里自己提炼概念、理解含义,还能互相交流。
2026-03-02 09:53
加载更多