
刘霞
特斯拉创始人埃隆·马斯克表示,人工智能初创公司xAI目前在训练中耗尽了人类知识的累积总和,在前研究中也显示,真实的个人数据将在两到八年内消耗殆尽。鉴于真实的数据日益稀缺,为了满足AI的“胃口”,科技行业开始转向使用合成数据
澳大利亚通讯社报道:本月稍早时, “对话” 网站强调,虽然合成数据对AI具有诸多优势,但如果过分依赖这种信息可能会降低其准确性或可靠性。
合成为应用所衍生
以往,人工智能技术主要依靠真实的数来建立训练以及优化算法。这类真实的数据通常来源于人们自己创造的文字,声音和图像文件,通过研究,实验,观察或者从互联网和社交网络等途径进行采集获得。
真实数据蕴含了大量关于事件与场景的真实信息和背景细节,使其具有极高价值。然而,这些数据也存在缺陷,其中拼写错误、不一致的信息及无关内容可能影响其质量,甚至隐藏潜在偏见,导致生成式AI模型在某些特定情况下所生成的图像往往只聚焦男性或白人形象。
但是真实的数据量正在日益减少,因为人们产生的新数据跟不上AI系统持续增加的需求。
去年12月在美国召开的机器学习会议上,美国开放人工智能研究中心联合创始人伊利亚·苏茨克维尔称,AI行业已经触及所谓的“数据峰值”。随着AI的发展,其训练数据已像化石燃料一样面临着耗尽的危机,需要大量新的、真实的数据来保持其运作。据预测,到2026年,由于ChatGPT等大型语言模型的使用会消耗掉互联网上所有的可用文本数据,将没有更多的现实信息可供其训练,导致AI功能受限甚至无法运行。
为了让人工智能系统获得充足的成长养分,一种算法生成的、模仿现实世界的新型数据——合成数据应运而生。私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596这类数据是在数字环境中被创造出来的,并非是源自现实世界的观察或测量结果,它作为真实世界数据的替代品可以用于训练、测试和验证AI模型。
理论上而言,通过合成数据为人工智能模型提供一种经济高效的解决方案,对于解决AI训练中遇到的真实数据隐私和道德问题具有显著作用。尤其是在处理包含个人健康等敏感个人信息的数据时更为如此。重要的是要注意到,与真实数据相比,合成数据在理论上可以无限供应。
高德纳公司预估,2024年,使用于人工智能(AI)和数据分析项目的数据当中,大约有六成将是虚构的数字合成数据。而在2030年时,基于AI的模拟生成的、而非人类输入的数据将会占整个AI模型使用的绝大部分。
科技公司来者不拒
实际上,在应用方面,微软、元宇宙平台公司,以及Anthropic等众多科技头颈部和初创企业的企业,已经开始大规模使用合成人造数据来培训各自开发的AI模型了。
例如微软于一月八日开源的AI模型Phi-4便是由合成数据和真实数据共同训练出来的;谷歌亦有其类似的方法,而Anthropic公司利用部分合成数据,开发出了性能卓越的AI系统Claude 3.5 Sonnet;苹果公司的自研AI系统Apple Intelligence,在预训练阶段也大量使用了合成数据。
随着科技企业对生成式数据的需求日益增长,相应的数据生产工具和软件也开始出现。
英伟达公司开发的Omniverse Replicator引擎能够提供3D仿真数据生成能力,用于自动驾驶汽车、机器人等领域的训练。去年6月,英伟达开源Nemotron-4340b系列模型供开发者使用,该模型被开发用于生成合成数据以供应用于医疗保健、金融等行业的大型语言模型训练。在医疗和金融业中,此模型可以产生高质量的合成数据,帮助构建更为精准的专业模型。微软推出Syntheti私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596c Data Showcase工具旨在通过生成合成数据和用户界面来实现隐私保护的数据共享与分析。亚马逊云科技也推出了Amazon SageMaker Ground Truth服务,为用户提供数十万张自动标记的合成图像作为参考。
此外,去年十二月元宇宙平台推出开源的大模型Llama3.3,大大降低了生成合成数据的费用。
过分依赖高风险
尽管临时合成的数据在某种程度上解决了 AI 训练的紧急需求,但这种技术并非十全十美。
问题的关键在于:当深度学习模型过度依赖于合成数据时,它们可能会发生崩溃。这种现象会导致模型产生更多“幻觉”,并编造看似合理可信但实际上并不真实的信息。同时,如果训练的数据质量不高或训练过程中的其他问题影响到AI模型的质量和性能,那么其可靠性就会下降甚至完全丧失。 比如,某个深度学习模型在生成数据时出现了一些拼写错误。当利用这些含有错误信息的合成数据进行再训练,其他的深度学习模型必然会犯类似的错误,并将这种错误传播开来,进一步导致大量错误信息的生成与传播,使得问题越来越严重。
此外,生成的数据还可能太过简单。它可能没有包含真实数据集中应有的细节及复杂性,进而导致在这样的数据上训练出的AI模型输出可能会显得简单而不实用。
国际标准化组织需要设立强大的平台来监控和验证人工智能(AI)训练集数据。另外,AI模型可以具备元数据追踪功能,允许用户或系统溯源生成的数据。人类也需要在全周期内参与AI模型训练中对生成的合成数据进行监督,以确保其质量符合道德标准。
人工智能的发展前景依赖于高质量的数据质量,生成性数据将在提高现有数据资源的利用率方面发挥日益重要的作用。在合理应用合成数据时,我们必须秉持审慎态度,严格审查并尽可能避免其错误使用,以确保它作为真实数据的重要补充,能够提升AI系统准确性和可信度。
顶: 898踩: 2716





评论专区