"AI进私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596展:数据挑战将至

 人参与 | 时间:2026-03-23 05:01:38

张佳欣

得益于大容量的机器学习模型和海量的数据训练,过去十年,人工智能技术在迅猛发展。“做大做强”策略也成功应用于大型语言模型的构建中,例如由OpenAI推出的人工智能聊天机器人ChatGPT,它代表了这一领域的最新成就。

然而,《自然》和麻省理工科技术评论等多家媒体网站都认为,人工智能发展已触及瓶颈。一方面,AI消耗了大量的能量;另一方面,传统的数据集养活了大量的人工智能模型,但如今已被模型开发者过度开采。

即将面临的训练数据瓶颈已经在悄然而生,有研究机构预测,到2028年左右,用于训练AI模型的数据集的典型规模将会达到公共在线文本估计总数规模。也就是说,AI模型可能在大约4年内耗尽训练数据。此外,随着数据所有者开始打击对其内容滥用行为并收紧访问权限(例如报纸出版商),这引发了“数据共享”规模上的危机。因此开发人员必须寻找解决之道来应对这一挑战。

需求与供给之间的差距

在过去十年里,法律硕士的发展表明对大数据的巨大需求。自2020年以来,用于培训法律硕士(LLM)的数据量增长了100倍,从数百亿增加到数万亿级。一个常见的数据集合RedPajama,包含了数万亿个单词。这些数据由一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。

与此同时,内容供应商们加入了越来越多的举措来阻止软件代码或修改条款来阻止爬虫和人工智能抓取其数据。具体来说,在这些被明确标注为限制爬虫访问的条款中数量从2023年不足3%猛增到2024年的约20%至33%,之间变化较大。

最近有几起与人工智能训练中数据使用的合法性有关的法律案件正在进行中。去年12月,《纽约时报》向OpenAI及其合作伙伴微软提起诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对于这两起诉讼,OpenAI表示,“起诉毫无根据”。

如果法院最后站到内容提供商那边,支持后者获得赔偿金的话,这对AI开发者特别是财务状况不佳的研究者来说可能意味着数据来源更加困难。

新方法有待印证

数据短缺是传统人工智能技术扩张所面临的重大障碍。

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。

有些公司将自家的数据用于AI模型训练,比如Meta就借助于其VR眼镜所获取的音频与图像数据,不过各大公司的规定有所不同,包括诸如Zoom这类企业便明示不会将用户数据用于人工智能训练任务。

另外一种可能是专注于快速增长的专业数据集,比如用于天体物理学和生物信息学的数据,但是这种数据是否易于用于大型语言模型训练以及它本身的适用性仍处于未知状态。

如果AI接收了除了文本之外的多种类型的数据,那么它接受数据的能力可能会变得更强。例如Meta公司首席人工智能科学家勒丘恩强调到:人类通过观察物体而“吸收”的信息量要远超出用于训练大规模语言模型(LLM)所必需的信息。或许可以由机器人形态的AI系统来学习这种经验。***私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596***

此外,创造数据也是一种解决方案。某些AI公司会支付人们为其生成训练内容,或者采用基于AI生成的合成数据来进行培训。这一现象正在成为巨大的数据来源。然而,合成数据也存在一些问题,比如递归循环可能会巩固错误、放大误解,并降低学习质量。

小型项目更有针对性和专业性。

一种不同的策略就是放弃“越大越强”的开发理念。一些研发者正在努力寻找性能更高,对单一任务专注的新型语言模型。他们需要更精致的数据,并采用更为先进的训练方法。

在本周五12月5日,OpenAI宣布了他们的最新模型“OpenAI o1”。这个新版本与以往有所不同,它主要采用了新的方法,在强化学习方面投入更多精力,并且让每一种回答都能够得到更加深入的思考。这种转变表明OpenAI从以往依赖大数据集来完成预训练转向更加注重于训练过程和推理结果的方法。

目前,LLMs似乎已遍览了网络上几乎所有的内容,他们可能已经足够聪明,无需额外的数据即可变得更加智能。斯坦福大学的一项研究表明,如果模型从大量不同输入中获取知识,它学到的内容和通过相同数量唯一样本学习到的东西是一样的丰富程度。

与合成数据、专门的数据集以及多次反复获取所带来的影响相配合,有望促使人工智能继续取得更进一步的发展进步。

顶: 3踩: 2359