近期,科技界巨头埃隆·马斯克在消费电子展(CES)期间接受访问时,发表了对人工智能(AI)未来发展的深刻见解。他指出,用于训练AI模型的真实世界数据已接近枯竭,这一临界点据他估计,已在去年即2024年到来。
马斯克强调,迄今为止,AI训练几乎已经吸收了人类累积的全部知识。这一观点与OpenAI的前科学主管Ilya Sutskever在去年的“NeurIPS”机器学习会议上的论述不谋而合,Sutskever同样认为,AI产业可用的数据量已经达到了极限。
面对这一挑战,马斯克提出了一个创新性的解决方案:利用合成数据推动AI的进一步发展。他解释,合成数据,即由AI自行生成并用于自我训练的数据,将是弥补真实世界数据不足的关键途径。通过这种方式,AI不仅能自我评估,还能在没有额外真实数据输入的情况下持续学习和进步。
实际上,这一趋势已经引起了科技巨头的广泛关注。微软、meta、OpenAI以及Anthropic等公司,均已在AI模型训练中广泛采用了合成数据。这些企业认识到,合成数据在提高模型性能、减少对数据依赖方面具有巨大潜力。
根据科技市场研究机构Gartner的估算,2024年,AI及分析项目所使用的数据中,合成数据的占比已经高达60%。以微软为例,其在今年1月8日开源的AI模型“Phi-4”,便是结合了合成数据与现实世界数据进行训练的产物。同样,谷歌的“Gemma”模型也采用了类似策略,证明了合成数据在提升AI能力方面的有效性。
Anthropic公司则通过部分使用合成数据,开发出了表现卓越的“Claude 3.5 Sonnet”系统。而meta则利用AI生成的数据,对其最新推出的Llama系列模型进行了微调,进一步验证了合成数据在AI训练中的广泛应用前景。