在东京的霓虹夜色中,一位身着黑色皮夹克搭配红色长裙的时尚女性自信漫步,她的身影在湿润反光的街道上形成了一幅动人的画面。这一幕不仅吸引了行人的目光,也悄然成为了AI技术发展的一个注脚。今年2月,OpenAI推出的Sora以其60秒一镜到底的文生视频迅速走红,让业界惊叹于AI视频的GPT时代已经到来。然而,在中国,这样的技术突破何时能本土化,成为了人们关注的焦点。
面对外界的期待,百度,作为中国人工智能领域的领军企业,给出了自己的答案。在11月12日的百度世界2024大会上,百度创始人李彦宏透露,当整个中文互联网为Sora的惊艳表现而赞叹不已时,百度却选择了一条看似更为枯燥但至关重要的道路——解决图像生成的幻觉问题。这一决定,虽然不如Sora那般引人瞩目,却对于AI技术的实际应用具有深远意义。
李彦宏在演讲中强调,大模型作为概率模型,其生成的内容往往带有不确定性,容易产生不真实、虚构的内容,即AI幻觉现象。这种现象不仅影响了AI的实用性,也限制了其在医疗、法律等需要高度准确性领域的应用。因此,百度决定投入研发iRAG(image based RAG),即检索增强的文生图技术,通过结合亿级图片数据和基础模型能力,利用检索到的信息指导文本或答案的生成,从而提高内容的质量和准确性。
iRAG技术的实际应用效果令人瞩目。在《独角兽观察》的实测中,iRAG生成的图片元素真实、准确性高,即使内容充满奇思妙想,如盖茨在长城与关羽搓麻将、手持狙击枪的林黛玉等,也几乎看不出“AI味儿”。这一技术的突破,使得AI生成图片的可用性大幅提升,为影视作品、漫画作品、海报制作等领域带来了革命性的变化,极大地降低了创作成本。
李彦宏将iRAG的商业价值总结为“无幻觉、超真实、没成本,立等可取”。他认为,这一技术的突破将推动AI应用的广泛落地,让更多人和企业能够享受到AI技术带来的便利。在大会上,百度还发布了基于大模型的100大产业应用,涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等多个行业,展示了AI技术在重塑千行百业方面的巨大潜力。
李彦宏还介绍了百度即将推出的秒哒工具,这一工具将使得大模型的使用门槛大大降低。通过秒哒,用户只需描述需求,即可由多个智能体协同完成策划、内容和开发等工作,无需编写代码即可实现任意想法。这一工具的推出,将使得更多人具备“程序员”的能力,推动AI技术的普及和应用。
李彦宏对于AI技术的未来发展充满了信心。他认为,大模型技术的广泛应用将推动AI应用的群星闪耀时刻的到来,每一个应用都将成为改变世界的力量。百度将继续致力于推动AI技术的发展和应用,为社会的进步和人类的福祉贡献力量。