在近期的一次Reddit AMA活动中,OpenAI的首席执行官萨姆·奥特曼坦诚地揭示了公司面临的一个重大挑战:计算能力的不足正成为制约新产品推出的关键因素。奥特曼在回应关于新产品研发周期过长的提问时指出,随着模型复杂性的显著增加,OpenAI在计算资源的分配上面临诸多限制和艰难抉择。
奥特曼在AMA活动中透露,OpenAI的ChatGPT的逼真对话功能及高级语音模式的发展受到了计算能力限制的直接影响。特别是那些首次在四月透露的视觉能力,目前尚无法快速实现。在四月的新闻发布会上,OpenAI曾展示了ChatGPT应用在智能手机上的运行效果,该应用能够根据手机摄像头捕捉到的视觉线索作出回应。然而,据《财富》杂志后来的报道,那次演示实际上是为了转移公众对同期举行的谷歌I/O开发者大会的注意力而匆忙进行的,而GPT-4o的语音版本也因此被推迟了几个月。
OpenAI的图像生成器DALL-E的下一个重大版本也尚未确定发布时间。奥特曼在AMA中表示,他们目前还没有具体的发布计划。与此同时,OpenAI的视频生成工具Sora也遭遇了技术挫折,导致其在与Luma、Runway等竞争系统的对比中处于不利地位。据《信息》报道,Sora的原始系统在制作一个1分钟的视频剪辑时需要超过10分钟的处理时间。而在十月,Sora的联合负责人之一Tim Brooks离开了团队,这无疑给项目的进展带来了更大的不确定性。
尽管面临诸多挑战,奥特曼在AMA的后期仍然表示,OpenAI正在考虑在未来的某个时候在ChatGPT中允许“NSFW”(不适合工作场合)内容。他写道:“我们完全相信以成人的方式对待成年用户。”同时,OpenAI的首要任务仍然是改进其o1系列“推理”模型及其后续版本。在本周的伦敦DevDay会议上,OpenAI预览了即将推出的多个o1功能,包括图像理解。奥特曼在AMA中写道:“我们今年晚些时候会有一些非常好的发布,但我们不会称之为GPT-5。”