OpenAI“语音引擎”小规模试用 AI人声朗读或成新趋势

   时间:2024-04-02 11:11 来源:天脉网

【天脉网】4月2日消息,OpenAI近日揭晓了一项创新功能的初步测试成果,该功能能够利用高度逼真的人声来朗读文本内容。这一进展不仅标志着人工智能领域的新突破,同时也引发了关于深度伪造技术的潜在担忧。

据OpenAI介绍,他们新推出的“语音引擎”(Voice Engine)文本转语音模型,目前正处于小规模试用阶段。该模型的演示和用例已经分享给了一些合作伙伴,发言人透露,当前约有10家开发商获准使用该模型。尽管OpenAI在3月初就向记者们展示了这一功能,但公司决定暂时不进行大规模发布。

OpenAI的这一决策是在综合了政策制定者、行业专家、教育工作者以及创意人士等多方利益相关者的反馈后作出的。据此前新闻发布会的消息,公司原本计划通过申请流程向最多100家开发商发布这款工具。然而,考虑到技术的敏感性和潜在风险,OpenAI选择了更为审慎的发布策略。

与OpenAI以往生成音频的功能相比,语音引擎的显著特点在于它能够创建出听起来非常接近特定个人的声音,并且能够精准地复制其独特的语调和语气。令人惊讶的是,这款软件仅需一段15秒的录音,就能重现一个人的声音。OpenAI的产品负责人杰夫·哈里斯(Jeff Harris)表示:“只要音频设置得当,基本上就能生成与人类水准相当的声音。”他对这一技术成果的质量赞不绝口,但同时也承认,“准确模仿人类语音的能力显然带来了很多安全上的不确定性。”

在这一技术的众多应用场景中,帮助患者恢复声音尤为引人关注。例如,OpenAI的合作伙伴之一——非营利性医疗系统Lifespan旗下的Norman Prince Neurosciences Institute,正在利用语音引擎为因疾病或损伤而失去说话能力的患者提供帮助。据OpenAI的博客文章介绍,该工具已经成功复制了一位因脑瘤而失去清晰说话能力的年轻患者的声音,方法是利用她此前为学校项目录制的发言。

此外,OpenAI的自定义语音模型还具有将生成的音频翻译成不同语言的能力,这对于音频行业公司来说具有极高的实用价值。比如,Spotify Technology SA就已经在其试点计划中利用该技术来翻译热门主持人的播客节目,从而扩大其内容的受众范围。OpenAI还积极宣传了该技术在其他方面的有益应用,如为儿童教育内容创建更加多样化的声音。

在测试计划中,OpenAI对合作伙伴提出了严格的使用政策要求,包括在使用原始声音前必须征得声音主人的同意,并明确告知听众他们听到的是由AI生成的声音。为了确保其技术的合规使用,OpenAI还在生成的音频中加入了听不见的音频水印,以便追踪和识别由其工具创建的音频内容。

OpenAI表示,在决定是否大范围发布该功能之前,他们正在广泛征求外部专家的反馈意见。公司在博文中写道:“让全球人民了解这项技术的发展方向至关重要,无论我们最终是否亲自广泛部署它。”同时,OpenAI也希望通过这次试用能够“激发增强社会韧性的需求”,以更好地应对未来更先进的AI技术可能带来的挑战。例如,该公司已经呼吁银行逐步停止将语音身份验证作为访问银行账户和敏感信息的唯一安全措施,并寻求开展更多的公众教育活动,帮助大家提高对欺骗性AI内容的识别能力。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
海清点评
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报