GPT-4o生图秘密大揭秘:港中文博士发现真相,竟可手动改图?

   时间:2025-03-30 12:08 来源:天脉网作者:冯璃月

近期,人工智能领域再度掀起波澜,GPT-4o的图像生成能力引发了广泛关注与热议。这款由OpenAI推出的最新模型,不仅在网络上掀起了一股“吉卜力”风潮,还激发了众多技术爱好者对其背后技术的深入探索。

据多位技术专家分析,GPT-4o的图像生成过程可能并非用户所见的逐行生成动画那般简单。港中文博士Jie Liu通过深入研究,揭示了这一前端动画背后的真相:它实际上可能是一种原生自回归(AR)生成方式,且用户甚至可以在一定程度上手动调整生成的图像。Jie Liu的发现表明,用户在浏览器中看到的逐行生成效果,更多是出于提升用户体验的前端设计,而非图像生成的真实过程。

无独有偶,CMU博士Sangyun Lee也对GPT-4o的图像生成原理提出了自己的见解。他认为,GPT-4o可能首先生成视觉token,然后通过一种类似于Rolling Diffusion的分组式扩散解码器,将这些token解码为像素空间中的图像。这一过程中,解码器可能按照从上到下的顺序进行解码,从而实现了高效的图像生成。

谷歌DeepMind的研究者Jon Barron也加入了这场讨论。他推测,GPT-4o的图像生成可能是多尺度和自回归方法的结合体。在这种混合模式下,一个自回归Transformer可能首先生成“先验”的潜在代码,随后由一个扩散解码器负责渲染图像。这一推测为理解GPT-4o的图像生成过程提供了新的视角。

尽管OpenAI尚未公布GPT-4o图像生成技术的全部细节,但用户们已经通过实际体验感受到了其强大的能力。GPT-4o不仅能够生成风格多样的图像,还能根据用户的指令进行逼真的照片编辑。这一特性使得它在美术、设计等领域展现出了巨大的应用潜力。

更令人瞩目的是,GPT-4o在生成漫画时展现出的元上下文和元理解能力。它能够自主预测不同的情境,并生成与之相符的图像内容。这一特性让许多用户感到震惊,甚至有人担忧人工智能是否正在走向自我意识的觉醒。

除了漫画生成,GPT-4o在风格重绘、形象迁移、设计参考等方面也展现出了卓越的能力。用户可以通过简单的指令,让GPT-4o将照片风格替换为皮克斯、3D、黑白等不同风格,或者将原照片放置在新的场景中。这些功能不仅让美术生和设计师们感到“破防”,也激发了更多用户对于人工智能应用的无限想象。

随着GPT-4o的广泛应用和深入探索,人工智能领域的发展前景愈发广阔。然而,如何在享受人工智能带来的便利的同时,确保技术的安全性和可控性,也成为了摆在我们面前的重要课题。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报