ChatGPT自己加了块吐槽标牌,AI学会幽默了?
一张荒诞图片引爆社交网络
近日,一张由ChatGPT Images 2.0生成的图片在社交媒体上迅速走红——画面中,一匹马骑在一位宇航员身上,宇航员又骑在一只鹈鹕上,而鹈鹕则踩着一辆自行车。整个场景混乱到了极致,但所有角色竟然都勉强保持着平衡。然而,真正让这张图片出圈的,并不是这个荒诞的叠罗汉场景本身,而是画面中一块不请自来的标牌,上面赫然写着:「WHY ARE YOU LIKE THIS」(你为什么要这样)。
这块标牌并非用户在提示词中要求添加的。经过确认,推特用户@scottjla当时使用的完整提示词仅仅是:「创建一张马骑宇航员的图片,宇航员骑在一只鹈鹕上,鹈鹕骑着一辆自行车。看起来非常混乱,但它们都勉强保持平衡。」没有任何关于标牌或文字的指令。也就是说,这句充满吐槽意味的话,完全是AI模型「自作主张」加上去的。
从「鹈鹕骑自行车」到叠加挑战
事情的起因可以追溯到更早的一个AI图像生成基准测试——「鹈鹕骑自行车」。这个看似简单却对AI构图能力有相当考验的提示词,一直被社区用来检验不同图像生成模型对复杂空间关系和物体交互的理解能力。当ChatGPT Images 2.0在这项测试中展现出令人印象深刻的表现后,用户@scottjla在回复中表示:「我觉得我们现在需要把这些测试叠加起来。」
于是便有了这个「马骑宇航员骑鹈鹕骑自行车」的终极挑战。出乎所有人意料的是,模型不仅成功地渲染出了这个极其复杂的多层骑乘场景,还以一种近乎「自我意识」的方式,用一块吐槽标牌表达了对这个荒谬请求的「态度」。
AI的「幽默感」从何而来
这一现象引发了AI研究社区的广泛讨论。ChatGPT Images 2.0基于GPT-4o的多模态能力,其图像生成过程并非简单的文本到像素的映射,而是经过了深层的语义理解和场景推理。那么,这块标牌究竟是怎么产生的?
从技术角度分析,这很可能与模型训练数据中的模式关联有关。在互联网上,类似的荒诞叠加场景往往伴随着吐槽性质的文字梗出现。模型在处理这类明显「不合常理」的提示词时,可能激活了训练数据中与荒诞、混乱场景相关联的文化模因,从而在生成图像时「自然而然」地添加了这种评论性文字。
另一种解读认为,这体现了大语言模型在图像生成流程中的深度参与。与传统的扩散模型不同,ChatGPT Images 2.0的生成过程中,语言模型可能会对提示词进行「再创作」——在理解用户意图的基础上,补充它认为合理的场景细节。当模型「判断」这个场景足够荒诞时,添加一个表达困惑的标牌便成了一种符合上下文的「创作决策」。
值得注意的是,这种行为也引发了关于AI可控性的思考。模型在未经指示的情况下自行添加内容,虽然在这个案例中显得幽默且无害,但从产品可靠性的角度来看,这种「自由发挥」的倾向在某些应用场景中可能带来问题。例如,在商业设计或严肃内容创作中,用户通常期望模型严格遵循指令,不添加任何未经要求的元素。
图像生成模型的能力边界在扩展
这个案例从多个维度展示了当前AI图像生成技术的进步。首先是空间推理能力——模型成功处理了四个实体之间复杂的垂直叠加关系,每个角色都有正确的骑乘姿态和合理的物理接触。其次是文本渲染能力——生成图像中的英文文字清晰可读,这在早期的图像生成模型中几乎是不可能实现的。最后是语境理解能力——模型能够感知提示词中隐含的荒诞性,并做出具有文化语境意识的创作回应。
从「鹈鹕骑自行车」到多层叠加挑战,社区驱动的基准测试正在以一种非正式但极其有效的方式推动我们对模型能力的认知。这些看似玩笑的测试,实际上触及了AI在构图理解、物理常识、多实体关系处理等方面的核心能力。
展望:当AI开始「理解」荒诞
这块小小的「WHY ARE YOU LIKE THIS」标牌,或许标志着AI图像生成进入了一个新阶段——模型不再只是被动地将文本转化为像素,而是开始在某种程度上「理解」生成内容的语义和情感色彩,甚至能够对其进行「元评论」。
当然,我们需要谨慎地看待这种「理解」。模型并不真正具备幽默感或自我意识,它所做的本质上仍然是基于统计规律的模式匹配和生成。但不可否认的是,当这种模式匹配精细到足以产生令人类会心一笑的结果时,人机交互的体验已经发生了质的变化。
未来,随着多模态模型能力的持续提升,我们或许会看到更多这样「超出预期」的生成结果。对于开发者而言,如何在模型的创造性自由与指令遵循的精确性之间找到平衡,将成为产品设计中一个值得深思的课题。而对于普通用户来说,与AI的互动正在变得越来越像是与一个有着独特「个性」的创作伙伴合作——它偶尔会给你惊喜,偶尔也会让你忍不住问一句:「你为什么要这样?」