GPT-4o的P图全家桶有多强？连Midjourney CEO都坐不住了_

GPT-4o的P图全家桶有多强？连Midjourney CEO都坐不住了

茶饮消息

03/27 21:29关注新茶饮行业趋势，了解各品牌产品上新信息。来自北京市

不会PS也能赢麻了！

这句话我们已经在各种各样的AI生图工具那里听了太多遍，不过，这次GPT-4o好像玩的是真的。

打开社交媒体，无论是X还是小红书，都被GPT-4o生成的图片刷了屏。上次AI产品能让全网这么嗨玩，可能还是DeepSeek R1。

随机掉落几个案例，震撼一下还没刷到的朋友，比如下面这张论文插图，就是GPT-4o做的。

来源：小红书@陆导

宫崎骏画风的特朗普“积极坦诚对话”泽连斯基，GPT-4o做的。

约稿一张5块的日本小人，GPT-4o做的。

排版精良的长图海报，GPT-4o做的。

来源：小红书@张一凡

3D深度图，GPT-4o做的。

来源：小红书@小崔大口吃汤圆，原博主评论：“虽然现在图像还有些瑕疵，但是这空间能力和affordance推测能力提升有点太大了。”

各种风格的头像随心切换，还是GPT-4o做的。

最左为原图，分别改为迪士尼、吉卜力、史努比和星露谷风格

最重要的是，以上这些操作，GPT-4o几乎都是一次成功，无需多轮对话修改。

再加上AI视频的魔法，一部宫崎骏风格的《星际穿越》就这么水灵灵地做出来了。

打开凤凰新闻客户端提升3倍流畅度

视频来自X@kb24x7

制作步骤其实只有两大步：第一，用GPT-4o生成首尾帧；第二，把这些图片放到Morphic等视频生成平台输入想要的动作效果，再剪辑拼合。

那么问题来了，AI绘图工具明明多如过江之鲫，为什么是GPT-4o破圈？

答案也很直观，首先是好看。AI生图，颜值即正义，效果如何一眼就能看出来。

就拿生成微信公众号封面来说，同一段提示词，即梦和GPT-4o端出来的作品，不需要投票，从构图到配色，相信大家心中也有判断。

提示词：A pair of pastel-colored headphones with a gradient from blue to purple，floating in a soft pink background.In the center of the headphones，there is a small ball with the word "mureka" written on it in a playful font.The image should have a 3D，cartoonish style.colorful background.

图左来自即梦，图右来自GPT-4o

其次是足够简单，能达到这么好的效果的，操作比对话复杂得多，特别是Stable Diffusion和Midjourney，至今仍需要复杂咒语。至于还想更精细，就只能自己微调lora或者训练模型了。

而风格化、抠图、带文字排版，在其他平台要手动框选，在页面之中跳转的功能，GPT-4o都包揽在一个对话框里，效果还更强。

综合来看，结合了“能打”和“好用”的GPT-4o这次主要带来了几大杀手锏：

高保真真实照片

有审美的文字排版：从海报到梗图，不仅准确，字在哪里都听你指挥

各种风格、滤镜随心切换

P图全家桶：抠图、换脸、扩图样样行，还能结合不同图片中的元素“炖”出一张新图来

听起来很厉害？让我们一项一项地来看，GPT-4o是不是真的这么神。

真实感

这居然是AI生成的吗？摄影师看了沉默，平台审核看了流泪，以后我们还看得出照片里的AI味吗？

提示词：帮我生成一张身着白裙的女生，比着剪刀手，在佛罗伦萨的旧宫门口拍的照片。

不过，GPT-4o偶尔也会翻车，不仅没画出小米su7的“樱花”轮胎，还把雷总生生卡在了车外。

提示词：雷军从小米su7里探头比耶，背景是武大樱花，照片尽可能接近真实。

文字排版

无论是菜单、婚礼请柬、漫画、科研插图，只要是需要排版的图片，GPT-4o真的带来了一种“aha moment”的感觉。

除了字体边缘稍为有些模糊之外，这个菜单似乎可以直接放在餐厅用了。

图源微信公众号：赛博禅心

不过，虽然排版够用了，GPT-4o的汉字写得还不太好。

以后直接把论文方法扔给ChatGPT，配图就可以出来了：

图源：小红书@云安

提示词写得稍微简单一些，这个配图也是next level了：

想要更复杂的设计，网易云听歌年度报告也能安排。当然，相比英文的准确度，GPT-4o的汉字还亟待进步。

图源X@歸藏@op7418

最重要的是，GPT-4o多模态能力是原生的，它可以理解你的需求，在不提供文案的情况下，它也能续上画面中的主体和对话。

要知道，主体一致性至今也是视觉生成的难题。在GPT-4o出现之前，大家一般会用Stable Diffusion和ControlNet来治疗生图模型“选择性失忆”的问题。

但是现在在GPT-4o里，主题一致性已经完全不再是问题。

图源：X@emollick

不仅完全告别即使是输入图像主题参考，每次抽卡的人物也都各有各的抽象。现在根据上下对话中的结果，GPT-4o就能稳定输出，角色特征分毫不差。

图源：X@zhansheng

风格化

都说GPT4o一出，宫崎骏的天塌了一半。

现在X上最火的，就是把各种各样的名场面让GPT-4o用宫崎骏的风格再画一遍。无论娱乐圈，还是科技圈，哪怕已退生物圈，都逃不掉。

OpenAI CEO Sam Altman把自己的头像改成了吉卜力风格的自己

虽然换了画风，但是画面中人物本来的面部特征，都得以保留，不一一标出这些图片中的人物，相信大家都认得出来它本来的面目。

当然，除了吉卜力风格，任何画风它也能hold得住。

比如梵高风格的李逵，就连文字都能完美融入其中：

再比如，皮克斯CG 3D风格的伊利亚和奥特曼吵架神图：

还有泽连斯基和特朗普在白宫吵架的经典一幕，也被网友用GPT-4o转成了蜡笔小新风格：

图源：小红书@AI学习笔记

看来以后，网友的整活又多了一款神器。

满足基础设计功能

2023年底，美图秀秀和剪映曾推出了扩图功能，但画风相当癫狂，不是男女不分，就是人面兽身。

而GPT-4o也被网友开发出了相同的功能，效果相当惊艳，不仅能扩出小狗的全身，还能让它跑起来。

一键换衣，不用再提供10张全身照片：

仅需两张图片外加一句简单的提示词，就能让图一的人物跑到图二中的手机样机里：

图源：小红书@AIGC魔法学院

此外，GPT-4o还能直接生成带通道的照片，图中的人物、和背景都是分开生成的，不需要后期抠图，编辑起来方便了不少：

动图来源：X博主歸藏

看完了这些case，学绘画的朋友们，学comfyui的朋友们，你们还好吗？

当然，除了一片叫好声外，也有质疑声。据说今早，Midjourney的CEO就在内网大大嘲讽了GPT-4o一通：

GPT-4o生成图像又慢，质量又差。

他们开发这个功能只是为了筹集资金用的。

GPT-4o不是一款创意工具。

一周后（Midjourney v7即将发布），就没人会在讨论GPT-4o了。

至于Midjourney v7发布后，GPT-4o是不是还是这么火，我们无从得知，但我们将持续关注。

打开APP阅读更多精彩内容