本帖最后由 并没有太多用 于 2025-4-1 11:25 编辑
3月26日,沉寂已久的OpenAICloseAI发布了新的ChatGPT-4o模型,其中最引人瞩目的就是其原生图像生成功能。用人话说,就是告诉它需求,它帮你P图。 这次OpenAI良心地让免费用户也有试用资格,所以特来一试。事先声明,以下内容会尽量全面地呈现实际使用中的结果,不吹不黑。
一、使用方法 然后填写修改要求,再点击“↑”即可提交上传。 对免费用户而言,单个账号一天能提交的数量应该是比较有限制的(大概5张左右),但可以通过用多个邮箱注册不同账号来白嫖,其中qq和163都是可用的,但不能用带有教育(edu)的邮箱。
二、使用测试 1.修改角色细节 这回使用的示例图片是这一张,虽然乍一眼还算帅帅的看得过去,但有不少细节可以打磨。
设定上是阿努比斯的哥哥,白狼神乌普奥特,在咕咕已久的阿努比斯的故事中即将出场。 |
首先试一个简单的改法,设定需求为:请把图中人物的项链改得更有埃及风也更美观,其余部分不变。结果如下:
评价这幅图改得好坏,我会从以下维度分析(可不看): (1)关于对要求的遵循程度:把项链改美观的主要要求已经达到,而且很符合“埃及角色必带安卡符”的刻板印象。但也显然没遵循“其余部分不变”的要求。 (2)关于对原图瑕疵的修改:原图的问题除了比较明显的项链外,还包括身上的光影,和眉鼻间过于方正且有错位。在修改后的图里,肩膀位置的光影问题被继承了下来(也许被AI理解成了身体本身的纹路),但腹部的光影则处理较好,能显示出肌肉的轮廓;眉鼻间的问题处理得很好,看起来是具备整体感的。 另外不知是不是我的错觉,头好像改得扁了一点。 |
总体而言,考虑整体的美观度,能给个8.5-9分。
因为AI没遵循“其余部分不变”的要求,外加这名角色的设定还是更偏“谦和”的,上一幅图则显得有些成熟和英武了。考虑到这一版的GPT似乎对中文接受度不是很好,使用新的英文prompt再试一次:Please change the necklace of the figure in the picture to be morebeautiful, but the rest of the same, especially the eyes. The character styleshould keep the original handsome and soft, and keep the painting styleconsistent. (翻译:请把图中人物的项链改得更漂亮一些,但其余部分不变,尤其是眼睛。人物风格要保持原有的帅气和柔和,画风要保持一致。) |
结果:
“其余部分不变”的要求还是没达到,优点和缺点也大同小异,给个8.5分吧。但毕竟是更加柔和的形象,选这一张作为加下来生图的素材。
2.推理角色整体形象与所在场景 使用如下prompt,让该角色手持长弓站在沙漠中: Please help me make the character in the picture stand in the desertwith a longbow. Keep the style the same. (翻译:请帮我让画中的角色持长弓站在沙漠里。保持画风不变。) |
结果:
我了个反重力长弓呀,真不走心。不过嘛,竟然没画裤子耶(喜)~ 除却一眼能看见的问题,还有些细节是可以留意一下的: 优点: (1)没有出现AI常见的手指变形问题,这非常难得; (2)自动补上了一条尾巴,说明AI真的理解了所绘制对象是狼; (3)光影问题处理得比较好,尤其是弓竟然在大腿上有投影。 缺点: (1)耳朵部分的近大远小没有处理好; (2)头部似乎变得更为扁平了,而且眼睛细节省略了很多,导致角色看起来比较慵懒; (3)腰带的对称性也是没做考虑的; (4)整体画面会显得偏黄,可能是因为生成内容会莫名偏向吉卜力风格。 |
不过看在没穿裤子的份上,所有缺点都不重要了~
另外,我也把原图扔进去,加上了更多prompt的描述:Pleasehelp me let the character in the picture stand in the desert, with one handputting on his hip, and the other hand holding a longbow.Keep the paintingstyle consistent. (翻译:请帮我让画中的角色站在沙漠里,一只手叉腰,另一只手拿着长弓。保持画风一致。) |
结果: 赤身果体却一脸清纯的哥哥……要犯罪了……不行不行绝不能有非分之想……
等等,怎么会有弟弟看见哥哥的果体就被魅惑得移不开眼呢(*´д`)
3.表情差分生成 使用如下prompt,生成开心、愤怒、悲伤和严肃的表情差分: Draw the difference between the character's happy, angry, sad, andserious expressions. 结果:
开心和愤怒都还算acceptable,但这悲伤和严肃是什么鬼!?莫名想到了某个jojo里乔鲁诺的表情包…… 正经的说,也许是AI没有太多福瑞角色表情的素材,所以把人类的模板套了上去。 但还有一种可能:GPT-4o模型生成图片的顺序是从左上到右下的,因此越往右下偏离的可能性越大。因此,我把四个表情的顺序颠倒后再输入,得到结果:
好像确实变好了一些,至少严肃和悲伤看起来没那么抽象了。但总觉得表情差分里的角色和原图的不是同一个,这个功能还有提升空间。
4.绘制四格小漫画 绘制有连续内容的画面算是GPT-4o比较有卖点的功能,用如下prompt测试:Draw a four-frame comic with the character in the picture as theprotagonist: 1. The character is walking in the desert; 2. The character lowershis head to wipe the sweat off his face; 3. The character finds a stone slab inthe sand with an arrow painted on it; 4. The character walks in the directionof the arrow. (翻译:以图中角色为主角,画一幅四格漫画:1. 角色在沙漠中行走;2. 角色低头擦去脸上的汗水;3. 角色在沙地中发现一块石板,石板上画着箭头;4.角色顺着箭头的方向走去。) |
结果:
画风变得好萌耶~哥哥好可爱,想……阿努你冷静点(#`Д´)ノ
正经的说,除却变萌的画风(毕竟要求里也没提画风的事),角色在不同画面间的一致性,和对要求的遵从性可以说做得很好。例如,本来在图二才出现的汗水在图一已经有所体现。
要说缺点,也有一些,不过不算特别突出: (1)标志性的金色眼睛搞没了; (2)存在上半身大下半身小的迹象; (3)部分细节,如第一张的腿部、第四张的手指和脚印都有提升空间。 |
综合来说,GPT-4o在改图方面,哪怕还有提升空间,也肯定是有质的突破的,这一点集中提现在角色的一致性和对内容的理解能力上,可谓离用AI创作漫画算是又近了一步,毕竟各种prompt技巧算是AI还不够聪明时的权宜之计,真正聪明的AI应该能满足哪怕表述不清的人的需求。但会员用户至少要20美刀一个月,这个价格对普通玩家不是很友好。
其他一些非内容性的要点 1. 在用局部图生成全身图时,避免使用“扩图(expendimage)”,尽量使用改图,不然会喜提封印若干时间: 2. 免费用户不要在一次请求里上传多余一张的图,不然直接封印24小时(也是因为这个原因,我没做双图融合实验)。 3. 多次提交失败或卡在出图环节动不了都是正常的,免费用户是这样的了(摊手)。
别想了,擦点边都不行
所以,马保国同志,快用你无敌的能搞瑟瑟的Grok想想办法啊 |
|