Flux.1测评VOL.2 Flux与Midjourney、豆包、可图的生图对比

[复制链接]
wwr 发表于 2025-1-17 10:02:04 | 显示全部楼层 |阅读模式
wwr
2025-1-17 10:02:04 453 0 看全部
本帖最后由 wwr 于 2025-1-17 10:06 编辑

本期测评从三个方面来进行出图,首先是内容、然后是生产以及规格。因为Flux是一个自然语言的模型,从整体不同的质感和风格上面,选择用目前市面上主流的几个自然语言模型——Midjourney、豆包和可图来进行对比。我们进行了同样的关键词输入并获得输出图片。

人像写真
Test-1

640.jpg
640 (1).jpg
640 (2).jpg

可以看出Flux的写真更接近于相机拍摄出来的写真风格,豆包会更加符合中国人审美自带小红书网感,可图的稳定性较弱在人像美的呈现上也并不突出,Midjourney有自成一派的特殊滤镜和艺术风格。

手部生成
Test-2

640 (3).jpg
640 (4).jpg
640 (5).jpg

第二组测试进行了肢体和手部动作的关键词输出,在简单的“手比耶”的输出中,除了Flux可以保持正常的手指结构之外,其他模型在手部生成上都会有多多少少的问题。而在对“千手观音”进行输出的时候,Flux在肢体完整度和比例上大体是OK的,其他模型均有不同程度的问题。通过对敦煌壁画的还原,可以看出豆包对于中国文化的理解能力是非常好的,Flux对敦煌的理解更加偏向于西方,但是人物手和脚的生成都没有太大问题。

背景生成
Test-3

640 (6).jpg
640 (7).jpg

第三组是根据背景物品,按照背景的逻辑性写了两组关键词,一组是比较日常的室内带有一些角度的屋内场景,另外一组是透视比较大的室外场景。通过对比可以看出来,Flux对于室内物体的理解是非常好的,它能够理解物理世界中的各个角度,包括墙体、折角以及透视关系,这些物品的摆放位置都是非常准确的。
Midjourney、豆包和可图在背景结构的精细度上略显不足,比如墙体的折角、桌角的透视都有问题。对于大构图,Fulx整体出图类似杂志写真对称感极强,背景中建筑有细节问题但画面冲击感和人物质感都表现得很好。Midjourney的图片有自带的艺术感和梦幻感,豆包和可图在真实感和艺术性上都较弱。

文字输出
Test-4
第一部分是生日写真可以看出Flux对于生日“happy birthday”这个组词理解的非常好,呈现出了完全正确的拼写,而且画面符合生日氛围。然后其他三个模型在各个地方都会有对文字理解不到位的情况,手的问题也会再次出现。第二部分选择了带有“优酷”图样的PPT演讲场景,PPT背后是SD3的内容,可以看出来Flux生成的图片衣服上“优酷”字样呈现非常完美,而且能识别出衣服上的文字根据身体的变形,符合物理学。包括背后的PPT,虽然看不清内容但是排版非常规整,可以以假乱真。Midjourney对于文字的理解能力也是比较强的,但手部生成完成较弱。就形式上来说豆包和可图文字理解能力会弱很多,基本识别不出文字,后面SD3的文字也无法呈现,整体都会非常凌乱。

生产方向测试
Test-5

640 (8).jpg
640 (9).jpg
640 (10).jpg
640 (11).jpg

在对长文本的理解能力上,可以看出Flux不会有特别离谱的出错,能够达到你这个语义70%。Midjourney、豆包只能达到40%、50%这个样子,各方面都会有折损。

规格方向测试
Test-6

640 (12).jpg

对于同一组关键词进行了分辨率500*1000以及1500*3000的输出。出图可以看出来,不管是小图片还是大图片,都能把人物整体结构很好地完成,手和肢体也不会有太大的错误,但是放到3000特别大的时候,整个画面会和理想画面有一些出入,整体来看Flux支持小图片也支持大图片的输出。

Test-7

640 (13).jpg
640 (14).jpg

继续拿关键词进行比例方面的测试,把比例调成非常极端的长构图。可以看出把它压到200*2200这样的极端长构图,Flux也能较好的完成出图,并且还能保持故事感。它会根据构图来调整画面内容。甚至可以帮你裁切图片,达到你想要的规格画面。人物的肢体也比较正常。

总结
Flux-Dev特点:
内容:1. 效果客观不美化,接近相机直出的真实感,作为基底微调非常合适。--test -12. 手部正确率高,身材比例基本正确不扭曲。--test -23. 背景物品更遵循现实规律,不乱出。--test -34. 英文文字正确率高。--test -4
生产:1. 对长文本的理解力很强,效果对齐精准。--test -5
规格:1. 分辨率可控程度高。  --test - 62. 图片比例支持程度高,特殊比例不畸变。--test -7


Flux-Dev缺点:
内容:1. 亚洲面孔支持度较弱。
生产:1. T5所需文本过长,需要借助AI扩写。


原文链接:https://mp.weixin.qq.com/s/Ka3bTSW7xl2Hg4VUCpMgQg


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 返回列表

wwr当前离线
版主

查看:453 | 回复:0

欢迎
  • 联系电话
    13143516491
  • 邮    箱
  • 地    址
    广州·天河·五山路·金山大厦·北塔1801
快速回复 返回顶部 返回列表
|