Midjourney V6神图炸出！生图效果碾压DALL·E3，逼真画面光影细节

作者：admin 更新时间：2023-12-23 点击数：

　　兵贵神速，Midjourney V6昨天上午说要来，下午就真来了。神图纷纷炸出，光影效果登峰造极，主打一个「你能说我就能画」，擅长写Prompt的朋友，你们有福了！

　　编者按：本文来自微信公众号新智元（ID：AI_era），编辑：编辑部，经授权转载。

　　猝不及防的，Midjourney V6昨天下午忽然发布了！

　　虽然已经预告了是这两天，但谁也没想到Midjourney的手速居然这么快，赶在圣诞节前让大家尝尝鲜。

　　在/settings的下拉菜单中选择V6，或者在Prompt后输入 --v 6，就可以用上V6 Beta版模型了！

　　激动的网友们蜂拥而入，出炉了一大波测评。比起V5，V6真的是疯狂加细节，画面质量史诗级增强。

　　根据MJ官方介绍，V6的主要变化，就是图像质量更好、语义理解更强、能嵌入英文单词、更容纳更多token了。

　　举个例子，下面这两张超人和蝙蝠侠的「剧照」，要不是背景里的「V6 is here」的提示，几乎已经分辨不出来到底是实拍还是出自AI。

　　以前被诟病最多的「一眼AI」，也在V6上达到了几乎「以AI乱真」的地步。

　　有网友表示：Midjourney V5到V6的升级，堪称是一次里程碑，意义堪比Stable Diffusion出现高清重绘。

　　除了图像模型的大提升之外，V6最大的变化，就在于提示词系统几乎重做了。

　　用户很可能需要重新学习怎么写提示词，需要尽量避免之前「语焉不详的描述」，例如「award winning」这类形容词。

　　之所以会这样，是因为在以前，模型没办法完全反映提示词的要求，写太详细也没用。但是升级之后，图片会尽可能地遵循提示词中每一个词，所以用户也要珍惜提示词的空间，尽可能地详细描述自己想要的内容。

　　总之一句话就是，「只要你能说得清楚，V6就能给你画明白。」

　　网友用Midjourney V6来想象「如果史蒂夫·乔布斯今天还活着，他会是什么样子」，结果令人震惊

　　这位网友表示：如果说这是生成式AI创造的图像，没人会相信我。

　　它已经达到了电影级别的质量。这一领域的创意，比如电影、照片、海报和杂志，从此很可能由AI主导。

　　另一位网友表示，MJ V6太逼真了，你可以直接用它想象你最爱的演员在电影中的样子，比如Jared Leto在Netflix《最后的沙皇》中的扮相。

　　神图纷纷出现，图像质量史诗级提升

　　里程碑级的升级，究竟体现在了哪些地方？

　　一位网友用同样的Prompt来测试了V6和V5.2，可以看出，V6的提升体现在多处细节上。（上V6，下V5.2）

　　雨坑中日落的倒影，V6的光影效果明显比V5.2更自然，V5.2的加工痕迹要更明显。

　　reflection of a sunset in a rain puddle

　　仔细观看可以发现，同样的女性面部主体，V6在皮肤细节、毛发细节、光影效果上，都远优于V5.2的效果。

　　1940年代复古科幻电影中身穿高领银色操作衣的女操作员，V6生图明显要比V5.2更加线的图片主体人物显得过于呆板，不像真人。

　　1940s retro sci-fi film, medium side-angle shot of a young female control panel operator wearing a form-fitting silver jumpsuit with a high collar. She is surrounded by 3 art deco robots. warm glowing buttons and switches, soft illumination

　　下面这两幅食物的图片都很诱人，但是V6的色彩和光影还是要更胜一筹。

　　a pot of stew with a wooden spoon, top-down perspective

　　在生成「二次元」风格的口袋妖怪时，V6生成的效果神似动漫，而V5.2会画得更像个摆拍的手办。

　　frozen squirtle on the top of a snowy mountain 35mm film still of a detective

　　超强语义理解，Prompt说啥就画啥

　　如果说在以前，视觉效果和美学表现都足够震撼的Midjourney，为何风头时常不及DALL-E 3和Adobe Firefly，那自然是因为对于Prompt的高要求，吓退了众多「语死早」的用户。

　　并且，V5.2糟糕的语义理解，也经常让生图结果是「虽然美丽但不实用」。

　　而如今的V6，让Midjourney对于语气增强的理解，终于追上了竞家的脚步。比起V5.2，V6大大增强了语义理解的能力，对于Prompt的把握也更加精准。

　　写着「open late」霓虹灯标志的酒吧，V6就原样生出来了，V5.2的字样根本就不对。

　　而且从光影效果来看，V6也要更丰富更真实，就像给图片开了光追一样。

　　a corner bar with a neon sign that says "open late"

　　这张1960年代的街头风格照片，需要画出一位年轻女子穿着绿色丝绸连衣裙、戴着珍珠项链坐在帆船上。

　　显然，V6对于「珍珠项链」的理解要比V5.2好很多，而且除了人物主体之外，V6的周边细节也更合理精细。

　　1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200

　　「1980年代的悬疑电影，仰拍，身穿黑西装的法国管家在维多利亚式豪宅的走廊中手握蜡烛。」

　　从光影和构图来看，V6更符合要求，主体人物很好地融合进了背景里。而V5.2基本都没有做到。

　　1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery

　　下面这幅要求画出抽象、超现实的景观，有融化的时钟、扭曲的形状和浮岛，空中有一只眼镜形状的巨大月亮。

　　其中，V6在空中画出了「A large, eye-shaped moon dominates the sky」，而V5.2就没有把这部分体现出来。

　　An abstract, surreal landscape with melting clocks, distorted shapes, and floating islands. The color palette is vibrant with a mix of blues, reds, and greens. A large, eye-shaped moon dominates the sky

　　这张1970年代的柯达Ektachrome电影剧照，需要画出身穿深V绿色丝绸连体裤的25岁红发女子。但V5.2并没有把我们要求的深V领口画出来。

　　1970s medium-closeup Ektachrome film still of a 25-year-old woman with curly red hair and freckles standing in front of vintage car in downtown Los Angeles. She's wearing a green silk jumpsuit with a plunging neckline. Golden hour

　　「五颜六色的珊瑚礁，各种各样的海洋生物，包括各种鱼、海龟和顽皮的海豚」。

　　这次，V5.2直接把海豚无视掉了，并自作主张地画了一个潜水员……

　　A colorful coral reef teeming with marine life. There are various species of fish, a sea turtle, and a playful dolphin. Sunlight filters through the water, creating a dappled effect on the sea floor.

　　「1980年代的间谍电影，年轻的黑发女人站在埃及装饰风格的豪宅中，有着黑色大理石柱子。」

　　显然，V6对于黑色大理石柱等背景的还原，要比V5.2准确得多。

　　1980s spy movie, Medium closeup shot from low-angle, 35mm film still of a young brunette Egyptian woman standing in an Egyptian Art Deco Mansion with large columns made of black marble, wearing a black sequin dress, inside, daytime, natural lighting

　　「电影剧照，一名侦探在犯罪现场采访一名女性证人，侦探在做笔录，目击者焦急地看着，指着一条线索。」

　　可以看到，V6的人物动作更加符合常理，而V5.2的图片中人物动作像是在发呆，没有按照提示词的描述进行做笔录的行为。

　　interviewing a female witness at a crime scene. The detective is taking notes, while the witness looks on anxiously, pointing towards a clue

　　就如同开头所说，「只要你能说得清楚，V6就能给你画明白。」

　　如果你是个想象力大师，可以用逻辑结构清晰、充满细节的语言描绘出心中所想，V6定不会让你失望——语言可以控制光影、控制材质、控制色彩、控制构图。

　　一句话，语言的魔力已经被放至最大：能写出神级Prompt的人，必得神图。

　　而相比之下，有ChatGPT加持的DALL-E 3，就不这么苛求用户的语言表达能力，而是可以自行想象。

　　难怪大家都说，Midjourney的上限足够高，DALL-E 3的下限足够低。

　　文字生成，直追SOTA

　　在文字生成上，V6较前代也有了巨大的提升。

　　EMPTY、TOMORROW、Coca Cola，这些字在图像中想加就加。

　　虽然在准确度上略逊于DALL·E 3，但视觉美感方面的表现，Midjourney依旧是遥遥领先。

　　不过需要注意的是，下面这些图像，每一张都进行了3-10次的尝试，才得了到比较理想的结果。

　　A man standing alone in a dark empty area, staring at a neon sign that says "EMPTY"

　　A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "ORGANIC SNACKS" featured prominently

　　An anime style movie poster with the stylized words "TOMORROW", with a girl looking upwards at the night sky, and cherry blossoms floating in the wind. --s 200

　　A Coca Cola ad, featuring a beverage can design with traditional Hawaiian patterns

　　A clean, minimalistic logo featuring an ice cream cone, with palm trees as the backdrop and the words "ICE CREAM OASIS" --style raw

　　A clean and minimalistic professionally designed vector of a biker speeding on a highway, with the words "FREEDOM ON WHEELS" --s 250

　　A minimalistic product shot of a bottle of perfume on a clean backdrop with the words "Floral Symphony", surrounded by fragrant white flowers

　　A modern cinematic movie poster with the words "FALLEN" showing a fallen angel in a dark forest --style raw --s 200

　　A modern burger advertisement, with the words "THE BIG ONE", featuring a delicious huge beef burger, with tomatoes and lettuce in the background

　　A pixar style illustration of a happy hedgehog, standing beside a wooden signboard saying "SUNFLOWERS", in a meadow surrounded by blooming sunflowers

　　这里，我们汇总了一些可以提高生成准确率的实用技巧：

　　1. 将单词大写并放在引号中，如「LIKE THIS」，可以提高生成的准确度

　　2. 使用--style raw参数，可以得到更准确的结果

　　3. 明确提出是电影海报（movie poster）和广告（advertisement），效果更好

　　4. 高stylize值可以创造出更有趣的文字效果

　　三大AI生图巨头pk，谁能胜出？

　　所以，现在AI生图工具的三大巨头，无疑就是Midjourney V6、DALL·E 3和Adobe Firefly了。

　　网友们当然迫不及待地让三巨头展开了一场大pk，对同一主题生图，一目了然地拼个高下。

　　Midjourney因为有着非常丰富的光影效果，有极强的真实感，几乎没有了原先那种「一眼AI」的感觉。

　　同样画一个年轻女人，MJ打在脸上的光影效果让人震撼，人物的眼神在传达着某种情绪，整个画面都充满了电影感和故事感。

　　相比之下，另外两个女人美则美矣，眼神却略显空洞。

　　金发粉色衣服的美女，MJ画的美女骨相耐看，衣服很仙。

　　果然，Midjourney画的美女，永远是最好看的。

　　蓝莓蛋糕，MJ也是赢得很彻底。相比之下，DALL·E 3的AI感还是太重了，一眼假。

　　「一对白发苍苍的老人」这道题，MJ的作品太动人了，一张照片仿佛包含了一生的故事。

　　机甲战士三家都画得不多，MJ的背景虚化显然是做得最好的。

　　雪中樱花的背景，MJ又一次完胜。

　　同样是金发美女，三张图构图不同，侧重点也不同。要论故事感，还是MJ完胜。

　　拿着相机的美女，后面是起火的建筑。MJ的人物情绪是对的，Adobe Firefly画的美女笑得就太没心没肺了，DALL·E 3的人物和背景太剥离，光线太假。

　　总之，虽然大家对于AI生图的评价标准各有不同的，但可以笃定地说，在艺术性和创意的触感上，Midjourney V6这一轮是妥妥地赢了。

　　做对比图的博主说，Midjourney现在是，并且可能永远是自己的最爱。就是因为它，自己才进入了这个AI艺术社区。

　　这位网友表示，在审美上，MJ把两位对手远远甩在了后面。

　　这位网友指出，Adobe Firefly的优点就是，让图像看起来如此逼真，以至于你可以直接上传社交媒体。

　　相比之下，MJ的对比度更高，更倾向于添加光影。

加入收藏

Tag：年轻人创业

上一篇：折扣店大战2023：争当「线下拼多多」

下一篇：一个做返现的产品，竟然拿了红杉400万美金？

返回列表

Midjourney V6神图炸出！生图效果碾压DALL·E3，逼真画面光影细节

随便看看

产品推荐

很多人由于是初次创业对创业存在很多误区

也不是提供另外一个概要

启迪创新研究院副院长杨红梅在课籍中分享了她主笔创业行的感悟

否则一味的低价毫无意义

也成为国内外连锁品牌快速抢占中西部市场**有效的招商平台