史上最强的图像生成器来了,这次不仅更逼真,甚至还会写字。
创始人
2024-02-24 16:12:01
0

原标题:史上最强的图像生成器来了,这次不仅更逼真,甚至还会写字。

那个和 Midjourney 打得难舍难分,引发了一波买显卡 “ 炼丹 ” “ 炼妹子 ” 风潮的 Stable Diffusion ,又推出船新版本了。

就在昨天晚上, Stability AI 在官网来了一波更新,预告了一波 Stable Diffusion 3

根据介绍,新版本在多主题提示、图片质量还有文字渲染能力上都进行了次大升级,模型参数量在 800M-8B 之间,并且延续了他们家一如既往开源的优秀传统。

更重要的是,它和 Sora 一样当起了维新派,摒弃了业内常用的 U-NET 架构,加入 Transformer 和 Diffusion 结合的大家族。

而具体的原理和进步啥的,看不懂没关系,咱们过会儿再聊。

直接先来一波全新的高清无码大图,让大伙们见识下 Stable Diffusion 3 的斤两。

其中文字渲染能力是这次 Stable Diffusion 3 比较突出的一个亮点。

因为不咋识字儿、不怎么会写字儿,可以说是目前文生图、文生视频的通病了。

就拿世超用 DALL·E 3 生成的 “ Chaping 青花瓷 ” 为例,上面汉字不明所以。。。最重要的 " Chaping " 还拼写错了。。。

基本上可以说自 AI 画图不会画手之后,把文本渲染成图像里准确的文字,也是个难题。

而新版本的 Stable Diffusion ,文化水平就明显高了不少。

根据官网给出的案例,给它提示词是“ 一辆跑车的夜间照片,侧面写着 ' SD3 ' ,汽车在赛道上高速行驶,巨大的路标上写着 'Faster' 的文字 ” 。

生成的图片不但符合描述,文字的位置也没毛病,字体也很清晰。

但当我们用同样的提示词在 DALL·E 3 生成的时候,文字渲染效果就有些一言难尽了。

Faster 倒是没错,但侧面的 SD3 没有一张图是准确的。

还有这张, Stable Diffusion 3 生成的是这样的。

而 DALL ·E 3 连 incredible 都没拼对。

只不过,现在目前的文字渲染暂时只支持英文,中文还得等上那么一段时间。

再来看这次 Stable Diffusion 3 的另一大更新——多主题提示,大伙儿可以把这个理解成, AI 在生成图片的过程中漏没漏提示词。

举个例子,这张图的提示词里,大致包括了宇航员、穿着芭蕾舞短裙撑着粉色雨伞的猪、戴着礼帽的知更鸟、还有角落里的 “Stable Diffusion” 几个关键。

咱先不提图片的质量如何,但该生成的东西起码 AI 都没落下。

不过有意思的是,在这条推文下有网友把同样的提示词,分别喂给了 Midjourney 、 DALLE-3 和 Bing 。

看下来, DALLE-3 、 Bing 和 Midjourney 要不就是知更鸟少了帽子,要不就是 “Stable Diffusion” 单词拼写错误,没一个能打的。

最后,是文生图模型最为关键的图像质量

Stable Diffusion 3 也是人狠话不多, po 了一张这样的图片。

世超第一眼看到的反应:这难道不是照片???

手帕上的纹理还有老虎刺绣,未免有点过于逼真了吧。。。

还有这张苹果,也是能以假乱真的程度。

而之所以 Stable Diffusion 3 这次能有这么大改变,很大可能要归功于一个跟 Sora 同源的架构。

以前的 Stable Diffusion ,一般都是用 U-net 架构 + Diffusion 扩散模型。而 Transformer ,也多是用在像 GPT 类大语言模型上,两种技术各管各的。

而 OpenAI 则觉得 GPT 这把咱用Transformer 打赢了,就不改 banpick 了吧。。。于是就把Transformer 架构和 Diffusion 结合了起来,用在视频上,一顿魔改和大力出奇迹后,就整出了 Sora 。

Stability AI 团队也是英雄所见略同,把Diffusion Transformer ( 简称 Dit 架构 )用在了 Stable Diffusion 3 上。

有意思的是,关于 DiT 架构的论文是 AI 大佬谢赛宁和 William Peebles 一起写的。

这个 William Peebles ,正好是 Sora 团队的负责人之一。

Stability AI 的老板 Emad 也在 X ( 推特 )上表示,这次确实用到了和 sora 类似的技术。

另外,这次 Stable Diffusion 3 还用到了一个 Flow Matching ( 流匹配 )技术。

因为技术原理过于复杂,咱们可以简单理解成,这是一种用来训练扩散模型的方法。

如果把扩散模型比作魔法画笔,那这个流匹配的作用就是升级画笔,让画笔可以更快、更准确地画出你想要的东西。

世超估计也正是因为这个技术, Stable Diffusion 3 的文化水平才暴增的。

总而言之,光从现有的官方效果图和技术公开来看,这次 Stable Diffusion 3 的出现,又把文生图卷到了一个新高度,也证明了 Dit 架构在文生图、文生视频领域确实是个可行的新方向。

反正这么下去,保不齐下一波谁家又会拿出重磅更新。

不过大伙儿也别太焦虑,该吃吃该喝喝,要是有时间学学怎么用 AI 也行。

最后提个醒, Stable Diffusion 3 现在还没正式公测,千万别又让卖课的给骗了。

撰文西西编辑江江&面线封面

图片、资料来源

X 、 Stability AI 、 DALL·E 3

arXiv ,《 FLOW MATCHING FOR GENERATIVE MODELING 》

arXiv ,《 Scalable Diffusion Models with Transformers 》

部分图源网络

相关内容

热门资讯

智慧社区系统革新社区管理 内容概要 建议物业团队优先评估基础需求,逐步集成功能模块,避免一次性负担过重。 智慧社区系统...
落地30+行业,华为云全栈AI... 盘古大模型已落地30多个行业、500多个场景。 文|赵艳秋 编|牛慧 你很难想象,这是一家水泥厂。芜...
青岛力科取得自动粘贴泡棉胶设备... 金融界2025年6月21日消息,国家知识产权局信息显示,青岛力科工业设备有限公司取得一项名为“一种自...
深度揭秘:物体能被无限分割吗?... 朋友们,咱们生活里经常会遇到各种东西,像苹果、纸张,咱随手就能把它们分成小块。这时候啊,我就忍不住琢...
人造太阳等“科普游”持续升温 ... 安徽合肥是全国大科学装置最集中的城市之一。随着暑期即将来临,合肥的载人航天、人造太阳等“科普游”持续...
机器人头发是咋做出来的 顶端新闻·河南日报记者 王平 杨伟 6月19日,走进河南瑞贝卡发制品股份有限公司展厅,时尚假发、职业...
原创 国... 前言 最近我国国防科大又完成了一项历史性的突破,他们研制出了一款最新型的仿生机器人,重量甚至不足0...
固态电池真正的龙头,全市场只看... 随着新能源汽车对续航里程的极致追求,传统锂电池正极材料(如三元、磷酸铁锂)已逼近能量密度天花板。而富...
数码产品控必看!2024年度性... 随着科技的飞速发展,数码产品已经成为我们生活中不可或缺的一部分。作为一名数码爱好者,我特别关注每年性...
杭州国际机器人展:“杭州六小龙... 【2025杭州国际人形机器人与机器人技术展览会开幕,众多产业链企业齐聚】2025年6月20日,202...
英临床试验:白血病靶向药新疗法... 钛媒体App 6月21日消息,英国利兹大学日前宣布,该校等机构的研究人员在全英开展的临床试验显示,靶...
微软7月大裁员,却豪掷800亿... 近期,科技巨头微软的一则消息引起了广泛关注。据彭博社报道,微软计划在7月实施一次大规模的裁员行动,预...
上海博之美遮阳科技取得蜂巢天蓬... 金融界2025年6月21日消息,国家知识产权局信息显示,上海博之美遮阳科技有限公司取得一项名为“一种...
埃癸斯取得精密压力调节阀专利,... 金融界2025年6月21日消息,国家知识产权局信息显示,埃癸斯(漳州)智能设备制造有限公司取得一项名...
丝路起锚地迸发新动能 “新三样... 人民网记者 乔雪峰 6月19日—20日,百川向海——“新红专”轮致敬海上丝路文化巡展走进丝路起锚地江...
百度申请基于大模型的任务执行方... 金融界2025年6月21日消息,国家知识产权局信息显示,北京百度网讯科技有限公司申请一项名为“基于大...
广州盛原成申请PLC数据采集相... 金融界2025年6月21日消息,国家知识产权局信息显示,广州盛原成科技有限公司申请一项名为“PLC数...
2025云手机新宠:掌派云手机... 在2025年的云手机市场,一款结合免费试用与强大功能的新产品——掌派云手机,正迅速赢得用户的青睐。掌...
我国两台太阳系天体观测望远镜开... 【我国两台太阳系天体观测望远镜开建 建成后将实现多个“第一”】财联社6月21日电,由中国科学院紫金山...
美拟取消芯片技术豁免,反制中国... 业内人士表示,美方加强限制措施不会立即迫使相关芯片工厂关闭,但随着时间的推移,它们可能会发现有效运营...