腾讯混元文生图大模型开源训练代码与新插件,持续建设开源生态
创始人
2024-06-21 15:00:47
0

6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。

这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。

作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。

此前,腾讯混元文生图大模型宣布全面升级并对外开源,已在 Hugging Face 平台及 Github 上发布,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解。模型开源仅一个月,Github Star数达到2.4k,位于开源社区热门DiT模型前列。

混元DiT Github项目页面

在开源训练代码的同时, LoRA小规模数据集训练方案与可控制插件ControlNet的发布也让混元DiT模型的开源生态更具想象力。

LoRA模型,全称Low-Rank Adaptation of Large Language Models,是一种用于微调大型语言模型的技术。在文生图模型中,LoRA被用作一种插件,允许用户在不修改原有模型与增加模型大小的情况下,利用少量数据训练出具有特定画风、IP或人物特征的模型。

LoRA技术在文生图开源领域十分受欢迎,大量的创作者利用这种技术创造出多种多样的模型,比如使用几张个人照片,生成一个专属于某个人的高精度照相馆;或创造出盲盒、黏土等风格模型。

AI图像社区LiblibAI上的LoRA模型

混元DiT本次发布的专属LoRA插件,支持开发者最少仅需一张图即可创作出专属的模型。比如,导入四张青花瓷图片与相应的提示词,即可完成模型训练,创建了一个“青花瓷”生成模型:用户输入简单提示词,即可生成想要的青花瓷图像。

部分训练数据:

训练后模型的推理结果示例:

使用混元DiT LoRA训练的青花瓷生成模型

本次上线的另一个插件ControlNet,则是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。

目前,腾讯混元提供了能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件的三个首发ControlNet模型,让开发者直接使用其进行推理。该三个ControlNet插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元DiT也开源了ControlNet的训练方案,开发者与创作者可以训练自定义的ControlNet模型。

腾讯混元DiT上线的三个ControlNet插件效果演示

自混元DiT模型开源以来,得到了众多开发者的支持和反馈,腾讯混元团队也一直在持续完善和优化基于混元DiT的开源组件,与行业共建下一代视觉生成开源生态。本月初,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%。同时模型易用性大幅提升,用户可以基于ComfyUI的图形化界面,使用混元DiT,或者通过Hugging Face Diffusers通用模型库,仅用三行代码即可调用混元DiT模型,无需下载原始代码库。

据了解,腾讯混元文生图能力已广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型发布了一站式AI广告创意平台腾讯广告妙思。《央视新闻》《新华日报》等20余家媒体也已经将腾讯混元文生图用于新闻内容生产。

相关内容

热门资讯

松延动力获得自由体操冠军 姜哲... 人形机器人进行自由体操比赛。主办方供图 新京报贝壳财经讯(记者陈维城)8月16日,在2025世界人形...
第三届全国人工智能应用场景创新... 依托高校项目团队,辅助诊断疑难脑肿瘤病例1000余例;依托冰箱制造基地,建立食材数据库,形成百万级别...
助力航天员出舱任务 我国空间站... 据中国载人航天工程办公室消息,北京时间2025年8月15日22时47分,经过约6.5小时的出舱活动,...
天利智能公布“一种灵敏度高的核... 天眼查APP显示,近日,常州天利智能控制股份有限公司申请的“一种灵敏度高的核级温度开关”专利公布。 ...
控汇股份公布“一种高效散热工控... 天眼查APP显示,近日,深圳市控汇智能股份有限公司申请的“一种高效散热工控机及其外壳结构”专利公布。...
文化数据数纽中心成立!上海数交... 8月14日,上海数据交易所与中漫蓝犀(北京)数字科技有限公司联合成立的文化数据数纽中心在浦东揭牌成立...
新一代智己LS6重磅发布,以“... 8月15日,超级大五座智能SUV——新一代智己LS6正式开启预售,重磅推出超级增程和纯电双动力版本。...
原创 当... 当中国亚轨道火箭在黄海平台上稳稳落下时,这场看似低调的海上回收试验,实则是中国在太空棋盘上落下的一枚...
苹果手游云设备:哪个云手机流畅... ## 一、当硬件不再成为桎梏:云手机如何重塑游戏体验? 作为手游深度玩家,我曾无数次被发烫的机身...
走进深蓝|何谓“一水八用”? 齐鲁网·闪电新闻8月16日讯多年来,山东海化集团始终在技术创新上不断突破,其中“一水八用”循环体系,...
誉辰智能获得发明专利授权:“电... 证券之星消息,根据天眼查APP数据显示誉辰智能(688638)新获得一项发明专利授权,专利名为“电芯...
成都首个光伏科技馆亮相 带你沉... 光伏科技馆展区一角。 8月14日,记者了解到,近日成都首个光伏科技馆——通威光伏科技馆正式亮相。该馆...
AI推理工厂利润惊人!英伟达华... 在人工智能领域的激烈竞争中,AI推理业务正展现出惊人的盈利能力。摩根士丹利近期发布的一份深度报告,通...
原创 中... 前言 随着我国航空产业的快速发展,退役大飞机的拆解问题逐渐浮出水面。 很多人可能不知道,许多退役的...
果蔬行业新变革:橙购优选探索互... 在当今全球化的时代,一张由现代物流网络编织而成的隐形巨网,已将世界各地的美味紧密相连。从智利的鲜甜车...
公元股份“一种带开关功能的管道... 天眼查APP显示,近日,公元股份有限公司申请的“一种带开关功能的管道开孔工具”专利获授权。摘要显示,...
15年深耕+4大硬核工具!EX... 作者:EXERA ENERGÍA S.L. 运维总监 Raúl Mendoza(劳尔•门多萨) ...
充电宝新规实施首日,部分商家紧... 在售充电宝绝大多数已获3C认证 时代周报记者/摄 8月15日,是《强制性产品认证实施规则 移动电源...
【产业链上的山东好品牌】菏泽市... 菏泽同华环保有限公司是山东省菏泽市牡丹区引进的科技型企业之一,主要从事餐厨废弃物的收运处理。公司通过...
2025最建议买的手机!新学期... 2025最建议买的手机!新学期开学季性价比最好的三款手机推荐! 暑假来临,到了很多学生换手机的最佳...