【太平洋科技快讯】5月16日,腾讯正式发布了其新一代 AI 图像生成模型——混元图像 2.0(Hunyuan Image 2.0),该模型已在腾讯混元官方网站上线,并对外开放注册体验。
得益于超高压缩倍率的图像编解码器以及全新扩散架构,混元图像 2.0参数量较前代提升了一个数量级,生图速度实现了指数级提升。在同类商业产品每张图推理速度需要 5 到 10 秒的情况下,混元图像 2.0 声称可实现毫秒级响应。这意味着用户可以一边输入文字指令或进行语音输入,一边实时看到图像生成,改变了传统“抽卡 — 等待 — 抽卡”的模式。
通过引入强化学习等算法以及大量人类美学知识对齐,该模型生成的图像更加细腻逼真,有效避免了 AIGC 图像中常见的“AI 味”。在 GenEval(Geneval Bench)上,混元图像 2.0 模型的准确率超过 95%,远超其他同类模型。
混元图像 2.0 还带来了全新的实时绘画板功能,该功能基于模型的实时生图能力,用户在绘制线稿或调整参数时,预览区会同步生成上色效果,突破了传统“绘制-等待-修改”的线性流程。此外,实时绘画板还支持多图融合,用户可以上传多个草图,AI 会自动协调透视与光影,按照提示词内容生成融合图像。而除了文字输入,混元图像 2.0 还支持语音输入,系统会将用户的语音自动转写为文字并即时生成图像。