基于自研多模态基础模型提供智能设计服务,「HiDream.ai」获新一轮融资
创始人
2024-01-08 20:00:50
0

原标题:基于自研多模态基础模型提供智能设计服务,「HiDream.ai」获新一轮融资

作者 | 邓咏仪

编辑 | 苏建勋

36氪获悉,HiDream.ai近期已完成新一轮融资,由科大讯飞创投基金领投,将门创投等多家机构跟投。其中,上一轮投资的阿尔法公社、中喝大种子一号基金也都再次跟投。

从创立到现在,HiDream.ai半年内已完成两轮融资,先后由阿尔法公社和讯飞创投领投,累计融资额近亿元人民币。本轮融资将用于产品研发、电商场景的市场拓展和C端产品出海方向的发展等。

HiDream.ai是36氪多次报道的企业,是一家定位于围绕视觉方向,打造生成式多模态基础模型及应用的初创公司,由前京东集团副总裁、京东探索研究院副院长梅涛博士于2023年初创立。

梅涛博士是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,是多媒体领域荣获国际最佳论文奖最多的华人学者(15项),也是科技部科技创新2030人工智能重大项目首席科学家。HiDream.ai团队中,博士、硕士占90%以上,核心团队成员曾任职于微软、百度、腾讯、华为、京东、字节跳动等全球500强公司的核心技术团队。

△HiDream.ai创始人兼CEO梅涛

自去年ChatGPT点燃全球大模型领域浪潮以来,如今模型层已经从原来的纯文字大模型,逐步走到多模态(包括文字、图像、视频、3D模型等)大模型的探索,包括OpenAI的GPT-4、谷歌近期发布的Gemini等都走向了这一道路。而在生成式图像、视频这一细分赛道,Runway、Pika等应用近期引起全球关注,也正是多模态领域模型技术和产品化进展飞快的证明。

“当前,大公司的主要精力还是在大语言模型,还无暇顾及视觉多模态生成。虽然最近多模态大模型进展迅猛,但主要还是在追求通用人工智能,特别是多模态内容的理解和识别。而HiDream.ai从成立之日起就立志做自研的生成式多模态基础模型,聚焦多模态内容生成,是国内这个领域起步最早的初创公司。”HiDream.ai创始人兼CEO梅涛对36氪表示, “半年前,大家普遍觉得视频领域的大模型应用很难,但这个领域的进展比大家想象中的都要快。”

从3月成立以来,如今HiDream.ai已经形成了清晰的多模态大模型+应用的布局。当前,HiDream.ai底层的自研视觉大模型具备文本、图像、视频、3D四种模态,其参数已经超过100亿,每两周就会进行一次迭代。在全球范围基于Diffusion框架开发的视觉生成式大模型中,HiDream.ai的参数规模也是位于前列。在香港中文大学主导构建的文生图测试集上,HiDream.ai在总共三项指标中(人类主观偏好HPS、文图匹配相关性CLIP、图像美感Aesthetic),有两项已经超过了Midjourney V5和Dall-E 3,整体处于领先位置,特别是反映综合水平的HPS指标,HiDream.ai位居第一。

△来源:HiDream.ai

国内AIGC市场从去年的文生图热潮,现在也走到了对视频生成的探索上。“但视频想要做好的话,一定要有一个比较好的图片基础模型。”梅涛表示。“这是因为,视频是由连续的图片组合而成的,如今想要生成视频,用户通常更偏向于先生成一个关键帧图片,也就是物体关键动作所处的那一帧,再基于关键帧在时间域做扩展。这样的视频生成方式通常也有更好的可控性。

△关键帧到视频生成流程

在生成式视频领域,模型训练的难点主要在于如何同时建模复杂的时间域和空间域。HiDream.ai的底层视觉大模型是基于海量图片和视频数据的联合训练,从而既保持了空间域上的美感和文本相关性,也针对性地细化了时间域上丰富的运动变化,最终才能实现高质量的视频生成。

就在12月初,HiDream.ai就推出了一次重磅更新,特别针对图生视频的功能进行了强化,提升了镜头控制的能力。用户可以实现上下、左右、前后六种单一方向以及组合方向的运镜,参数由用户确定,从而满足了用户在各种不同场景下的需求。

也就是说,用户可以立马化身短片导演,想往哪里拍就往哪里拍:

△来源:HiDream.ai

提示词:Commercial photography, powerful yellow powder explosion, hamburger, white background, bright environment, white lighting, studio lighting, OC rendering, super detail, solid color isolation platform, professional photography, color gradinging#Galaxy

从今年3月到如今,HiDream.ai基于底层大模型+应用的定位,已经形成“一横一纵”的发展战略。其中,“一横”指基于底层多模态大模型所推出的“Pixeling千象”应用,主要面向设计师人群提供服务,类似GPT-3.5模型和上层的ChatGPT应用的关系。

而从提供的服务来看,Pixeling千象在单纯提供图像生成等功能上更进一步,其定位是做专业设计者的设计工具和平台,覆盖创意生成、素材收集、编辑精修和排版交付等设计环节,覆盖全流程。

△千象101设计大赛获奖作品

比如, Pixeling千象当前提供了包括文生图、图生图、文生视频、图生视频等多种生成式AI服务。用户在开始寻找灵感时, Pixeling千象就可以提供包括文案模版、预设的提示词库等辅助内容,支持中英文提示词(prompt),并且针对配色、构图、视角、情绪、环境、光线、风格等十多种维度。

在每个维度下方,还有数十个二级类目提示词指导,可以大幅降低用户使用门槛,为用户提供易上手、交互式的生成入口。

△Pixeling千象的海量词库

基于底层基础模型的高性能,当前Pixeling千象也已经能做到生成图像后选定区域后局部重绘(类似PS中的修图功能),用户只需要简单地涂抹待选区域,就能实现精准抠图、改图和替换:

例如:生成一张“穿红色毛衣、站在樱花树下的女人”,选中需要修改的区域,改为“身穿白色毛衣/粉色衬衫/棕色大衣”。

△来源:Pixeling

还可针对人像面部进行配件微调,比如“新增金边眼镜/炫酷墨镜/奢华面具”:

来源:Pixeling

除了重绘,为了满足图像在不同场景的使用需求, Pixeling千象也能提供智能拓图功能,基于原有画面延展,效果真实自然:

△来源:Pixeling

围绕专业设计师、普通设计师到有设计诉求的C端用户,Pixeling千象已经搭建了一个设计社区,所有用户都可以将设计创意和设计作品上传到社区中,激发社区的创造力。

而为了保证图像的审美和风格领先,千象已经和中央美术学院、北京电影学院、清华美术学院、北京邮电大学等高校设计艺术和数字媒体院系建立长期专家顾问合作。

“过去,国内的设计师和设计爱好者通常需要同时使用几个国外的产品(如Midjourney和Runway),才能产生一个好的创意和作品,并且这些服务在国内是受限的。现在,HiDream.ai的Pixeling千象提供了一站式图片和视频的生成、编辑等功能,更好地方便了我们的个人用户。”

△Pixeling

一横一纵的“一纵”,则是指HiDream.ai会基于底层大模型的能力,针对不同的垂直行业提供产品和服务。

HiDream.ai所选择的第一个细分赛道是电商。基于多模态基础模型,HiDream.ai打造了面向电商商家的AI工具“PixMaker”,可以生成商品营销的商品图和人像模特图等。团队在这一领域有很深的技术积累,CEO梅涛在京东时就已经围绕计算机视觉,主导拍照购、多模态内容审核与生成、视觉多算法平台等多项技术的研发。

另一方面,电商营销对图像和视频内容的需求很大,市场也很广阔。梅涛表示,如果是一个头部的电商客户,一年GMV在数十亿到百亿元左右,单月的图片需求就会到百万张这一量级;而中小型电商卖家的单月需求也在万张级别。

在以往,商家想要拍摄一张图,找拍摄团队、模特等硬性支出成本,单张商品图可能就要30-50元,而一个SKU迭代上新一次就需要5-10张图,如果是需要模特出镜,图像成本还会上升到平均数百元,并且需要数天不等的拍摄周期。“但使用PixMaker后,我们基本可以将成本降低10倍以上,而效率提升就远远不止10倍了。”梅涛表示。

而无论是图像还是视频,进入到电商领域的生产作业环节,可控性是非常重要的一环。比如客户要拍摄特定场景中的商品图,那么商品需要保证和原来的图像一模一样,PixMaker基于自研基础模型和工程优化,可以保证99%以上商品图和原商品一致——在模特换脸、衣服换模特等场景,也同样需要这种保真性。

而HiDream.ai的另一个优势在于,比起如今主流的1K图片分辨率,HiDream.ai已经可以生成2K的高清图片。

△图源:PixMaker在数分钟即生成一张商品图,且能自定义场景生图

△PixMaker生成模特试衣效果

从服务形式来看,HiDream.ai对用户主要采用预充值的收费方式,提供月费、年费和订阅制等不同类型的会员套餐。用户可以根据自己的需求选择合适的套餐。目前,最低的套餐首次充值价格为9.9元,其他套餐价格从39.9元到数百元不等。

HiDream.ai的商业化也已经在推进当中。梅涛透露,当前电商AIGC产品PixMaker近期已经与多家跨境电商签约,达成第一步合作。另一方面,HiDream.ai通过组织AI创作比赛、建立社区等形式,面向设计人群的Pixeling千象自9月正式上线,如今月活用户已经过万,付费用户已突破千人。

对未来的发展规划,梅涛表示,目前图像生成效果已经对标Midjourney V5,未来除了在图像领域继续加深底层基础模型投入和产品研发之外,HiDream.ai在今年8月也已经推出了视频生成的部分功能,主要通过文字或者文字生成的图片,再生成一个数秒的视频片段。而到今年年底,HiDream.ai也计划推出视频生成领域的重要更新,可以生成的视频时长会进一步延长。

网址(PC 端浏览器打开):

Pixeling千象:www.hidreamai.com

PixMaker:https://e.hidreamai.com/#/

扫码加入「智涌AI交流群」:

欢迎交流

欢迎交流

相关内容

热门资讯

2025年大湾区科学论坛拟于1... 南方财经全媒体记者马嘉璐 广州报道 视频制作:陈梦璇 大湾区科学论坛正在成为具有广泛国际影响力的高端...
5.5G来了,5G是不是要退场... 原标题:5G从普惠性连接走向精准化赋能 最近,一些北京用户发现手机上出现了5G-A信号。5G-A可以...
深圳市华迅光通信申请路由器硬件... 金融界 2025 年 5 月 17 日消息,国家知识产权局信息显示,深圳市华迅光通信有限公司申请一项...
赋能企业级移动应用 CFCA ... 移动办公与移动金融为企业有效提升业务丰富性、执行便捷性。与此同时,“安全”始终是移动办公与移动金融都...
中国科学院理化所公众科学日来了... 在-110℃的环境中“冻”一分钟是什么感觉?中国科学院理化所2025年公众科学日活动5月17日举办,...
共绘数字时代合作新蓝图 央广网西安5月17日消息(记者陈锵)5月15日,以“共享数字发展新机遇,共建中拉网络空间命运共同体”...
财联社汽车早报5月17日 国家数据局:着力发展智能网联新能源汽车等新一代智能终端及智能制造装备 5月16日,国家数据局综合司印...
资源开发利用数字化管理 “中国... 16日,全国首个地热资源数据融合平台——“中国地热一张图”大数据应用平台在福建上线,为我国地热资源的...
让荔枝抢“鲜”出发 这里用无人... 眼下,广东茂名迎来荔枝采收旺季。今年,当地启用智慧无人机运输,创新打造荔枝运输“空中快道”,通过低空...
绽放“她”力量!一起走近航空报... “她”用细腻如丝的思维编织科研经纬 “她”用坚韧如钢的意志攻克技术壁垒 “她”用坚定信念和精湛专业为...
飞向北京·飞向太空!全国青少年... 极目新闻记者 郑力强 通讯员 马子乾 5月17日,2025年“飞向北京·飞向太空”全国青少年航空航天...
天津:支持算力技术攻关和平台建... 钛媒体App 5月17日消息,天津市人民政府办公厅印发《天津市促进人工智能创新发展行动方案(2025...
卢伟冰已准备好钱:准备买台小米... 快科技5月17日消息,今日晚间,小米集团总裁卢伟冰开启了一场直播活动,他在直播中表示,下周举行的小米...
汇通鸿泰取得防水防尘音箱专利,... 金融界2025年5月17日消息,国家知识产权局信息显示,山西汇通鸿泰电子科技有限公司取得一项名为“一...
2025世界雷达博览会开幕 李... 合肥5月17日电 (记者 孙自法)2025第十一届世界雷达博览会17日在安徽合肥开幕。中国科学院和中...
财联社汽车早报「5月17日」 国家数据局:着力发展智能网联新能源汽车等新一代智能终端及智能制造装备 5月16日,国家数据局综合司印...
以全球视野观国企科技创新:经验... 科技创新是增强国企核心功能、提升核心竞争力的关键变量,也是服务国家战略、助力实现中国式现代化的重要途...
黑龙江首家万兆光网开通 万兆应... 哈尔滨5月17日电(刘振宇 王立光 记者姜辉)16日,工业和信息化部在黑龙江省内唯一一个万兆试点园区...
甘肃张掖“太空信使”划破苍穹 中新网兰州5月17日电 (戴文昌)17日,甘肃张掖“神启号02星”搭载朱雀二号改进型(遥二)运载火箭...
首次公布!我国空间站内发现新物... 近日,科研人员首次公布在我国空间站发现的一个微生物新物种,并 将其命名为“天宫尼尔菌(Niallia...