腾讯研究院AI速递 20250422_资讯

创始人

2025-04-23 19:01:51

0次

生成式AI

一、微软开源“原生1bit”三进制LLM，0.4GB/单CPU就能跑

1. 微软推出开源BitNet b1.58 2B4T模型，采用三进制{-1, 0, 1}存储权重，仅需0.4GB内存；

2. 模型可在单CPU实时运行，每秒处理5-7个token，解码延迟29ms，能耗仅0.028J；

3. 在数学推理和常识推理等任务上，性能超越同规模全精度开源模型，避免了训练后量化的性能损失。

二、 AI视频生成迎来无限时长？昆仑万维最新升级SkyReels-V2

1. 昆仑万维发布全球首个无限时长视频生成模型SkyReels-V2，实现电影级理解和场景延展，支持由单帧图片和文本生成无限长视频；

2. 模型采用扩散强迫技术和三阶段预训练，能准确理解专业电影语法，生成质量达到83.9%的总分和84.7%的质量分；

3. 该技术已全面开源，有望重塑视频创作方式，助力开拓万亿美元规模的AI生成视频市场。

三、 95后打造世界首个行动型浏览器Fellou，从「浏览」到「行动」

1. Fellou作为全球首个行动型浏览器，能自动化执行复杂任务，支持一句话指令完成跨网站操作，将浏览器从信息展示工具升级为智能生产力平台；

2. 产品核心优势包括深度行动、主动智能、混合影子空间和智能体网络四大能力，相比同类产品在执行速度和成本上均有显著优势；

3. 由Authing创始人谢扬创立，已推出PC和Mac版本，能有效提升用户工作效率，重塑人与AI的生产关系。

四、扣子空间上手体验：一个会主动跟你「对齐」的 AI 实习生

1. 扣子空间创新推出"规划模式"，允许用户在关键节点暂停确认、实时修正路线，实现人机高效协作，避免AI执行偏差；

2. 产品支持通用型与专业型智能体，能执行从文本处理到专业分析等多种任务，并提供开发平台让开发者自行创建专家Agent；

3. 与传统工具相比，扣子空间将AI从执行工具升级为工作搭档，通过实时监督和学习用户习惯，实现人机共生协作。

五、直观即时绘制3D模型，可添加文本提示，VAST又开源了

1. VAST开源新产品Tripo Doodle，能将2D草图和文本提示实时转换为精细3D模型，大幅简化传统3D建模流程；

2. 产品基于TripoSG基础模型，通过多模态条件注入技术融合草图和文本输入，并采用蒸馏等优化实现秒级生成；

3. 用户可实时修改草图和文本提示动态更新模型，支持随机化探索不同3D解释，操作简单直观，适合入门用户。

六、官方出品！OpenAI教你用Agent SDK，10分钟开发智能体

1. OpenAI发布首个Agent官方开发指南及SDK，详细介绍了从模型选择、工具定义到复杂智能体架构的完整开发流程；

2. 多智能体架构支持管理者和去中心化两种模式，前者依赖中央智能体统一调度，后者通过Handoff机制直接转移控制权，实践中常采用混合架构；

3. 大模型选择需平衡性能和成本，建议根据场景灵活使用不同模型，并通过模型蒸馏、提示词优化等方式降低成本，同时建立闭环反馈机制持续优化。

前沿科技

七、宇树科技宣布：全球首场“人形机器人格斗大赛”5-6月开战

1. 宇树科技宣布将于2025年5-6月举办全球首场人形机器人格斗大赛，由中央广播电视总台全网直播；

2. 宇树发布预热视频展示G1机器人的格斗能力，包括勾拳、侧踢等动作，以及被击倒后的自我恢复功能；

3. G1机器人此前已展示过足球和舞蹈表演能力，此次转型格斗竞技代表人形机器人从表演走向实战的重要突破。

八、 AI创造新物理学，暴力破解引力波！宇宙观测开挂50倍

1. AI设计出突破性引力波探测工具，通过Urania算法将可观测宇宙体积扩大50倍，并发现了人类尚未理解的全新物理策略；

2. 该系统采用通用干涉仪设计，将复杂的离散问题转化为连续优化，发现50种超越现有方案的探测器设计，最高可提升探测灵敏度9.5倍；

3. 研究成果已在"Detector Zoo"公开，该方法可扩展至光学、机械等多个领域，为观测暗物质、暗能量等开辟新途径。

报告观点

九、微软副总裁：别再神化技术或个人，AI 是一场系统性工程

1. 微软副总裁Nando de Freitas反对强化学习等单一技术过度宣传，强调AI是一个需要多领域合作的系统性工程；

2. 他指出AI进步依赖成千上万参与者的共同努力，包括数据处理、基础设施、应用开发等多个环节的工作人员；