生成式AI
一、 微软开源“原生1bit”三进制LLM,0.4GB/单CPU就能跑
1. 微软推出开源BitNet b1.58 2B4T模型,采用三进制{-1, 0, 1}存储权重,仅需0.4GB内存;
2. 模型可在单CPU实时运行,每秒处理5-7个token,解码延迟29ms,能耗仅0.028J;
3. 在数学推理和常识推理等任务上,性能超越同规模全精度开源模型,避免了训练后量化的性能损失。
二、 AI视频生成迎来无限时长?昆仑万维最新升级SkyReels-V2
1. 昆仑万维发布全球首个无限时长视频生成模型SkyReels-V2,实现电影级理解和场景延展,支持由单帧图片和文本生成无限长视频;
2. 模型采用扩散强迫技术和三阶段预训练,能准确理解专业电影语法,生成质量达到83.9%的总分和84.7%的质量分;
3. 该技术已全面开源,有望重塑视频创作方式,助力开拓万亿美元规模的AI生成视频市场。
三、 95后打造世界首个行动型浏览器Fellou,从「浏览」到「行动」
1. Fellou作为全球首个行动型浏览器,能自动化执行复杂任务,支持一句话指令完成跨网站操作,将浏览器从信息展示工具升级为智能生产力平台;
2. 产品核心优势包括深度行动、主动智能、混合影子空间和智能体网络四大能力,相比同类产品在执行速度和成本上均有显著优势;
3. 由Authing创始人谢扬创立,已推出PC和Mac版本,能有效提升用户工作效率,重塑人与AI的生产关系。
四、 扣子空间上手体验:一个会主动跟你「对齐」的 AI 实习生
1. 扣子空间创新推出"规划模式",允许用户在关键节点暂停确认、实时修正路线,实现人机高效协作,避免AI执行偏差;
2. 产品支持通用型与专业型智能体,能执行从文本处理到专业分析等多种任务,并提供开发平台让开发者自行创建专家Agent;
3. 与传统工具相比,扣子空间将AI从执行工具升级为工作搭档,通过实时监督和学习用户习惯,实现人机共生协作。
五、 直观即时绘制3D模型,可添加文本提示,VAST又开源了
1. VAST开源新产品Tripo Doodle,能将2D草图和文本提示实时转换为精细3D模型,大幅简化传统3D建模流程;
2. 产品基于TripoSG基础模型,通过多模态条件注入技术融合草图和文本输入,并采用蒸馏等优化实现秒级生成;
3. 用户可实时修改草图和文本提示动态更新模型,支持随机化探索不同3D解释,操作简单直观,适合入门用户。
六、 官方出品!OpenAI教你用Agent SDK,10分钟开发智能体
1. OpenAI发布首个Agent官方开发指南及SDK,详细介绍了从模型选择、工具定义到复杂智能体架构的完整开发流程;
2. 多智能体架构支持管理者和去中心化两种模式,前者依赖中央智能体统一调度,后者通过Handoff机制直接转移控制权,实践中常采用混合架构;
3. 大模型选择需平衡性能和成本,建议根据场景灵活使用不同模型,并通过模型蒸馏、提示词优化等方式降低成本,同时建立闭环反馈机制持续优化。
前沿科技
七、 宇树科技宣布:全球首场“人形机器人格斗大赛”5-6月开战
1. 宇树科技宣布将于2025年5-6月举办全球首场人形机器人格斗大赛,由中央广播电视总台全网直播;
2. 宇树发布预热视频展示G1机器人的格斗能力,包括勾拳、侧踢等动作,以及被击倒后的自我恢复功能;
3. G1机器人此前已展示过足球和舞蹈表演能力,此次转型格斗竞技代表人形机器人从表演走向实战的重要突破。
八、 AI创造新物理学,暴力破解引力波!宇宙观测开挂50倍
1. AI设计出突破性引力波探测工具,通过Urania算法将可观测宇宙体积扩大50倍,并发现了人类尚未理解的全新物理策略;
2. 该系统采用通用干涉仪设计,将复杂的离散问题转化为连续优化,发现50种超越现有方案的探测器设计,最高可提升探测灵敏度9.5倍;
3. 研究成果已在"Detector Zoo"公开,该方法可扩展至光学、机械等多个领域,为观测暗物质、暗能量等开辟新途径。
报告观点
九、 微软副总裁:别再神化技术或个人,AI 是一场系统性工程
1. 微软副总裁Nando de Freitas反对强化学习等单一技术过度宣传,强调AI是一个需要多领域合作的系统性工程;
2. 他指出AI进步依赖成千上万参与者的共同努力,包括数据处理、基础设施、应用开发等多个环节的工作人员;
上一篇:贵州省实现信访工作“一网通办”