美东时间4月22日,马斯克旗下人工智能公司xAI在社交媒体平台上宣布推出Grok Vision,用户可以使用手机对准产品、标识和文件等物体,并提出相关问题。同时,Grok还推出了多语言音频和Grok语音模式下的实时搜索等新功能。
2024年4月,xAI曾宣布Grok-1.5 Vision(Grok-1.5V)具备处理文档、图表、截图和照片等视觉信息的能力,但该版本从未向公众开放。如今,Grok的视觉功能正式上线,用户可以通过上传图片,让Grok分析复杂视觉内容,能够真正“看到”周围的世界。
多语言音频处理功能方面,Grok通过集成“VoiceWave”扩展,能够支持145种以上语言的实时语音交互,包括英语、西班牙语、法语、汉语等,覆盖全球主要语种。
据悉,该功能已通过Chrome Web Store的扩展程序实现,用户可通过简单的语音指令激活并自定义交互设置。
一直以来,Grok都在稳步增加新功能。本月,xAI为Grok添加了“记忆”组件,让机器人能够从过去的对话中提取详细信息。Grok还新增了一个类似画布的工具,用于创建文档和应用程序。