AI大厦需要新的地基!
创始人
2025-05-20 10:01:03
0

机器之心报道

编辑:Panda

「Scaling Law 即将撞墙。」这一论断的一大主要依据是高质量数据不够用了,正如前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上警告的那样:「我们所知的预训练即将终结。」虽然近几个月由于测试时间计算(test-time compute)范式的快速发展,这个曾经喧嚣一时的观点现在已经少有人提,但数据对 AI 的重要性却不减反增,已然成为当前正在持续的「大模型大战」中最耀眼的元素之一。

为什么数据很重要?从本质上讲,当前几乎所有 AI 模型都依赖对数据中模式的学习,机器获得智能的过程很大程度上是对训练数据概率分布的建模与泛化。而随着我们进入了「AI 下半场」,数据库的发展范式也正从现有的「AI for DB」和「DB for AI」转向「Data×AI」,即数据与模型的一体化融合发展,同时「数据库」也正扩展成「数据底座」,即能够同时处理 OLTP、OLAP 和 AI 的混合负载的一体化引擎。这也是大模型真正落地、产生价值的基础。

正如 OceanBase CTO 杨传辉在 5 月 17 日的 OceanBase 2025 开发者大会上说的那样:「我认为在 AI 时代,我们需要的是一个一体化的数据底座,它的底层需要实现单机分布式一体化和云上云下一体化,用户需要一套统一支持 SQL、AP 和 AI 的数据库、数据底座。」这意味着,数据库系统正在从传统意义上的「存储介质」进化为 AI 运行的「地基」。 OceanBase 要做的正是「向一体化数据底座演进」。

为什么需要 Data×AI?

虽然「Scaling Law 撞墙论」宣称高质量数据即将耗尽,但实际上这里提到的高质量数据主要是指人类产生的易于获取的互联网数据。另一个方向上,随着生成式 AI 和新型数字化技术的发展,新生成的数据却正在日益暴增!IDC 预计,2028 年全球新生成数据量规模将达到惊人的393.9 ZB—— 在 2024 年 147 ZB 的基础上还将以平均每年近 28% 的速度增长。如此海量的数据增长将给数据基础设施带来巨大的压力。不仅如此,多模态与非结构化数据爆发式增长、数据扩展性和碎片化等问题也在不断加剧。

这些问题综合起来,对底层基础设施的存储容量、架构扩展和实时分析能力提出了更高要求;也因此,数据库的稳健性与可扩展性已经成为 AI 应用成功的前提,正如数据科学界一句老话说的那样:「数据的边界决定模型的上限 」。如何高效、可靠地存储、管理和调用这些数据,成为 AI 基础设施能否支撑下一个十年的关键考验。可以说,数据在 AI 时代正面临着一场角色的重塑。

当然,这些需求也已经成为了相关领域发展的重要推动力。据 IDC 统计,2024 年全球大数据 IT 总投资规模约为 3540 亿美元,预计到 2028 年将增长至近 6440 亿美元。

「Data×AI」范式便是在这一背景中诞生的,传统意义上的 Data Infra(数据基础设施)概念正在走向升级:

Data Infra + AI → Data × AI Infra

也就是说,数据系统的作用不再只是为 AI 提供数据,而是本身也成为 AI 工作流程的一部分,与 AI 协同发展。

通过数据与 AI 的一体化融合,「Data×AI」范式有望解决行业数据流通难、多模态数据处理难、质量评估难等诸多问题。

比如在行业数据方面,数据碎片化早已是普遍存在的老大难问题,尤其在金融、医疗、工业制造等复杂严谨的行业,数据不仅分散在不同业务系统中,还存在极强的结构异构性和组织粒度差异。数据汇集的难度远高于算法构建。垂类数据缺乏统一建模方式,导致即使拥有大模型能力,也难以完成语义理解与业务联通。很多企业所谓的「AI 能力不足」本质上是「数据层打不通」。

多模态数据处理难主要体现在数据融合和对齐的复杂性上。在实际应用中,文本、图像、音频、视频等不同类型的数据具有各自独特的结构和特性。例如,文本数据是线性的,图像数据是二维的,而音视频数据则是时序性的。将这些异构数据有效地融合在一起,要求系统具备强大的数据对齐和同步能力。此外,不同模态的数据在质量、密度和可用性方面可能存在显著差异,进一步增加了处理的复杂性。这些挑战使得多模态 AI 系统在实现高效、准确的决策支持方面面临严峻考验。

数据质量评估难则主要源于数据的多样性和动态性。在 AI 模型训练过程中,数据的准确性、完整性、一致性和时效性直接影响模型的性能。然而,随着数据来源的多元化和数据量的激增,传统的数据质量评估方法已难以满足需求。例如,自动化工具可能难以识别和纠正数据中的细微错误或偏差,尤其是在非结构化数据中。此外,数据的实时更新和变化也要求评估机制具备高度的灵活性和适应性。因此,建立高效、智能的数据质量评估体系,成为确保 AI 模型可靠性和有效性的关键。这些问题的解决将成为 AI 真正实现大规模乃至普及化应用的重要基础,尤其是在金融、健康、生活、开发等一些核心应用场景中。

而已发展 15 年的 OceanBase 已在这些方面取得了长足的进步。作为一个一体化分布式数据库,OceanBase 已经具备了一定的 AI 时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、 TP/AP 一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也正是 OceanBase 提出的构建 Data×AI 能力的关键。基于此,OceanBase 正在向 AI 时代战略跃迁。

OceanBase 在 AI 时代的战略跃迁

从最初的工程一体化、多租户、多兼容模式,演进到 HTAP 工作负载一体化(混合事务/分析处理),再到单机分布式一体化、多模型、多数据接口,还有如今 Shared Nothing 和 Shared Storage 两种部署模式的一体化,以及面向未来多云基础设施的存算分离引擎,一体化理念一直是 OceanBase 产品迭代不断发展的核心。

这种理念也切实地给 OceanBase 的发展带来了助益。自 2010 年开始投入研发以来,这款脱胎于蚂蚁集团的原生分布式数据库现已支付宝全部核心账务与核心支付系统,并连续十余年稳定支撑双 11,历经流量洪峰和稳定性考验。不仅如此,OceanBase 还是全球唯一接连打破「数据库世界杯」TPC-C 和 TPC-H 测试纪录的数据库,并已入选世界互联网领先科技奖。经过 15 年在海量核心场景中的持续深耕,OceanBase 已助力金融、政务、运营商、零售、互联网等多个行业的 2000 多家客户实现关键业务系统升级。

而现在,为了实现从一体化数据库向一体化数据底座(Data×AI)的演进,从去年 3 月开始独立运营的 OceanBase 一直在进行有针对性的创新研发。在 OceanBase 2025 开发者大会上,OceanBase CEO 杨冰总结了他们正在推进的四个大方向:

成为「知识底座」。企业要向智能化发展,必须要有一个更加贴合企业内部运行数据和领域知识的内部知识库,因此融合知识至关重要。为此,OceanBase 计划要做的包括增强向量能力、提升融合检索能力、实现企业知识存储体系的动态更新、深度整合模型后训练与微调。

打破「数据次元壁」。需要实现多模态的、不同形式和来源的数据的标量数据和向量数据的融合,为此还需要在数据存储的检索层上取得更多突破。

当 AI 的「靠谱参谋」。当前 AI 查询和引用的数据可能是不一致的或非实时的,甚至可能还是错误级的;为了解决这个问题,需要深度融合推理引擎和数据存储引擎。

做流量的「冲浪高手」。互联网上的流量存在明显的波峰和波谷,比如双 11 期间网购流量就会暴增。弹性地应对流量波动也非常关键。这是 OceanBase 的强项 —— 结合云的虚拟化的能力以及 OceanBase 的分布式的能力,并且深度适配这些训练以及推理的场景,可以最大化地挖掘这些数据的价值,同时获得最大的性价比。

会上,我们也看到了 OceanBase 在这些方向上的成果的一次集体展现。

首先来看一个现场跑分数据:OceanBase 在 VectorDBBench 上 的向量性能。通过现场测试 100 万条 768 维的数据并对比其它 3 款开源向量数据库,OceanBase 以领先的成绩证明了自己的实力。

OceanBase 还在原有的向量索引 HNSW 的基础上引入的BQ 量化算法—— 可将向量数据的内存需求平均降低 95%!举个例子,假设有 2 亿条 1536 维的向量数据,如果直接存储到内存,要用 1.2 TB 的内存,但如果进行量化处理,则只需 58.6 GB 即可。而对于向量数据量特别大以至于无法完全放入内存乃至需要分布式存储的情况,也可以通过量化的方式达到极致的性能。

这种在性能、成本、稳定性、运维性等方面的优势使 OceanBase 非常适合作为生产系统进行部署。

在此基础上,OceanBase 还在不断获得新能力,比如其拥有非常丰富的数据模态支持—— 不仅支持传统关键数据库里的标量(OLTP、OLAP),也支持支持 JSON、全文索引、向量、混合搜索。而且 OceanBase 针对向量与标量混合检索的能力进行了引领业内的优化。

在这些底层技术能力的基础上,针对大模型的数据检索问题,OceanBase 在此次开发者大会上专门发布了一款面向 AI 时代的开箱即用的 RAG 服务:PowerRAG。其将不同类似文档的识别、切分、嵌入以及放入向量数据库和写 LLM 提示词等工作都封装成了一个公有云服务。OceanBase CTO 杨传辉表示:「我们的 PowerRAG 已经达到了业界主流 RAG 应用的性能水平,它的准确率和召回率肯定好于开发者自己写的 RAG。」

另外,OceanBase 也已经与业界主流的智能体(Agent)平台进行了很好的适配,包括 Dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已经实现了对 MCP 协议的支持。

毫无疑问,OceanBase 正在全力拥抱 AI。

上个月,OceanBase 宣布 CTO 杨传辉担任 AI 战略一号位,全面统筹 AI 战略制定和技术产品落地。同时还宣布成立了 AI 平台与应用部并在原有的 OB 底层引擎团队里新成立了 AI 引擎组。

OceanBase 也对自己的「Data×AI 一体化数据底座」战略方向信心十足。在谈到「OceanBase 为什么行」时,除了 OceanBase 15 年坚持自主研发的过硬技术实力,CTO 杨传辉还给出了两大理由:

Data×AI 一体化数据底座其实是 OceanBase 一体化数据库的延伸,它的核心在于能不能做好数据处理,只是数据处理的范围会有所拓展。

AI 时代的应用大爆发给了 OceanBase 更大的机会,因为 AI 时代的应用会产生两个需求:更海量的数据和混合负载;而一体化和分布式刚好又是 OceanBase 的优势。

另外,相信「开源」也是这个问题的答案的重要组成部分。开源也是 OceanBase 2025 开发者大会上一个被重点强调的关键词。自 2021 年 6 月 1 号正式开源以来,OceanBase 已经成长为最流行的中国开源数据库之一 —— 已连续两年获得了「墨天轮」排名第一。杨传辉介绍说,OceanBase 的社区用户下载量已经突破了百万量级,并且集群的部署数量也已超过 5 万,增长还非常快 —— 年环比增长超过 400%。

墨天轮排行榜当前前 10 名,可以看到 OceanBase 目前以显著优势位居第一,截图来自 modb.pro/dbRank

AI 带来的深刻变革已经开始显现,其核心的数据自然也是这场变革的重中之重,甚至可能「未来所有的数据公司都将成为 AI 公司」—— 正如蚂蚁集团 CTO 何征宇说的那样。在这场变革中,凭借「Data×AI」战略,我们或将看到 OceanBase 迎来自己的跃迁。

数据库正在成为一大关键变量

当大模型的参数增速趋缓、应用同质化竞争加剧,一场「回到底层」的产业反思已经开始。人们越来越清楚地意识到:模型能走多远,取决于它脚下的数据有多厚实。毕竟 AI 不是空中楼阁,需要坚实的数据地基。

OceanBase 的方向并不神秘:构建一个真正为 AI 而生的一体化数据底座。从 PowerRAG 到压缩和量化算法,从向量支持到多模态数据融合,OceanBase 正让数据库成为下一个关键变量。正如 OceanBase CEO 杨冰在 4 月底的全员信中说的那样:「谁能更好地解决 Data 和 AI 的融合,实现 Data×AI,谁就能成为 AI 时代的数据底座。」

是时候把注意力投向那些看似「传统」的地方了。因为真正能承载未来智能的,不是某个爆款应用,而是能够支撑千行百业、接住海量数据洪峰的下一代数据底座。

OceanBase 的路径并非孤例,背后是整个数据库行业正与 AI 协同演进的共同趋势。数据库,还将继续进化。

相关内容

热门资讯

时间的方向性和因果律 时间的箭头 我们对时间的感知来源于单向流动的日常生活经验:破碎的杯子无法复原,生命从诞生走向衰亡不能...
富殷机械取得鼓风式烘箱专利,使... 金融界2025年7月5日消息,国家知识产权局信息显示,盐城市富殷机械设备有限公司取得一项名为“一种鼓...
*ST惠程获得实用新型专利授权... 证券之星消息,根据天眼查APP数据显示*ST惠程(002168)新获得一项实用新型专利授权,专利名为...
保护手机号隐私!700专用号段... 叮铃铃!“700XXXXXXXXXXXX”!不久后,当你看到类似这样15位的号码来电时,可以认定本次...
《全球化研究》:2025年增刊... 【7月5日,“大国博弈与全球化的未来:竞合与共生”研讨会举行,《全球化研究(2025春季卷)》发布】...
海尔智家获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示海尔智家(600690)新获得一项实用新型专利授权,专利名为“...
“低空经济”带火!它将成为下一... 2025 年 6 月 6 日,西北工业大学深圳研究院无人系统实验室主任王强在 2025 科普中国说广...
对稀土管制听台湾人建议? 大陆每年给台湾销售6000吨稀土,这种情况不能再继续下去,我们这些观察者,提出问题,提供一些建议,相...
开发团队发声明否认华为人工智能... 日前,网间有传闻称,近日,一项发布于 GitHub 与 arXiv 的研究引发业界热议。华为推出的盘...
前海梦工场,很AI!20余家科... 深圳商报·读创客户端记者 范宏韬 7月4日,由前海深港青年梦工场主办、梦工场在园孵化机构智翼孵化器承...
雷军:小米YU7 全国58城7... 新京报贝壳财经讯(记者陈维城)7月5日晚间,小米集团创始人、董事长兼CEO雷军发文称,“小米YU7 ...
新AI模型助力更准确预测心源性... 新华社洛杉矶7月4日电(记者谭晶晶)美国研究人员开发出一款多模态人工智能(AI)模型,能显著提高识别...
国内首张芯片级后量子密码卡问世 记者 洪敬谱 3日,安徽问天量子科技股份有限公司发布信息,由该公司联合华中科技大学团队研发的国内首张...
担心“苏超”期间人多网卡?镇江... 扬子晚报网7月5日讯(通讯员 徐绫婕 记者 姜天圣)7月6日,备受瞩目的镇江队VS泰州队将要打响,而...
荣耀X70新机通过认证,搭载8... 随着荣耀Magic V5 折叠屏首销开启,有更多后续新机爆料陆续出现了。 据博主@智慧皮卡丘透露,荣...
万控智造获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示万控智造(603070)新获得一项实用新型专利授权,专利名为“...
湖南新型储能首次参与调频辅助服... 近日,湖南独立新型储能电站首次作为服务提供方成功参与调频辅助服务市场,标志着湖南新型储能在多场景和市...
精准医疗迎来“关键年”,AI如... 2025年被业界普遍认为是精准医疗发展的关键节点。生物药和先进疗法曾掀起了两次药物开发的技术创新浪潮...
「寻芯记」冲刺科创板!AMD与... 本报(chinatimes.net.cn)记者石飞月 北京报道 在英伟达长期垄断的GPU战场,一家融...
最大不明物体正朝着地球飞来,1... ▲A11pl3Z 近日,天文学家确认观测到一个穿越太阳系的星际物体——这是人类迄今发现的第三个星际访...