作者:金旺
就在上周,阿里发布了千问任务助理,打造消费级智能体成了阿里这一年第一项重要战略,AI超级入口之争也在这一年正式拉开序幕。
值得注意的是,同样是在这场发布会上,当谈及任务助理背后的能力时,阿里官方特别提到,千问团队与各大专业数据库进行了深入合作,从而进一步提升了任务助理输出的时效性和权威性。
在这场人工智能重写产业结构的时代叙事中,数据和数据库的重要性正在被不断提及,尤其是决定着数据治理能力和检索效率的数据库,正在从数据仓库转变为AI推理链路入口。
准确性、实时性、成本这些大模型产业化背后的关键因素,正在因数据库与搜索、向量、RAG链路的结合演进得以持续优化,数据库正在成为产业智能升级的发动机。
01 AI需要怎样的数据库?
1956年,在美国汉诺威镇达特茅斯学院举行的达特茅斯会议,成了人工智能的开端。
半个世纪后,人工智能成为新一波科技产业的核心技术,然而,这时的人工智能与五十年前的人工智能已经截然不同,如今的人工智能已经演变为以大数据、大算力为基础构建起的大模型。
当人们都在谈论ChatGPT、DeepSeek时,如果没有2012年Hadoop的热潮,大数据不会受到如此关注,如果没有大数据,也就没有了大模型这一技术范式。
正是因为有了过往互
联网沉淀下来的数据基础,有了Hadoop和HDSF这一分布式文件系统,得以让大数据成为科学研究领域的关键要素,数据库也悄然孕育而生。
在进入到以大模型为范式的人工智能时代,数据的重要性不言而喻,数据库也悄然迎来了新需求。
首先是混合检索成为高频负载。
自2023年9月GPT-4V发布后,大模型不再停留在文本理解层面,在这之后的两年里,多模态大模型开始成为主流,在多模态大模型的背后,则是对数据混合检索的高需求。
这时的数据库除了要处理结构化数据,还需要处理半结构化,甚至无结构化数据,数据库除了要做关系模型,还需要做Json处理半结构化数据,或者针对无结构化数据建立各种语义索引,例如向量索引、图索引、全文索引等。
正因如此,建立一套基于结构化、半结构化、无结构化数据之上的混合搜索引擎,成了AI时代对数据库提出的新需求,而能否支持混合搜索也就成了AI数据库的分水岭。
其次是可追溯成为企业AI硬性指标。
大模型为各行各业数智化带来无限可能的同时,也带来了一个问题,幻觉。
即便是OpenAI在2025年8月发布的GPT-5,LongFact-Concepts幻觉率依然有0.7%,FActScore幻觉率有1%,而如果是在商业场景,尤其是工业场景中应用的话,往往需要达到4个9(99.99%),乃至更高的准确率。
要想让大模型在企业中顺利应用,一方面需要企业针对自己的应用场景进行微调、让大模型拥有更高的精准度,另一方面就要求数据可溯源,这就像是企业数字化系统中的工作日志和程序员的注释代码,通过数据可溯源,以保证每一次AI检索或生成的内容均有真实的数据依据,而非幻觉生成。
面对AI提出的诸如此类的需求,我们能够看到,数据存储、数据检索、数据处理的难度越来越高,传统数据库开始与向量数据库融合,开始构建RAG链路,甚至开始将AI推理能力融合到数据库中。
02 数据库的AI新机遇
时至今日,数据库问世已有六十年,在数据库领域诞生了五位图领奖得主,与此同时,在过往这些年里,Oracle、MySQL等国外数据库几乎垄断了全球市场。
AI时代的来临,对数据库提出了新的需求,也成了数据库产业新的时代变量。
2020年4月,微软对外发布了Microsoft Power Platform,微软CEO Satya Nadella在发布会上称,面对数字化转型,每一家公司都将成为软件公司。Microsoft Power Platform正是这样一个为了让每个普通业务人员成为软件开发者而打造的低代码平台。
在这之后,随着人工智能技术的演进,微软的Microsoft Power Platform也演进为后来的Microsoft Copilot,以及Teams这样的助力企业数字化转型的低代码平台。
微软本质上在做的是三件事:数据大众化、开发大众,以及AI大众化。
华东师范大学周傲英教授在近日的2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛上指出,“如果数据是新的power,我们做数据库的人就要像做电网一样地将数据打通并送到千家万户、千行万业,让数据变得好用,而要用好数据,我们还需要开发各种各样的神经网络,用数据作为人类经验的表征,来训练各种各样的人工大脑。”
回到第一性原理来看,如果说数据是电,AI是电动机,智能体就是电气化设备。
在这样全新的技术链路中,智能体将取代了传统业务逻辑,演变成新一代超级应用和超级入口,这时的数据库与智能体开始有了直接联系,智能体将通过与数据库中的核心基础数据进行深度交互,来完成各种复杂任务。
数据库的使命从以往关键核心业务,正在转向数据赋能平台,并在成为AI时代的发动机。
面对这样的变化,中国数据库产业的机会在哪里?
周傲英教授指出,“中国的机会在于,AI时代的数据库是真正的应用驱动创新,在于打造生态型组织和开源文化。”
作为全球客户数已突破4000家,连续五年年均增速超100%的OceanBase,正是在崛起的中国数据库厂商之一。
2025年11月,OceanBase正式对外发布了面向AI时代的开源数据库seekdb。
据悉,seekdb支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合了AI推理与数据处理,并兼容Hugging Face、LangChain等30余种主流AI框架,开发者只需要三行代码,就可以快速构建知识库、智能体等AI应用。
作为面向AI原生轻量级数据库,seekdb也成了2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛官方指定产品。
而本届大赛的赛题,正是AI产业真实瓶颈的工程攻坚关键问题。
03 那些决定数据库未来的人
全国大学生计算机系统能力大赛暨OceanBase数据库大赛在2023年正式纳入教育部认可的全国大学生A类竞赛,也被视为中国高校数据库领域的“国赛”。自2021年创办以来,大赛已连续举办五届,累计吸引上万名高校学子参与,形成了一条从“会用数据库”到“能造数据库”的完整人才链路。
近日举办的2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛,吸引了全国高校的1223支队伍、2620名学生参赛。
本届大赛采用“初赛+决赛”递进赛制。初赛阶段,基于实战项目MiniOB,要求选手从零实现数据库核心模块,并实现一个集成向量检索功能的向量数据库。在决赛阶段引入了开源AI原生数据库OceanBase seekdb作为载体,设置了“内核优化”与“AI应用开发”两道赛题:
前者要求在8核16GB单机环境下,极致提升“全文检索+标量过滤”混合查询性能,召回率不低于0.95;
后者要求基于自优化后的seekdb,构建端到端的多模态RAG系统,在限定时间内输出准确答案,并可追溯至PDF页码或图表来源。
这两道赛题分别对应AI落地中“跑得快”和“用得稳”的核心诉求,直指“Data×AI”融合的关键工程难点。
在上周日(1月18日)的决赛答辩现场,我们见到这些年轻的队伍,其中令我印象最深刻的还有两支队伍:
一支队伍是「Database战地风云」队,这支由三位来自北京交通大学研一学生组成的战队虽然刚入学仅有半年,甚至连实验室都还没完全熟悉,就开始参赛、挑战工业级数据库的优化。
AI工具的使用是他们得以快速上手赛题的原因之一,据队长田京雷介绍,他们在阅读数万行seekdb源代码时,通过大模型帮助他们快速理解seekdb不同层级;在阅读论文产生一些灵感后,通过AI快速生成一份针对seekdb的架构设计图,然后针对架构设计图中的不同模块进行开发。
另一支队伍是「抽空就干」队,这是一支由三位来自不同学校的学生组成的战队,据队长杨丁力回忆称,“由于学校里的同学们都很忙,找不到合适的队友,我就去开源社区里发了招聘贴”,也因此结识了来自电子科技大学成都学院的周屿涵和来自西安电子科技大学吴晋华,正是这样一支“散装战队”,最后拿到了大赛亚军的好成绩。
在会后接受采访时,谈及数据库在AI时代的价值,杨丁力认为,“AI离不开数据,而数据的质量、存取效率、特征管理,全靠数据库打底,底子越牢,模型越强。”
2026年,人工智能已经成为全球科技领域竞争高地,智能体正在成为消费市场的超级入口,也在成为企业数智化转型的落地载体,这时,与智能体有着直接联系的数据库开始从传统的数据仓库转变为AI推理链路入口。
作为数据库产业的未来,我们在本届大赛上看到了这代青年学子天然对AI有着深入的理解和应用,并在以AI原生数据库解决工程问题这样的赛事和赛题的打磨下,构建起了自己的系统和工程思维。
这样的他们,也在成为中国数据库产业崛起的后备军。