当智能体爆发在即,数据库如何成为“发动机”?

作者:金旺

就在上周,阿里发布了千问任务助理,打造消费级智能体成了阿里这一年第一项重要战略,AI超级入口之争也在这一年正式拉开序幕。

值得注意的是,同样是在这场发布会上,当谈及任务助理背后的能力时,阿里官方特别提到,千问团队与各大专业数据库进行了深入合作,从而进一步提升了任务助理输出的时效性和权威性。

在这场人工智能重写产业结构的时代叙事中,数据和数据库的重要性正在被不断提及,尤其是决定着数据治理能力和检索效率的数据库,正在从数据仓库转变为AI推理链路入口。

准确性、实时性、成本这些大模型产业化背后的关键因素,正在因数据库与搜索、向量、RAG链路的结合演进得以持续优化,数据库正在成为产业智能升级的发动机。

01 AI需要怎样的数据库?

1956年,在美国汉诺威镇达特茅斯学院举行的达特茅斯会议,成了人工智能的开端。

半个世纪后,人工智能成为新一波科技产业的核心技术,然而,这时的人工智能与五十年前的人工智能已经截然不同,如今的人工智能已经演变为以大数据、大算力为基础构建起的大模型。

当人们都在谈论ChatGPT、DeepSeek时,如果没有2012年Hadoop的热潮,大数据不会受到如此关注,如果没有大数据,也就没有了大模型这一技术范式。

正是因为有了过往互

联网沉淀下来的数据基础,有了Hadoop和HDSF这一分布式文件系统,得以让大数据成为科学研究领域的关键要素,数据库也悄然孕育而生。

在进入到以大模型为范式的人工智能时代,数据的重要性不言而喻,数据库也悄然迎来了新需求。

首先是混合检索成为高频负载。

自2023年9月GPT-4V发布后,大模型不再停留在文本理解层面,在这之后的两年里,多模态大模型开始成为主流,在多模态大模型的背后,则是对数据混合检索的高需求。

这时的数据库除了要处理结构化数据,还需要处理半结构化,甚至无结构化数据,数据库除了要做关系模型,还需要做Json处理半结构化数据,或者针对无结构化数据建立各种语义索引,例如向量索引、图索引、全文索引等。

正因如此,建立一套基于结构化、半结构化、无结构化数据之上的混合搜索引擎,成了AI时代对数据库提出的新需求,而能否支持混合搜索也就成了AI数据库的分水岭。

其次是可追溯成为企业AI硬性指标。

大模型为各行各业数智化带来无限可能的同时,也带来了一个问题,幻觉。

即便是OpenAI在2025年8月发布的GPT-5,LongFact-Concepts幻觉率依然有0.7%,FActScore幻觉率有1%,而如果是在商业场景,尤其是工业场景中应用的话,往往需要达到4个9(99.99%),乃至更高的准确率。

要想让大模型在企业中顺利应用,一方面需要企业针对自己的应用场景进行微调、让大模型拥有更高的精准度,另一方面就要求数据可溯源,这就像是企业数字化系统中的工作日志和程序员的注释代码,通过数据可溯源,以保证每一次AI检索或生成的内容均有真实的数据依据,而非幻觉生成。

面对AI提出的诸如此类的需求,我们能够看到,数据存储、数据检索、数据处理的难度越来越高,传统数据库开始与向量数据库融合,开始构建RAG链路,甚至开始将AI推理能力融合到数据库中。

02 数据库的AI新机遇

时至今日,数据库问世已有六十年,在数据库领域诞生了五位图领奖得主,与此同时,在过往这些年里,Oracle、MySQL等国外数据库几乎垄断了全球市场。

AI时代的来临,对数据库提出了新的需求,也成了数据库产业新的时代变量。

2020年4月,微软对外发布了Microsoft Power Platform,微软CEO Satya Nadella在发布会上称,面对数字化转型,每一家公司都将成为软件公司。Microsoft Power Platform正是这样一个为了让每个普通业务人员成为软件开发者而打造的低代码平台。

在这之后,随着人工智能技术的演进,微软的Microsoft Power Platform也演进为后来的Microsoft Copilot,以及Teams这样的助力企业数字化转型的低代码平台。

微软本质上在做的是三件事:数据大众化、开发大众,以及AI大众化。

华东师范大学周傲英教授在近日的2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛上指出,“如果数据是新的power,我们做数据库的人就要像做电网一样地将数据打通并送到千家万户、千行万业,让数据变得好用,而要用好数据,我们还需要开发各种各样的神经网络,用数据作为人类经验的表征,来训练各种各样的人工大脑。”

回到第一性原理来看,如果说数据是电,AI是电动机,智能体就是电气化设备。

在这样全新的技术链路中,智能体将取代了传统业务逻辑,演变成新一代超级应用和超级入口,这时的数据库与智能体开始有了直接联系,智能体将通过与数据库中的核心基础数据进行深度交互,来完成各种复杂任务。

数据库的使命从以往关键核心业务,正在转向数据赋能平台,并在成为AI时代的发动机。

面对这样的变化,中国数据库产业的机会在哪里?

周傲英教授指出,“中国的机会在于,AI时代的数据库是真正的应用驱动创新,在于打造生态型组织和开源文化。”

作为全球客户数已突破4000家,连续五年年均增速超100%的OceanBase,正是在崛起的中国数据库厂商之一。

2025年11月,OceanBase正式对外发布了面向AI时代的开源数据库seekdb。

据悉,seekdb支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合了AI推理与数据处理,并兼容Hugging Face、LangChain等30余种主流AI框架,开发者只需要三行代码,就可以快速构建知识库、智能体等AI应用。

作为面向AI原生轻量级数据库,seekdb也成了2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛官方指定产品。

而本届大赛的赛题,正是AI产业真实瓶颈的工程攻坚关键问题。

03 那些决定数据库未来的人

全国大学生计算机系统能力大赛暨OceanBase数据库大赛在2023年正式纳入教育部认可的全国大学生A类竞赛,也被视为中国高校数据库领域的“国赛”。自2021年创办以来,大赛已连续举办五届,累计吸引上万名高校学子参与,形成了一条从“会用数据库”到“能造数据库”的完整人才链路。

近日举办的2025年全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛,吸引了全国高校的1223支队伍、2620名学生参赛。

本届大赛采用“初赛+决赛”递进赛制。初赛阶段,基于实战项目MiniOB,要求选手从零实现数据库核心模块,并实现一个集成向量检索功能的向量数据库。在决赛阶段引入了开源AI原生数据库OceanBase seekdb作为载体,设置了“内核优化”与“AI应用开发”两道赛题:

前者要求在8核16GB单机环境下,极致提升“全文检索+标量过滤”混合查询性能,召回率不低于0.95;

后者要求基于自优化后的seekdb,构建端到端的多模态RAG系统,在限定时间内输出准确答案,并可追溯至PDF页码或图表来源。

这两道赛题分别对应AI落地中“跑得快”和“用得稳”的核心诉求,直指“Data×AI”融合的关键工程难点。

在上周日(1月18日)的决赛答辩现场,我们见到这些年轻的队伍,其中令我印象最深刻的还有两支队伍:

一支队伍是「Database战地风云」队,这支由三位来自北京交通大学研一学生组成的战队虽然刚入学仅有半年,甚至连实验室都还没完全熟悉,就开始参赛、挑战工业级数据库的优化。

AI工具的使用是他们得以快速上手赛题的原因之一,据队长田京雷介绍,他们在阅读数万行seekdb源代码时,通过大模型帮助他们快速理解seekdb不同层级;在阅读论文产生一些灵感后,通过AI快速生成一份针对seekdb的架构设计图,然后针对架构设计图中的不同模块进行开发。

另一支队伍是「抽空就干」队,这是一支由三位来自不同学校的学生组成的战队,据队长杨丁力回忆称,“由于学校里的同学们都很忙,找不到合适的队友,我就去开源社区里发了招聘贴”,也因此结识了来自电子科技大学成都学院的周屿涵和来自西安电子科技大学吴晋华,正是这样一支“散装战队”,最后拿到了大赛亚军的好成绩。

在会后接受采访时,谈及数据库在AI时代的价值,杨丁力认为,“AI离不开数据,而数据的质量、存取效率、特征管理,全靠数据库打底,底子越牢,模型越强。”

2026年,人工智能已经成为全球科技领域竞争高地,智能体正在成为消费市场的超级入口,也在成为企业数智化转型的落地载体,这时,与智能体有着直接联系的数据库开始从传统的数据仓库转变为AI推理链路入口。

作为数据库产业的未来,我们在本届大赛上看到了这代青年学子天然对AI有着深入的理解和应用,并在以AI原生数据库解决工程问题这样的赛事和赛题的打磨下,构建起了自己的系统和工程思维。

这样的他们,也在成为中国数据库产业崛起的后备军。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1185510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[HAL库分析—GPIO] - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Snap联手多所高校突破:静态模型实现动态化动画生成

这项由Snap公司联合伊利诺伊大学厄巴纳-香槟分校、加州大学圣克鲁兹分校、卡内基梅隆大学以及南洋理工大学共同完成的突破性研究,发表于2026年1月的arXiv预印本平台,论文编号为arXiv:2601.06378v1。有兴趣深入了解的读者可以通过该编号查询完整论文。在动…

django计算机毕设之基于大数据+django+网络爬虫的安客居二手房屋信息采集系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

小波变换特征融合优化实战

💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 小波变换特征融合优化实战:从理论到边缘计算的高效落地目录小波变换特征融合优化实战:从理论到边缘计算的高效落地 引言:小波变换的复兴与边缘AI的机…

Vue2 vs Vue3:核心差异全面解析

核心架构差异Vue2 使用基于 Object.defineProperty 的响应式系统,仅能监听对象的属性变化,无法直接监听数组的索引操作(需通过重写数组方法实现)。 Vue3 改用 Proxy API 实现响应式,支持监听对象和数组的全量操作&…

最强卸载工具Geek Uninstaller下载安装全流程图解(附免安装中文版资源包) - xiema

相信很多朋友都遇到过这样的烦恼:电脑越用越卡,明明已经卸载了软件,硬盘空间却没怎么释放; 有些软件赖在系统里死活删不掉; 卸载后注册表还残留大量垃圾,导致系统不稳定。Windows自带的"添加或删除程序&quo…

03.01.01.菲力尔FLIR GigE相机 快速开始篇(ADSpinnaker案例 使用Eclise开发工具:创建Makefile项目方式 获取Spinnaker版本)

本页目录 1、配置2、测试 基础知识 02.01.01.环境搭建篇(CentOS9系统下 EPICS安装配置) 02.01.02.环境搭建篇(CentOS9系统下 synApps的areaDetector安装配置) 源代码 epics-base/synApps/support/areaDetector-R3-11/ADSpinn…

Vue+Laravel全栈开发实战指南

环境配置确保已安装Node.js(用于Vue开发)和Composer(用于Laravel依赖管理)。Laravel项目可通过以下命令创建:composer create-project laravel/laravel project-name前端项目初始化在Laravel项目根目录下初始化Vue2项目…

【场景:识别C2通信】评估出站IP是否为已知恶意地址,方法:IP离线库+威胁情报融合

最近项目组做了一次安全项目,在联动讨论中,我们团队提出攻克一个一直被“模糊处理”的问题:如何在不引入复杂流量解密、不严重影响性能的前提下,更可靠地识别潜在的 C2通信行为。 其实在我看来这个问题并不新,在往常的…

PHP8.2 vs 8.4:关键差异与升级指南

版本状态差异PHP 8.2 是已发布的稳定版本(2022年11月发布),而 PHP 8.4 尚未发布(截至2024年7月)。PHP 8.3 是当前最新稳定版本(2023年11月发布),8.4 预计在2024年底发布。需注意版本…

django毕设选题推荐:基于django数据可视化+网络爬虫的安客居二手房屋信息采集系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

IP定位技术:游戏反外挂体系中的精准识别引擎

在游戏运营管理中,工作室批量账号操作是一个棘手问题。这些行为并非完全无迹可寻,它们往往在网络层面表现出明显的可识别特征。一个显著特点是IP聚集性。工作室为了成本效率,通常会在同一IP或相邻IP段内操作大量账号。尤其是新区开放、活动首…

嵌入模型推理加速:ONNX Runtime在AI原生应用中的使用教程

嵌入模型推理加速:ONNX Runtime在AI原生应用中的使用教程 一、引言:为什么你的嵌入模型跑得比蜗牛还慢? 1.1 一个真实的痛点:RAG应用的"卡脖子"时刻 上周凌晨三点,我收到了创业公司朋友的求助消息&#xff1…

别慌!高AI率论文有救了:我的亲身降重全流程,从90%到10%只需这几招

降AI一年比一年严格了,谁没经历过被知网、维普那些冰冷的红色数字支配的恐惧? 2025年的检测算法早就升级了,它们查的不是简单的关键词重复,而是更深层的逻辑关系。如果你不懂核心逻辑,盲目改词,只会越改越…

AI视觉时代来临:直播美颜SDK与动态贴纸SDK的技术开发新趋势

如果说过去十年是“移动互联网红利期”,那么现在,我们正站在一个全新的拐点上——AI视觉时代。直播、电商、短视频、社交、虚拟人、元宇宙,这些看似不同的赛道,其实都指向同一个核心能力:实时视觉处理技术。而在这个时…

Python毕设选题推荐:基于Python的淘宝玫瑰月季销售预测数据可视化系统 爬虫基于Python的淘宝月季销售预测数据可视化系统【附源码、mysql、文档、调试+代码讲解+全bao等】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

【计算机毕业设计案例】基于Python爬虫二手房数据可视化系统基于django+网络爬虫的安客居二手房屋信息采集系统的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

MySQL中如何进行SQL调优?

SQL调优的核心思路是减少磁盘I/O和避免无效计算。 主要就是先通过MySQL的慢查询日志定位慢SQL,再利用EXPLAIN分析执行计划,最后再进行针对性优化。 优化的手段主要有这几大类,分别是索引层面的优化,SQL写法层面的优化以及架构层…

【赶DDL必存】时间紧迫?高效降AI率法:本人亲测从90%到10%的浓缩精华步骤

降AI一年比一年严格了,谁没经历过被知网、维普那些冰冷的红色数字支配的恐惧? 2025年的检测算法早就升级了,它们查的不是简单的关键词重复,而是更深层的逻辑关系。如果你不懂核心逻辑,盲目改词,只会越改越…

毕业生必看!降论文AI率核心技巧公开,照着做你也能从90%降到10%(实测)

降AI一年比一年严格了,谁没经历过被知网、维普那些冰冷的红色数字支配的恐惧? 2025年的检测算法早就升级了,它们查的不是简单的关键词重复,而是更深层的逻辑关系。如果你不懂核心逻辑,盲目改词,只会越改越…