详细介绍:[Column] Perplexity 如何构建 AI 版 Google | 模型无关架构 | Vespa AI检索

news/2025/12/9 18:32:36/文章来源:https://www.cnblogs.com/gccbuaa/p/19327927

Perplexity 如何构建 AI 版 Google

Warp:大家可以信赖的编码伙伴

在这里插入图片描述

很多时候,AI 代理编写的代码几乎可以工作,但却让开发人员陷入调试发布。Warp 改变了这一点。就是而不

使用 Warp,我们可以获得:

  • 排名第一的编码代理:在基准测试中名列前茅,开箱即用地给予更准确的代码。
  • 紧密的反馈循环:内置的代码审查和编辑功能让开发人员快速发现问题、手动编辑或重新提示。
  • 使用 Warp 每天节省 1-2 小时:这一切都归功于 Warp 97% 的差异接受率。

免责声明:本文中的详细信息来源于 Perplexity 工程团队、Vespa 工程团队、AWS 和 NVIDIA 在线分享的内容。所有技术细节的功劳归于 Perplexity 工程团队、Vespa 工程团队、NVIDIA 和 AWS。原始文章和来源的链接位于文章末尾的参考部分。

从本质上讲,Perplexity AI 建立在一个简单但强大的理念之上:将在线搜索从几个蓝色链接的列表转变为直接的"答案引擎"

目标是创建一个应用,可能为我们阅读网页,提取最主要的信息,并给我们一个单一、清晰的答案。

能够把它想象成传统搜索引擎和智能 AI 聊天机器人的结合

当大家提出问题时,Perplexity 第一搜索实时互联网以获取最新和最相关的信息。然后,它利用强大的 AI 来阅读和综合它找到的内容,形成一个直接的摘要。这种技巧与仅依赖训练数据的 AI 模型非常不同,因为那些资料可能已经过时几个月甚至几年。

这种设计直接解决了 AI 聊天机器人面临的两个最大挑战:

  • 无法访问当前事件。
  • 倾向于"幻觉"或编造事实。

通过将每个答案建立在真实、可验证的网页基础上,并为其来源提供引用,Perplexity 旨在成为更值得信赖和可靠的信息来源。

有趣的是,该公司并不是从这个宏大的愿景开始的。他们最初的项目是一个更技术性的工具,用于将普通英语翻译成数据库查询

然而,2022 年底 ChatGPT 的推出是一个转折点。团队注意到 ChatGPT 的主要批评之一是缺乏来源。他们意识到自己的内部原型已经解决了该困难。在一个果断的举动中,他们放弃了在原始项目上进行的四个月工作,全力专注于为网络构建真正的答案引擎的挑战。这一决定塑造了公司的整个技术方向。

Perplexity 的 RAG 管道

Perplexity 服务的支柱是精心实施的检索增强生成(RAG)管道。以下是 RAG 的高层次概览

在这里插入图片描述

在 Perplexity 的 RAG 背后是一个多步骤过程,几乎每个查询都会执行该过程,以确保生成的答案既相关又基于当前信息的事实。

该管道许可分解为五个不同的阶段:

下图显示了 RAG 原理上的一般工作方式:

在这里插入图片描述

编排层

Perplexity 的核心技术能力不是开发单一、优越的 LLM,而是将各种 LLM 与高性能搜索系统相结合的编排,以提供快速、准确和成本效益高的答案

这是一个复杂的挑战,应该平衡 LLM 的高计算成本与实时搜索产品的低延迟需求。

为了解决这个问题,该架构被明确设计为模型无关的。

它利用异构模型组合,包括来自"Sonar"系列的内部微调模型和来自 OpenAI(GPT 系列)和 Anthropic(Claude 系列)等领先实验室的第三方前沿模型。

这种灵活性由智能路由系统管理。该系统使用小型、高效的分类器模型先确定用户的意图和查询的复杂性。基于此分类,请求随后被路由到最适合和最具成本效益的模型来完成特定任务。例如,对定义的简便请求可能由小型、快捷的内部模型处理,而必须多步推理或代理行为的复杂查询将被路由到更强大和更昂贵的模型,如 GPT-5 或 Claude Opus。

这种动态决策过程,遵循"使用能够提供最佳用户体验的最小模型"的原则,是大规模管理性能和成本的关键架构策略。

这种模型无关的设计不仅仅是技术优化,还是一个关键的战略防御。在一个底层大型语言模型快速发展并面临商品化风险的行业中,完全建立在单一第三方 API 上的简单架构会产生重大业务风险,包括供应商锁定、不可预测的价格变化以及对另一家公司路线图的依赖。

Perplexity 架构有意缓解这些风险。目标是创建一个可以利用不同模型(如开源和闭源)并让它们共生工作的系统,以至于最终用户不必须知道或关心正在使用哪个特定模型。

管理与这些模型交互以为最终用户提供最佳结果的专有编排系统。就是这种架构选择表明了一个明确的信念:公司的"护城河"不是任何单一的 LLM,而

检索引擎

Perplexity 的 RAG 管道的"检索"组件是整个系统准确性和相关性的基础。检索信息的质量直接决定了最终生成答案的质量。

Perplexity 使用 Vespa AI 来承受其庞大且可扩展的 RAG 架构。选择 Vespa 是因为需一个能够提供实时、大规模 RAG 的平台,具有面向消费者的应用程序所需的高性能、低延迟和可靠性,该应用程序为数百万用户提供服务。

以下是 Perplexity 能够实现的查询延迟的比较图表:

在这里插入图片描述

来源:Perplexity 研究博客

其统一性。它将多种关键搜索技巧集成到一个单一、连贯的引擎中,包括用于语义理解的向量搜索、用于精确性的词汇搜索、结构化过滤和机器学习排名。这种集成方法消除了尝试将多个不同系统(如独立的向量数据库与单独的关键词搜索引擎如 Elasticsearch)拼接在一起所产生的大量工程开销和复杂性。就是Vespa 的一个关键优势

选择在 Vespa 上构建的决定也是由于需要专注于有限的工程资源。从头开始构建网络规模的实时搜索引擎是一项极其困难和资本密集的工作,这是 Google 和 Yahoo(Vespa 的起源地)等公司已经投入数十年和数十亿美元来解决的问题。

Perplexity 的核心使命不是重新发明搜索索引,而是在搜索基础之上构建新颖的答案引擎。借助战略性地将分布式、实时搜索这一成熟且基本"已应对"的问题外包给像 Vespa 这样的专业平台,Perplexity 相对较小的约 38 人的工程团队能够将其精力集中在其技术堆栈的独特和差异化部分,包括以下内容:

这是在最高架构级别执行的经典"构建与购买"决策。

索引和检索基础设施

建立在 Vespa 上的基础设施旨在处理 AI 驱动的答案引擎的独特需求,优先考虑规模、新鲜度和对内容的深入理解。

其关键方面:就是以下

1 - 网络规模索引

该系统在一个涵盖数千亿网页的庞大索引上运行。

Perplexity 的爬取和索引基础设施跟踪超过 2000 亿个唯一 URL,由数万个 CPU 和一个多层存储系统承受,仅热存储就超过 400 PB。

Vespa 的分布式架构是管理这种规模的基础。它自动、透明和动态地在许多节点的集群中分区和分发内容。至关重要的是,它将给定数据的所有信息、索引和计算逻辑共同定位在同一节点上,这奏效地分配了查询负载,并避免了可能使大规模系统瘫痪的网络带宽瓶颈。

2 - 实时新鲜度

对于答案引擎来说,信息陈旧是一个关键的失败模式。系统必须反映世界的现状,就在此刻。

Perplexity 的基础设施专为此而设计,每秒处理数万个索引更新请求,以确保索引给予最新鲜的可用结果。

这是由 Vespa 独特的索引技术实现的,该技术能够在实时廉价且高效地改变索引结构,即使在它们被主动读取以服务查询时也是如此。它允许持续的更新流而不会降低查询性能。

否需被索引,并在最有用的时间安排索引操作,根据 URL 的重要性和可能的更新频率进行校准。就是为了管理这个过程,训练了一个 ML 模型来预测候选 URL

3 - 细粒度内容理解

系统对内容的理解远远超出文档级别。

Perplexity 的索引基础设施将文档划分为"细粒度单元"或"块"。Vespa 的分层排名能力允许它根据这些单独块与查询的相关性对它们进行评分,而不是返回长文章的整个内容。

这意味着系统可能识别并仅返回最相关文档中最相关的段落或句子,为 LLM 处理提供更集中和高效的上下文。

以下是表明 Perplexity 通常如何呈现其搜索结果的屏幕截图:

在这里插入图片描述

来源:Perplexity 研究博客

4 - 自我改进和 AI 驱动的内容解析

为了应对开放网络的非结构化和经常不一致的性质,Perplexity 的索引操控利用 AI 驱动的内容理解模块。

该模块动态生成并调整解析规则集,以从不同网站提取语义上有意义的内容。

理想的。就是该模块不是静态的。它经过迭代的 AI 自我改进过程优化自身。在这个循环中,前沿 LLM 评估当前规则集在完整性和质量维度上的性能。随后,平台使用这些评估来制定、验证和部署建议的更改以解决错误类别,确保模块持续演进。这个过程对于将文档分割成独立的、原子的上下文单元至关重要,这些单元对 LLM 来说

5 - 混合搜索和排名能力

Perplexity 答案的高质量从根本上受到其检索信息质量的限制。因此,其排名算法充当整个 RAG 管道的关键质量守门人。

Perplexity 利用 Vespa 的高级功能实现多阶段架构,在严格的延迟预算下逐步优化结果。以下是关键方面:

下图显示了向量搜索在 RAG 系统上下文中的典型工作方式:

在这里插入图片描述

排名堆栈与 Perplexity 的面向用户的产品共同设计,使其能够利用来自数百万日常用户请求的丰富、自动化信号来持续丰富其训练数据。

生成引擎

将其转化为清晰、易读的答案。就是在 Perplexity 在网络上找到最佳信息后,下一步

编写响应的 AI 大脑。为此,Perplexity 使用了一个巧妙的两部分策略:它将自己的定制 AI 模型与来自其他领先技术实验室的最强大模型的选择相结合。此种混合方法使公司能够完美平衡成本、速度和对最先进 AI 能力的访问。就是这由"生成引擎"处理,它

  • 这一策略的第一部分是 Perplexity 自己的 AI 模型系列,称为 Sonar。这些模型不是完全从头开始构建的,那将是特别昂贵和耗时的。
  • 相反,Perplexity从强大的、公开可用的开源模型开始。然后他们针对自己的特定需求对它们进行"微调"

Perplexity 在自己的大量材料集合上训练这些基础模型,教它们成为出色答案引擎所需的特殊技能。这些技能包括准确总结信息的能力、正确添加来源引用以及严格遵守在网络搜索期间发现的事实。每次用户与服务交互时,Perplexity 都会收集更多数据,帮忙它持续改进其 Sonar 模型,使它们更智能、更有帮助。

该策略的第二部分涉及整合来自更广泛 AI 世界的"最佳中的最佳"。对于付费订阅者,Perplexity 给予对可用的最先进模型的精选访问,例如 OpenAI 的 GPT 系列和 Anthropic 的 Claude 模型。这为用户提供了应用绝对最强大的 AI 来完成需要深度推理、创造力或复杂问题解决的任务的选项。

为了使这一切顺利运行,Perplexity 使用一个名为 Amazon Bedrock 的服务,它就像一个通用适配器,允许他们轻松地将这些不同的第三方模型插入他们的系统,而无需为每个模型构建单独的自定义集成。

这种"两全其美"的方法是 Perplexity 商业模式的关键。

Perplexity 的推理堆栈

拥有强大的 AI 模型是一回事,但向数百万人提供快速且负担得起的答案是一个巨大的技术挑战。

运行 AI 模型非常昂贵,因此 Perplexity 构建了一个复杂的高性能系统来高效地完成它。这个系统,被称为"推理堆栈",是使整个服务成为可能的引擎。

为了做好两件事。就是该系统的核心是一个名为 ROSE 的定制引擎。Perplexity 创建 ROSE

ROSE 主要用 Python 构建,并利用 PyTorch 进行模型定义。这种选择提供了适应新的和各种模型架构所需的灵活性和易于开发性。

该引擎围绕一个核心 LLM 引擎构建,该引擎许可加载模型权重并生成解码的 token。它支持高级解码策略,包括推测解码和 MTP(多 token 预测)解码器,这能够改善延迟。

整个操作在 Amazon Web Services(AWS)云平台上运行,使用最先进的 NVIDIA H100 GPU 集群。这些 GPU 本质上是专门为 AI 用例设计的超强大计算机芯片。为了管理这个强大硬件的集群,Perplexity 使用像 Kubernetes 这样的行业标准工具来编排所有移动部件,并确保环境平稳运行并能够处理大量流量。

请参见下图,呈现 Perplexity 如何使用 NVIDIA 大规模部署 LLM 生产

在这里插入图片描述

来源:NVIDIA 技术博客

决定在内部构建这个繁琐系统而不是简单地付费采用其他 AI 模型有巨大的回报。通过控制整个堆栈,从软件引擎到硬件,Perplexity 行针对其特定需求优化一切。此种控制直接导致用户响应时间更快,业务成本更低。

结论

Perplexity AI 的技术架构揭示了其作为"AI 版 Google"的力量并非源于单一、神奇的大型语言模型。

相反,它的成功是工程化一个完整的端到端系统的结果,其中每个组件都经过精心选择和深度优化,以与其他组件协同工作。

  • 首先是世界级的检索引擎,建立在 Vespa.ai 的可扩展和实时基础之上。该系统提供高质量、新鲜和相关的信息,作为每个答案的事实基石。它还有一个艰难的混合排名算法充当关键守门人。

  • 其次是灵活的、模型无关的编排层。这个核心逻辑智能地解析用户意图,并将查询路由到最合适的生成模型,无论是针对特定任务微调的成本效益高的内部 Sonar 模型,还是来自第三方实验室的最先进的前沿模型。这一层给出了在快速发展的 AI 领域竞争所需的经济和战略灵活性。

  • 第三是超优化的内部推理堆栈,以 ROSE 引擎为中心。这个定制系统在 AWS 云中的最先进 NVIDIA 硬件上运行,从它服务的模型中提取每一滴性能和成本效率。


摘要:
Perplexity AI:构建下一代智能搜索引擎

  • Perplexity AI通过创新的"答案引擎"模式重新定义搜索体验,将传统搜索引擎与AI技术结合。
  • 其核心技术是检索增强生成(RAG)管道,包含五个关键步骤:查询意图解析实时网络检索片段提取带引用的答案生成对话优化

系统采用模型无关的架构,智能路由查询到最适合的LLM,包括自研Sonar系列和第三方模型如GPT-4。

检索引擎基于Vespa AI构建,处理2000亿网页的实时索引,强调信息新鲜度(每秒数万次更新)和细粒度内容理解。

Perplexity的技术创新点包括:

  • 实时互联网检索确保信息时效性
  • AI驱动的内容解析和自我改进机制
  • 严格的引用机制防止信息幻觉
  • 动态模型路由平衡成本和性能

这一架构使Perplexity能在保持38人小团队的同时,提供可与Google竞争的新型搜索体验。

参考资料:

  • 架构和评估 AI 优先搜索 API
  • Perplexity 如何使用 Vespa AI 在 AI 搜索上击败 Google
  • 聚焦:Perplexity AI 应用 NVIDIA 推理堆栈每月服务 4 亿次搜索查询
  • 深度阅读:Perplexity CTO Denis Yarats 谈 AI 驱动的搜索
  • Perplexity 使用 Amazon Bedrock 中的 Anthropic Claude 3 构建高级搜索引擎

update 11.13

Perplexity ceo的yb也很有意思 new eg

11月10日《商业内幕》的报道,Perplexity CEO阿拉文德·斯里尼瓦斯在芝加哥大学Polsky中心的炉边谈话中,对AI伴侣应用的潜在风险发出了警告 。

他提到,当下语音或动漫风格的AI伴侣能记住过往互动,还能以自然语音对话,拟人化程度很高

由于不少人觉得现实生活枯燥,会花大量时间和这类机器人互动,近乎沉浸在另一个虚拟现实中,这会让他们的大脑变得极易被操控 。

同时他明确表态,Perplexity不会开发此类AI聊天机器人,将专注于提供可信来源和实时内容来抵制这种风险

这一警告也契合相关内容反映的趋势,有研究显示72%的美国青少年曾应用过AI陪伴,52%的青少年每月至少与虚拟陪伴互动几次

而业界对此也存在争议,批评者担忧其会引发AI成瘾、强化性别刻板印象等挑战,支持者则认为它能填补部分人的情感空缺与社交空白 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/995363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年英语自学软件精选:免费高效,轻松开启学习之旅

2025年英语自学软件精选:免费高效,轻松开启学习之旅在2025年的今天,利用科技工具辅助英语学习已成为主流。无论是从零开始的初学者,还是希望提升特定技能的进阶者,选择一款合适的软件都能让学习事半功倍。本文精选…

2025年全国太阳能路灯厂家五大最新推荐:涵盖太阳能路灯、景观灯、庭院灯、高杆路灯、LED路灯厂家选择指南

引言 随着“双碳”目标深入推进与绿色低碳理念深入人心,太阳能路灯凭借零排放、低运维、高适配等优势,已成为新农村建设、市政道路、景区园区等户外照明场景的首选方案。然而,当前市场鱼龙混杂,部分厂家以低价吸引…

2025实测|5款英语学习软件封神!从零基础到流利说全靠它

2025实测|5款英语学习软件封神!从零基础到流利说全靠它作为深耕教育领域的博主,每天都有粉丝问:“学英语到底选什么软件?” 试过30+款工具后,我筛选出5款“精准打击”不同痛点的神器——不管你是练口语、刷听力,…

2025中国薪酬管理系统测评与选型指南:数字化转型下的企业决策

引言:复杂环境下的薪酬管理挑战 在快速变化的中国商业环境中,薪酬管理已不再是简单的工资核算,而是企业人力资源管理(HRM)乃至整体运营效率的关键环节。中国独特的税务体系、复杂的社会保险和住房公积金政策,以及…

Oracle中行转列、列转行

1、行转列:PIVOT 说明:PIVOT (SUM(聚合值) FOR 待转换的列名 IN (待转换的列名里面的值 转换后列的别名))with temp as(select 张三 NAME ,语文 course,98 score from dual union allselect 张三 NAME ,数学 course,…

告别英语焦虑!这些英语自学神器让你快速逆袭

告别英语焦虑!这些英语自学神器让你快速逆袭想自学英语却屡屡碰壁?要么是背单词枯燥到放弃,要么是口语不敢开口、发音没人纠,要么是缺乏真实语境练听力,坚持几周就不了了之。其实,选对工具能让英语学习效率翻倍 …

2025年比较好的注塑机边粉碎机/粉碎机厂家推荐及选择参考

2025年比较好的注塑机边粉碎机/粉碎机厂家推荐及选择参考行业背景与市场趋势随着塑料工业的持续发展,注塑成型作为塑料加工的重要方式,其配套设备的需求也在稳步增长。机边粉碎机作为注塑生产线的关键辅助设备,能够…

解锁成人英语学习新方法,这些APP超神啦!

解锁成人英语学习新方法,这些APP超神啦!当代成年人学英语,早已不是 “捧着单词书死记硬背” 的年代!职场晋升需要商务英语撑场面,出国旅游想摆脱 “哑巴英语”,个人提升想解锁多语言技能…… 但碎片化的时间、缺…

Java虚拟机(JVM)面试题(51道含答案) - 实践

Java虚拟机(JVM)面试题(51道含答案) - 实践2025-12-09 18:14 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display:…

102302116_田自豪_作业4

作业1 要求: 熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。 使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。 候选网站:东…

Day58(28)-F:\vs_ai_work\vue-tlias-management

ElementPlus员工管理查询清空<div class="container"><el-button type="primary" @click="">+新增员工</el-button><el-button type="danger" @click=&…

解锁全球社交新姿势:7 款免费跨国聊天软件深度测评

解锁全球社交新姿势:7 款免费跨国聊天软件深度测评想找外国语伴练口语,翻遍应用商店却选不出靠谱工具?想和异国朋友聊文化、看世界,却被语言 barrier 卡得进退两难?甚至想拓展国际人脉、开启跨国交流,却担心软件…

随机名字生成器

#include<bits/stdc++.h> using namespace std; namespace kong{bool st;} namespace zhu{ string fu[]={"q","w","r","t","y","p","s"…

C++进阶:(九)深度剖析unordered_map 与 unordered_set容器 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年口碑好的电解电镀高压直流继电器厂家推荐及选购参考榜

2025年口碑好的电解电镀高压直流继电器厂家推荐及选购参考榜行业背景与市场趋势随着新能源产业的蓬勃发展和工业自动化水平的不断提升,电解电镀行业对高压直流继电器的需求呈现出快速增长态势。高压直流继电器作为电解…

SSAS-基本概念 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

跨境电商人的英语逆袭神器,你 get 了吗?

跨境电商人的英语逆袭神器,你 get 了吗?跨境电商英语,真的很重要 在全球跨境电商规模突破 800 万亿美元的今天,英语能力早已不是 “加分项”,而是跨境从业者的 “生存必备技能”。无论是撰写高转化的产品 Listing…

跨境电商英语学习app推荐

跨境电商英语学习app推荐两款APP的核心定位与特点 一、HelloTalk -- “全场景AI覆盖+ 全球真人语言学习” 这款APP构建了一个结合AI技术与全球真人社群的综合语言学习环境。其核心定位是利用社交与智能工具,覆盖从日常…

linux 系统:查看内存占用 排名前10 的进程 方法

linux 系统:查看内存占用 排名前10 的进程 方法方法1:使用 ps 命令 命令:ps aux --sort=-%mem | head -n 11-%mem:这里的 - 表示按照降序进行排序,通过 man ps 中的 STANDARD FORMAT SPECIFIERS 可以查看有哪些…

Spring AI使用JSON Schema导致模型调用速度极慢

最近在开发一个基于 Spring AI 的 AI 项目。为了确保大模型返回的数据一定是结构化的 JSON 格式,我在调用时显式指定了 response_format 为 JSON_SCHEMA。 到目前为止,效果确实不错,每次返回的都是合法 JSON,字段和…