详细介绍:Chatgpt三周年了:大模型三年发展的里程碑

news/2026/1/17 19:33:35/文章来源:https://www.cnblogs.com/tlnshuju/p/19497003

详细介绍:Chatgpt三周年了:大模型三年发展的里程碑

2026-01-17 19:28  tlnshuju  阅读(0)  评论(0)    收藏  举报

1. 执行摘要:从对话框到数字物种的进化

2022年12月1日,OpenAI首席执行官Sam Altman在社交媒体上的一条推文,标志着人工智能历史上的一个奇点时刻。ChatGPT的发布不仅仅是一个产品的上线,它开启了生成式人工智能的“寒武纪大爆发”。在随后的三年里(2022.12.01 - 2025.12.01),我们见证了大型语言模型(LLM)从单一的文本生成工具,演变为具备复杂推理、多模态感知、自主决策与应用采用能力的“智能代理”(Agent)。

经历了数次范式转移。早期的焦点在于就是这三年的科技演进并非线性的增长,而Prompt Engineering(提示工程)与基础模型的对话能力;中期则转向了架构效率的优化、RAG(检索增强生成)手艺的深化以及开源生态的繁荣;而在2025年,随着DeepSeek R1引入的GRPO(群体相对策略优化)算法、Llama 4的原生多模态MoE(混合专家)架构、以及MCP(模型上下文协议)的标准化,行业正式进入了Agentic AI(代理式人工智能)时代。开发者与AI的交互方式也从编写代码转向了Vibe Coding(氛围编码),而**Context Engineering(上下文工程)**则取代了提示工程,成为驾驭千万级Token上下文窗口的核心技能。

本报告将以详尽的笔触,梳理这三年间大模型技巧的关键里程碑,深入剖析每一项核心技术的原理、起源及其对整个AI生态系统的深远影响。


2. 2022-2023:生成式AI的觉醒与基础架构的奠定

2.1 ChatGPT时刻:范式转移的起点

2022年11月30日(美国时间),OpenAI低调发布了基于GPT-3.5架构的ChatGPT。12月1日,Sam Altman在Twitter上正式宣布了这一消息,邀请全球用户尝试与其对话 1。这一看似简便的聊天机器人界面,实则隐藏了RLHF(基于人类反馈的强化学习)带来的巨大对齐优势,解决了过往GPT-3模型在指令遵循上的痛点。

2.1.1 爆发式增长与早期挑战

发布仅五天后,ChatGPT用户数突破100万,这一速度打破了当时所有互联网产品的增长记录 1。然而,早期的模型并非完美。用户很快发现了其逻辑缺陷和“幻觉”问题。Sam Altman在2022年12月的推文中坦言,运行这些模型的计算成本“令人咋舌”(eye-watering),每天的成本估算高达10万美元,并预示了未来商业化的必然性 2。

此外,关于AI安全与伦理的讨论在发布初期便已白热化。针对用户对模型“个性”丧失的抱怨,Altman在2022年12月曾暗示将引入年龄分级特性,对成人用户采取更“友好”的内容策略,甚至提及允许成人内容的可能性。这引发了关于科技公司是否应充当“道德警察”的激烈辩论,奠定了后续几年关于AI对齐与监管的基调 4。

2.1.2 Prompt Engineering的兴起

在ChatGPT发布初期,由于模型能力尚不完善,如何通过精妙的提示词(Prompt)来引导模型输出高质量内容成为了一门“显学”。Prompt Engineering(提示工程)应运而生,并在2023年迅速职业化。这一时期的核心技术包括“思维链”(Chain-of-Thought, CoT)提示,通过让模型展示推理步骤来提高数学和逻辑任务的准确性。然而,这仅仅是人机交互演进的初级阶段。

2.2 GPT-4与多模态的萌芽

2023年3月,OpenAI发布GPT-4,这是大模型能力的第一次实质性飞跃 6。与GPT-3.5相比,GPT-4在GRE、LSAT等标准化考试中表现优异,展现了强大的推理能力。更重要的是,GPT-4被设计为多模态模型,虽然最初仅开放文本输入,但其架构已具备处理图像的能力,预示了VLM(视觉语言模型)时代的到来。

与此同时,Anthropic推出了Claude系列,Google推出了Bard(基于PaLM 2),大模型领域的竞争格局初步形成“三足鼎立”之势。Claude以其在长上下文窗口(Context Window)上的优势,迅速在文档分析领域占据一席之地 6。

2.3 开源生态的星火:Llama系列的入场

2023年2月,Meta发布了LLaMA(Large Language Model Meta AI),最初仅面向研究人员开放。然而,权重的意外泄露却意外地开启了开源大模型的繁荣时代 6。

2.3.1 Llama 1与Llama 2的影响

Llama证明了即使是较小参数规模的模型(如7B、13B),只要经过高质量数据的充分训练(Chinchilla Scaling Laws),也能达到甚至超越大参数模型的性能。2023年7月发布的Llama 2进一步放宽了商业使用限制,使得企业和开发者能够基于Llama架构构建私有化模型,SFT(监督微调)技术开始在开源社区广泛普及 8。

这一时期,SFT成为将预训练模型(Pre-trained Model)转化为特定任务模型(如代码生成、医疗问答)的标准范式。通过在特定指令数据集上进行微调,模型能够学习特定的输出格式和领域知识。


3. 2024年:架构分化、RAG进化与效率之战

进入2024年,大模型领域的主旋律从单纯追求参数规模的“军备竞赛”,转向了架构效率的优化、检索技术的深度结合以及开源模型对闭源模型的强力追赶。

3.1 检索增强生成(RAG)的深化:从Naive到GraphRAG

在2023年,RAG重要被视为解决大模型“幻觉”和知识时效性问题的补丁。最基础的Naive RAG流程是:将文档切片、向量化存入数据库,用户提问时检索相似切片,再喂给LLM生成答案。然而,此种线性流程在面对复杂问题时显露出严重局限:它只能检索到局部的语义相似片段,而无法理解文档集中的宏观结构或跨文档的隐含关系 9。

3.1.1 GraphRAG:结构化知识的引入

2024年7月,微软研究院正式开源了GraphRAG利用LLM从源文档中提取实体(Entities)和关系(Relationships),构建一个知识图谱(Knowledge Graph)。就是,这是RAG技术的一次重大升级 9。GraphRAG不完全依赖向量相似度,而

  • 技术机制:GraphRAG利用Leiden算法对知识图谱进行社区检测(Community Detection),将图谱划分为不同层级的语义社区。在回答问题时,它不仅检索具体的节点,还能生成社区摘要(Community Summaries),从而能够回答诸如“这数千份文档中关于气候变化的主要观点有哪些?”这类全局性(Global)问题。
  • 性能对比:实验表明,在处理繁琐材料集发现任务时,GraphRAG的全面性和准确性显著优于Naive RAG。
  • LazyGraphRAG:针对GraphRAG构建索引成本高昂(必须大量LLM调用来提取实体关系)的问题,微软在2024年11月推出了LazyGraphRAG。该技能引入了更高效的索引策略,仅在查询时按需扩展图谱,大幅降低了落地成本 12。

3.2 视觉语言模型(VLM)的行业落地

2024年是VLM从实验室走向产业应用的关键一年。VLM不再仅仅是能够“看图说话”的聊天机器人,而是开始成为理解物理世界的视觉传感器。

在安防与智慧城市领域,Milestone Systems推出了专用的VLM,利用NVIDIA的技术,使视频监控系统能够理解复杂的视觉场景。该模型不仅能识别物体,还能理解场景中的行为逻辑(如交通违规、异常聚集),并允许操作员通过自然语言查询视频流(例如“并在过去一小时内哪里出现了红色的卡车?”) 14。这种能力的搭建,标志着多模态AI开始从内容生成(AIGC)向物理世界感知(Physical World Perception)迈进。

3.3 开源模型的里程碑:Llama 3与Llama 3.1

2024年4月,Meta发布Llama 3,随后在7月推出了Llama 3.1系列,其中包含参数量高达4050亿(405B)的旗舰模型 8。

  • 性能对齐:Llama 3.1 405B是开源界首个在各项基准测试中真正匹敌当时最强闭源模型(如GPT-4o)的模型。它证明了开源模型在推理、数学和编码能力上没有不可逾越的鸿沟。
  • 长上下文:Llama 3.1支持128k的上下文窗口,使得处理长文档和代码库成为可能。
  • 生态影响:405B模型的发布迫使OpenAI、Google等闭源厂商重新思考其护城河。同时,它也成为后续众多微调模型(如医疗、法律专用模型)的基础底座,极大地丰富了AI应用生态。

4. 2025年:Agentic AI与推理模型的爆发

2025年,人工智能工艺栈发生了根本性的重构。如果说前两年是教会模型“说话”,那么2025年则是教会模型“思考”和“行动”。DeepSeek的崛起、Agentic RAG的普及以及MCP协议的标准化,共同构成了这一年的技术主线。

4.1 DeepSeek现象:算力经济学的改写

2024年底至2025年初,来自中国的AI公司DeepSeek(深度求索)凭借DeepSeek-V3和DeepSeek R1两款模型,震撼了全球AI社区。它们不仅在性能上追平甚至超越了顶尖闭源模型,更主要的是,它们以极低的成本实现了这一成就,彻底改写了算力经济学。

4.1.1 DeepSeek-V3:MoE架构的极致优化

2024年12月发布的DeepSeek-V3采用混合专家(Mixture-of-Experts, MoE)架构,总参数量达到671B,但每个token的激活参数仅为37B 18。

4.1.2 DeepSeek R1与GRPO:推理能力的民主化

2025年1月,DeepSeek发布R1模型,专注于提升模型的推理能力(Reasoning),在数学和代码任务上表现卓越,甚至在某些基准上超越了OpenAI的o1模型 23。

R1背后的核心算法是GRPO(Group Relative Policy Optimization,群体相对策略优化)。这是对传统RLHF(基于人类反馈的强化学习)的一次重大革新:

  • 传统RLHF (PPO):通常使用PPO(近端策略优化)算法,需要维护一个与策略模型(Policy Model)同等大小的价值模型(Value Model),这极其消耗显存和计算资源。
  • GRPO机制:GRPO摒弃了价值模型。它通过让模型针对同一个提示生成一组(Group)输出,然后计算这组输出的相对优势(基于奖励模型的打分或规则验证)。这种技巧利用组内的相对比较来更新策略,大幅降低了训练资源需求 23。
  • “顿悟”时刻:在训练过程中,R1展现出了类似人类的“顿悟”行为,即通过自我反思和长思维链(Chain of Thought)来纠正错误,从而解决复杂的数学难题。R1的开源使得此种高级推理能力不再是科技巨头的专利,任何开发者都可以在消费级显卡上微调具备推理能力的模型。

4.2 Agentic RAG:从静态检索到动态推理

到2025年,Agentic RAG(代理式检索增强生成)已取代Naive RAG,成为企业级AI应用的标准架构。

4.2.1 定义与核心差异

Agentic RAG不仅仅是检索,它引入了能够自主决策的智能体(Agent)。与传统RAG线性的“检索-生成”流程不同,Agentic RAG是一个动态的循环系统 10:

  1. 自主规划(Planning):Agent首先分析用户意图,将复杂问题(如“分析过去三年特斯拉财报中的研发投入趋势”)分解为多个子任务。
  2. 工具使用(Tool Use):Agent自主决定利用哪些应用。它可能先查询向量数据库,如果信息不足,再调用Google Search API,或者运行Python代码来处理材料。
  3. 反思与修正(Reflection & Refinement):Agent会自我评估检索到的信息是否足以回答挑战。如果发现信息缺失或矛盾,它会修改检索策略重新尝试,直到获得满意结果。
4.2.2 架构模式

4.3 Deep Research:深度研究的自动化

2025年2月,OpenAI发布了集成在ChatGPT中的Deep Research功能,这是Agentic AI在C端应用的典型代表 29。

  • 功能描述:Deep Research不再是简单的问答,而是一个自主的研究助理。用户只需给出一个模糊的主题(如“调查2025年全球AI医疗监管政策的变化”),Deep Research便会自主进行长达5-30分钟的深度网络搜索。
  • 能力边界:它可以自主阅读PDF文档、分析网页上的图像和图表、管理数十个浏览器标签页,并不断根据新发现的信息调整搜索方向。最终,它会生成一份长篇幅、结构严谨且带有详细引用的研究报告。
  • 性能标杆:在被称为“Humanity’s Last Exam”的高难度基准测试中,Deep Research的得分为26.6%,而普通的GPT-4o仅为3.3%,DeepSeek R1为9.4% 29。这标志着AI在处理长周期、多步骤任务上的能力达到了新的高度。

4.4 协议层的统一:Model Context Protocol (MCP)

随着Agent需要连接的数据源和程序越来越多,接口的碎片化成为了开发者面临的巨大挑战。2024年11月,Anthropic推出了Model Context Protocol (MCP),并在2025年迅速成为行业标准 31。

4.4.1 解决N t i m e s M N \\times MNtimesM 问题

在MCP出现之前,如果要将LLM连接到Google Drive、Slack、Notion或本地数据库,开发者应该为每个数据源编写特定的连接器。如果有N个AI应用和M个数据源,就需要构建N t i m e s M N \\times MNtimesM个连接器。MCP提供了一个通用的开放标准,类似于硬件领域的USB-C协议 33。

  • MCP Server:数据拥有者(如Google Drive)只需开发一次MCP Server,暴露数据接口。
  • MCP Client:AI应用(如Claude Desktop, Cursor)只需实现一次MCP Client,即可连接所有支持MCP的数据源。
4.4.2 行业采纳与影响

到2025年中,OpenAI、Google DeepMind均宣布支持MCP,使其成为AI Agent互操作性的基石 32。MCP不仅支持本地资源(通过stdio通信),也拥护远程资源(通过SSE/HTTP通信),这极大地促进了Agent生态的繁荣,使得AI能够安全、受控地访问用户的私有素材。


5. 新构建范式:从Prompt Engineering到Vibe Coding

随着模型智能水平的提升,开发者与AI的交互方式在2025年发生了根本性转变。

5.1 Context Engineering(上下文工程)的崛起

2025年,Gartner和Andrej Karpathy等权威声音宣布“Prompt Engineering已死,Context Engineering当立” 35。

5.2 Vibe Coding(氛围编码):编程的终结?

2025年2月,OpenAI联合创始人Andrej Karpathy提出了Vibe Coding的概念,这一术语迅速被Merriam-Webster和Collins Dictionary收录,成为当年的年度词汇 41。

  • 核心理念:“Fully give in to the vibes”(完全沉浸在氛围中)。在Vibe Coding模式下,开发者不再逐行编写代码,甚至不再阅读代码。开发者经过自然语言描述意图(Intent),由AI生成全部代码。开发者仅负责测试、运行和感受结果是否符合预期(Vibe Check)。如果运行成功且效果不错,开发者无需关心底层代码是如何构建的 43。
  • 工具支持:这一模式的兴起得益于Cursor、Replit等AI原生IDE的普及。这些应用深度集成了Claude 3.5 Sonnet、GPT-4o等模型,能够实时预测开发者的意图并生成整个代码块。Google也推出了"Vibe Code"工具,允许用户通过自然语言直接构建和部署Web应用 45。
  • 争议与反思:尽管Vibe Coding大幅降低了编程门槛,使非技术人员也能构建应用,但也引发了专业领域的担忧。批评者认为,这可能导致代码库变得不可维护(因为没人真正理解代码),并带来安全隐患。然而,不可否认的是,它彻底改变了软件生产的流程 43。

5.3 Agent Skills(代理技能):能力的模块化

为了让Agent更具可复用性,Anthropic在2025年10月推出了Agent Skills标准 47。


6. 模型演进深读:三巨头的2025终局之战

2025年,模型领域的竞争不再仅仅是分数的比拼,而是生态、架构和形态的全方位对抗。

6.1 Llama 4:开源的终极形态

2025年4月,Meta发布了Llama 4系列,代号包括Scout(109B)和Maverick(400B) 8。Llama 4被视为开源模型的集大成者,其技术创新主要体现在三个方面:

  1. 原生多模态(Native Multimodality):Llama 4不再像以前那样将视觉编码器“缝合”到语言模型上,而是采用“早期融合(Early Fusion)”技术。从预训练阶段开始,模型就同时处理文本、图像和视频素材。这使得Llama 4能够理解视频流中的时间动态,而不仅仅是静态帧 38。
  2. MoE架构的全面转向:为了在保持高性能的同时降低推理成本,Llama 4全面转向MoE架构。例如,Scout模型即使总参数为109B,但在推理时仅激活17B参数。这意味着它可以在普通的服务器上以极低的延迟运行,同时拥有千亿级模型的知识储备 51。
  3. 千万级上下文:Scout版本支持高达1000万Token的上下文窗口,是当时开源模型之最。这使得Llama 4能够一次性处理整个计划的代码库或海量的法律卷宗,完美契合Context Engineering的需求 38。

6.2 Claude 4:编码与代理之王

2025年5月,Anthropic发布了Claude 4系列,包括Opus 4和Sonnet 4 52。

  • 定位:Opus 4被定义为当时最强的编码模型和麻烦任务处理模型,在SWE-bench(软件工程基准测试)中遥遥领先。它不仅能写代码,还能理解繁琐的软件架构。
  • Claude Code设备:随模型发布了命令行工具Claude Code。这不仅仅是一个代码生成器,它是一个能够驻留在终端中的Agent,可以自主执行代码、管理文件系统、运行测试并修复Bug。这是Vibe Coding理念在专业开发领域的完美载体 52。
  • 扩展思考(Extended Thinking):Claude 4引入了类似DeepSeek R1的思考能力。用户可以开启“Thinking”模式,让模型在回答之前进行显式的、长链条的逻辑推演,并在必要时隐藏这些思考过程以提供简洁的答案 54。

6.3 Gemini:全栈能力的整合

Google在2025年通过Gemini 2.0和后续版本(2.5/3.0)巩固了其生态优势 56。


7. 关键技术概念解析与总结

为了更清晰地理解这三年的技术跃迁,我们将关键技术概念及其演进逻辑总结如下表:

表1:关键技术演进对比(2022-2025)

技术领域2022-2023 (萌芽与基础)2024 (架构优化)2025 (Agentic与原生智能)
模型架构Dense (稠密模型)混合架构尝试MoE (混合专家)成为主流 (DeepSeek-V3, Llama 4)
人机交互Prompt Engineering(提示工程)Chain-of-Thought (思维链)Context Engineering(上下文工程) &Vibe Coding
检索增强Naive RAG(简单向量检索)GraphRAG(知识图谱增强)Agentic RAG(自主规划与多步推理)
训练方法SFT + RLHF (PPO)DPO (直接偏好优化)GRPO(群体相对策略优化) & 推理强化
多模态文本为主,图像为辅VLM (视觉语言模型)Native Multimodality(原生多模态,含视频/音频)
工具连接定制API连接器Function Calling (函数调用)MCP(模型上下文协议) &Agent Skills
应用形态Chatbot (聊天机器人)Copilot (副驾驶/助手)Agent(自主智能体) &Deep Research

7.1 SFT vs. RL:认知的深化

在2024-2025年,业界达成了一个重要共识:“SFT用于记忆,RL用于泛化”(SFT memorizes, while RL generalizes)。单纯的SFT(监督微调)虽然能让模型学会特定的格式,但在处理未见过的复杂逻辑时往往表现不佳。DeepSeek R1的成功证明,通过RL(特别是GRPO)让模型在探索中自我学习,是突破推理能力天花板的关键 59。

7.2 算力效率的回归

2023年,行业在比拼谁的模型参数更大;到了2025年,焦点转向了谁的模型更“聪明”且“便宜”。DeepSeek-V3以极低的训练成本和Llama 4 Scout以极高的推理效率(17B激活参数)证明,通过算法创新(如MLA、MoE负载均衡)挖掘硬件潜力,比单纯堆砌GPU更具可持续性。


8. 结论与展望

人工智能技术发展史上密度最高的时期。就是从2022年12月1日ChatGPT的一声啼鸣,到2025年12月1日Agentic AI的百家争鸣,这三年

我们见证了LLM从一个容易产生幻觉的聊天玩具,进化为能够自主进行深度研究、编写并运行代码、理解复杂视频流的智能实体。技术栈的每一层都经历了重构:

  • 底层:MoE和原生多模态架构成为新标准。
  • 中间层:MCP和Agent Skills处理了互操作性难题。
  • 应用层:Agentic RAG和Deep Research重新定义了知识获取与生产的方式。
  • 交互层:Vibe Coding和Context Engineering改变了人类驾驭AI的方式。

展望2026年及其后,随着上下文窗口向无限逼近,以及推理能力的进一步普及,AI将不再仅仅是一个辅助工具,而将作为操作系统级的智能底座,隐形于每一次点击、每一行代码和每一个决策的背后。这一进程,始于三年前的那条推文,而今已成燎原之势。

引用的著作
  1. OpenAI’s ChatGPT, launched last week, used by over 1 million in 6 days: CEO, 访问时间为 十二月 1, 2025,https://www.hindustantimes.com/technology/openais-chatgpt-launched-last-week-used-by-over-1-million-in-6-days-ceo-101670234260469.html
  2. ChatGPT: Microsoft to invest $10B in the Google killer — TFN - Tech Funding News, 访问时间为 十二月 1, 2025,https://techfundingnews.com/microsoft-to-invest-10b-in-openais-chatgpt-herere-5-things-you-need-to-know-about-the-ai-tool/
  3. OpenAI’s ChatGPT chatbot crosses one million users in less than a week, 访问时间为 十二月 1, 2025,https://indianexpress.com/article/technology/tech-news-technology/openai-chatgpt-crosses-1-million-users-ceo-says-they-might-have-to-monetise-this-8306997/
  4. Sam Altman: ChatGPT will get more ‘friendly’ again, even erotically so - Mashable, 访问时间为 十二月 1, 2025,https://mashable.com/article/sam-altman-chatgpt-to-get-more-friendly-erotic-adult-users
  5. Sam Altman hits back after criticism over ChatGPT’s ‘adult model’ plan: ‘We are not the elected moral police’ | Hindustan Times, 访问时间为 十二月 1, 2025,https://www.hindustantimes.com/trending/us/sam-altman-hits-back-after-criticism-over-chatgpt-s-adult-model-plan-we-are-not-the-elected-moral-police-101760568794983.html
  6. AI Timeline - NH Local, 访问时间为 十二月 1, 2025,https://nhlocal.github.io/AiTimeline/
  7. Claude (language model) - Wikipedia, 访问时间为 十二月 1, 2025,https://en.wikipedia.org/wiki/Claude_(language_model)
  8. 访问时间为 十二月 1, 2025,https://en.wikipedia.org/wiki/Llama_(language_model)
  9. GraphRAG: New tool for complex data discovery now on GitHub - Microsoft Research, 访问时间为 十二月 1, 2025,https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/
  10. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为 十二月 1, 2025,https://arxiv.org/html/2501.09136v1
  11. GraphRAG Open-Source Release Announcement - Frank’s World of Data Science & AI, 访问时间为 十二月 1, 2025,https://www.franksworld.com/2024/07/04/graphrag-open-source-release-announcement/
  12. LazyGraphRAG: Setting a new standard for quality and cost - Microsoft Research, 访问时间为 十二月 1, 2025,https://www.microsoft.com/en-us/research/blog/lazygraphrag-setting-a-new-standard-for-quality-and-cost/
  13. Project GraphRAG - Microsoft Research, 访问时间为 十二月 1, 2025,https://www.microsoft.com/en-us/research/project/graphrag/
  14. Milestone Summit 2025: AI & Open Platform Innovation - SecurityInformed.com, 访问时间为 十二月 1, 2025,https://www.securityinformed.com/news/milestone-developer-summit-2025-innovate-ai-co-1151-ga.1763360762.html
  15. Milestone unveils its Vision Language Model, hackathon winner, and 2026 goals, 访问时间为 十二月 1, 2025,https://www.biometricupdate.com/202511/milestone-unveils-its-vision-language-model-hackathon-winner-and-2026-goals
  16. Meta’s Upcoming Release of the Largest Llama 3 Model - Kavout, 访问时间为 十二月 1, 2025,https://www.kavout.com/market-lens/metas-upcoming-release-of-the-largest-llama-3-model
  17. Meta releases new Llama 3.1 models, including highly anticipated 405B parameter variant | IBM, 访问时间为 十二月 1, 2025,https://www.ibm.com/think/news/meta-releases-llama-3-1-models-405b-parameter-variant
  18. The Complete Guide to DeepSeek Models: V3, R1, V3.1, V3.2 and Beyond - BentoML, 访问时间为 十二月 1, 2025,https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond
  19. DeepSeek-V3 Release: New Open-Source MoE Model - Helicone, 访问时间为 十二月 1, 2025,https://www.helicone.ai/blog/deepseek-v3
  20. deepseek-ai/DeepSeek-V3 - Hugging Face, 访问时间为 十二月 1, 2025,https://huggingface.co/deepseek-ai/DeepSeek-V3
  21. DeepSeek-V3 Technical Report - arXiv, 访问时间为 十二月 1, 2025,https://arxiv.org/pdf/2412.19437
  22. DeepSeek-V3 Redefines LLM Performance and Cost Efficiency - DeepLearning.AI, 访问时间为 十二月 1, 2025,https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-efficiency/
  23. Why GRPO is Important and How it Works - Oxen.ai, 访问时间为 十二月 1, 2025,https://ghost.oxen.ai/why-grpo-is-important-and-how-it-works/
  24. DeepSeek - Wikipedia, 访问时间为 十二月 1, 2025,https://en.wikipedia.org/wiki/DeepSeek
  25. Agentic RAG : A Comprehensive Guide - Kore.ai, 访问时间为 十二月 1, 2025,https://www.kore.ai/blog/what-is-agentic-rag
  26. What Is Agentic RAG? A Complete Guide (2025), 访问时间为 十二月 1, 2025,https://aisera.com/blog/agentic-rag/
  27. What is Agentic RAG? A Practical Guide for Data Teams | Domo, 访问时间为 十二月 1, 2025,https://www.domo.com/blog/what-is-agentic-rag-a-practical-guide-for-data-teams
  28. Agentic RAG Explained: Building Smarter, Context-Aware AI Systems - Qodo, 访问时间为 十二月 1, 2025,https://www.qodo.ai/blog/agentic-rag/
  29. ChatGPT Deep Research - Wikipedia, 访问时间为 十二月 1, 2025,https://en.wikipedia.org/wiki/ChatGPT_Deep_Research
  30. OpenAI Released Deep Research: Here’s What You Need To Know - AI Tools, 访问时间为 十二月 1, 2025,https://www.godofprompt.ai/blog/openai-released-deep-research
  31. 访问时间为 十二月 1, 2025,https://cloud.google.com/discover/what-is-model-context-protocol#:~:text=The%20Model%20Context%20Protocol%20(MCP,data%2C%20applications%2C%20and%20services.
  32. Model Context Protocol - Wikipedia, 访问时间为 十二月 1, 2025,https://en.wikipedia.org/wiki/Model_Context_Protocol
  33. What is Model Context Protocol (MCP)? A guide | Google Cloud, 访问时间为 十二月 1, 2025,https://cloud.google.com/discover/what-is-model-context-protocol
  34. Model Context Protocol (MCP). MCP is an open protocol that… | by Aserdargun | Nov, 2025, 访问时间为 十二月 1, 2025,https://medium.com/@aserdargun/model-context-protocol-mcp-e453b47cf254
  35. What Is Context Engineering? A Guide for AI & LLMs | IntuitionLabs, 访问时间为 十二月 1, 2025,https://intuitionlabs.ai/articles/what-is-context-engineering
  36. Context Engineering in LLM-Based Agents | by Jin Tan Ruan, CSE Computer Science, 访问时间为 十二月 1, 2025,https://jtanruan.medium.com/context-engineering-in-llm-based-agents-d670d6b439bc
  37. Context engineering is just software engineering for LLMs - Inngest Blog, 访问时间为 十二月 1, 2025,https://www.inngest.com/blog/context-engineering-is-software-engineering-for-llms
  38. Meta Llama 4 Maverick and Llama 4 Scout now available in watsonx.ai - IBM, 访问时间为 十二月 1, 2025,https://www.ibm.com/new/announcements/meta-llama-4-maverick-and-llama-4-scout-now-available-in-watsonx-ai
  39. What is context engineering? - Elasticsearch Labs, 访问时间为 十二月 1, 2025,https://www.elastic.co/search-labs/blog/context-engineering-overview
  40. Effective context engineering for AI agents - Anthropic, 访问时间为 十二月 1, 2025,https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
  41. Vibe Coding Explained: Tools and Guides - Google Cloud, 访问时间为 十二月 1, 2025,https://cloud.google.com/discover/what-is-vibe-coding
  42. Vibe coding - Wikipedia, 访问时间为 十二月 1, 2025,https://en.wikipedia.org/wiki/Vibe_coding
  43. What is vibe coding? | AI coding - Cloudflare, 访问时间为 十二月 1, 2025,https://www.cloudflare.com/learning/ai/ai-vibe-coding/
  44. What is Vibe Coding?, 访问时间为 十二月 1, 2025,https://www.youtube.com/watch?v=lpQugp7AXEU
  45. Vibe Code with Gemini - Google AI Studio, 访问时间为 十二月 1, 2025,https://aistudio.google.com/vibe-code
  46. Vibe coding is not the same as AI-Assisted engineering. | by Addy Osmani | Nov, 2025, 访问时间为 十二月 1, 2025,https://medium.com/@addyosmani/vibe-coding-is-not-the-same-as-ai-assisted-engineering-3f81088d5b98
  47. How to Use Agent Skills with Amazon Q Developer and Kiro | AWS Builder Center, 访问时间为 十二月 1, 2025,https://builder.aws.com/content/34NW7Wl1gpOl2E4jeJQ6iytovSM/how-to-use-agent-skills-with-amazon-q-developer-and-kiro
  48. Equipping agents for the real world with Agent Skills - Anthropic, 访问时间为 十二月 1, 2025,https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills
  49. Agent Skills - Claude Docs, 访问时间为 十二月 1, 2025,https://platform.claude.com/docs/en/agents-and-tools/agent-skills/overview
  50. What to know about Meta’s Llama 4 model family - TechTalks, 访问时间为 十二月 1, 2025,https://bdtechtalks.com/2025/04/06/meta-llama-4/
  51. Meta AI: What is Llama 4 and why does it matter? - Zapier, 访问时间为 十二月 1, 2025,https://zapier.com/blog/llama-meta/
  52. Introducing Claude 4 - Anthropic, 访问时间为 十二月 1, 2025,https://www.anthropic.com/news/claude-4
  53. Introducing Claude 4 in Amazon Bedrock, the most powerful models for coding from Anthropic | AWS News Blog, 访问时间为 十二月 1, 2025,https://aws.amazon.com/blogs/aws/claude-opus-4-anthropics-most-powerful-model-for-coding-is-now-in-amazon-bedrock/
  54. Claude Developer Platform - Claude Docs, 访问时间为 十二月 1, 2025,https://platform.claude.com/docs/en/release-notes/overview
  55. Claude 4 Haiku, Sonnet, Opus Release Date & Features: - PromptLayer Blog, 访问时间为 十二月 1, 2025,https://blog.promptlayer.com/claude-4/
  56. Gemini deprecations | Gemini API - Google AI for Developers, 访问时间为 十二月 1, 2025,https://ai.google.dev/gemini-api/docs/deprecations
  57. Gemini (language model) - Wikipedia, 访问时间为 十二月 1, 2025,https://en.wikipedia.org/wiki/Gemini_(language_model)
  58. Gemini 2.0 model updates: 2.0 Flash, Flash-Lite, Pro Experimental - Google Blog, 访问时间为 十二月 1, 2025,https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/
  59. On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification - arXiv, 访问时间为 十二月 1, 2025,https://arxiv.org/html/2508.05629v2
  60. One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient - arXiv, 访问时间为 十二月 1, 2025,https://arxiv.org/html/2509.26313v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1174552.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

交通仿真软件:VISSIM_(8).行人与自行车仿真

行人与自行车仿真 在交通仿真软件VISSIM中,行人和自行车的仿真模块是非常重要的组成部分,它们可以帮助研究者和工程师更全面地理解交通系统中非机动车和行人的行为规律,从而优化交通设计和管理。本节将详细介绍如何在VISSIM中进行行人和自行车…

交通仿真软件:VISSIM_(12).VISSIM与其他软件的接口与数据交换

VISSIM与其他软件的接口与数据交换 在交通仿真领域,VISSIM 是一种强大的工具,用于模拟交通流量、信号控制、公共交通等复杂交通系统。然而,为了实现更复杂的功能和更高效的仿真,VISSIM 经常需要与其他软件进行接口和数据交换。本节…

警惕MacStealer恶意软件:黑客借虚假ChatGPT指令传播

网络攻击警告:MacStealer恶意软件通过虚假ChatGPT指令传播 安全研究人员发现,攻击者正在利用ChatGPT来诱骗Mac用户将一行命令行粘贴到终端中,从而安装恶意软件。具体来说,安装的是MacStealer木马,该木马能让攻击者获取…

交通仿真软件:VISSIM_(9).微观交通仿真案例分析

微观交通仿真案例分析 在上一节中,我们介绍了交通仿真软件的基本功能和应用场景。接下来,我们将通过具体的微观交通仿真案例,深入分析如何利用仿真软件进行交通系统的建模和分析。微观交通仿真着重于车辆、行人等交通参与者的详细行为&#x…

Doris与StarRocks对比:新一代OLAP引擎

Doris与StarRocks对比:新一代OLAP引擎 关键词:OLAP引擎、Doris、StarRocks、对比分析、分布式架构、查询优化、数据建模 摘要:本文深入对比分析Apache Doris与StarRocks两款新一代OLAP引擎,从技术架构、核心特性、查询优化、数据建模、生态集成等维度展开详细探讨。通过剖析…

[C++][cmake]基于C++在windows上onnxruntime+opencv部署yolo26-obb的旋转框检测onnx模型

yolo26已经正式发布了,因此使用C代码实现YOLO26-obb旋转框检测的onnx模型部署,首先看yolo11n-obb网络结构,发现输出shape是1x20x21504 再来看看yolo26n-obb网络结构输出,输出shape是1x300x7 安装好yolo26环境,要求ultr…

交通仿真软件:VISSIM_(10).宏观交通仿真应用

宏观交通仿真应用 在交通仿真领域,宏观交通仿真主要关注交通流的整体行为,而不是单个车辆的详细运动。这种仿真方法适用于大规模交通网络的分析,可以帮助规划师和工程师了解交通流在不同时间和空间上的分布情况,从而优化交通网络设…

互联网服务提供商:掌控网络接入的底层逻辑

当你打开浏览器访问网页或通过终端发起 SSH 连接时,数据流必须经过特定的物理基础设施。ISP(Internet Service Provider),即互联网服务提供商,正是负责搭建并维护这些基础设施的机构。它不仅是每月收取宽带费用的商业公…

CDN 工作原理:空间换取时间的网络架构

在互联网数据的传输过程中,物理距离是影响加载速度的核心要素之一。光速虽然极快,但在复杂的网络拓扑和层层路由转发中,数据包从地球一端传输到另一端必然产生显著的延迟。内容分发网络(CDN)的设计初衷,并非…

交通仿真软件:VISSIM_(11).交通仿真结果分析与评价

交通仿真结果分析与评价 在交通仿真软件(如VISSIM)中,结果分析与评价是一个至关重要的步骤,它不仅帮助我们理解仿真过程中发生的交通现象,还能提供优化交通系统和规划的重要依据。本节将详细介绍如何在VISSIM中进行交通…

交通仿真软件:VISSIM_(8).动态交通分配

动态交通分配 动态交通分配的原理 动态交通分配(Dynamic Traffic Assignment, DTA)是交通仿真中的一个重要模块,它用于模拟交通流量在路网中的动态分配过程。与静态交通分配不同,动态交通分配考虑了时间因素,即交通流量…

导师严选10个AI论文网站,自考学生轻松搞定毕业论文!

导师严选10个AI论文网站,自考学生轻松搞定毕业论文! AI 工具如何助力自考论文写作? 在当前的学术环境中,越来越多的学生开始借助 AI 工具来辅助论文写作。尤其是对于自考学生而言,时间紧、任务重,如何高效地…

停止“装富”,做个隐形富人

不显山露水的富裕:普通家庭的长期理财之道 灯火可亲的家庭账本 你家客厅的那盏灯,稳吗? 前两天晚上回家,把车停在楼下,我没急着上楼,而是习惯性地抬头看了看万家灯火 。 看着那些窗户,我常在想…

2026出差旅行充电宝品牌深度解析:从安全技术到场景适配的五大头部产品全链路拆解。 - 品牌推荐

在2026年价值驱动的商旅出行阶段,如何在充电宝这一看似成熟的市场中,锁定技术专业、安全可靠且真正解决差旅痛点的产品,已成为频繁出行人士的关键议题。真正的价值,取决于品牌是否拥有核心防护技术,并具备在复杂差…

实用指南:《K8s 网络入门到进阶:Service 与 Ingress 原理、部署方案及核心区别对比》

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2026年靠谱出差旅行充电宝品牌严选推荐:这五款产品的长期口碑与防护实力经得起考验。 - 品牌推荐

随着全球商务与休闲旅行活动全面复苏,移动电子设备已成为差旅人士不可或缺的“数字器官”,其续航保障设备——充电宝的安全性与可靠性,正从单纯的电力补充工具,演变为关乎个人隐私与数据安全的关键防线。在酒店、机…

出差充电宝怎么选?2026年最新兼顾安全与续航的终极选择指南与品牌推荐。 - 品牌推荐

随着全球商务与休闲旅行活动的全面复苏,差旅人群对移动电子设备的依赖达到前所未有的高度。充电宝,作为保障设备持续在线的“能量心脏”,其角色已从简单的续航工具,演变为关乎工作效率、信息安全乃至个人隐私的关键…

2026年靠谱商旅充电宝品牌严选推荐:这五家企业的防护技术与产品实力经得起考验。 - 品牌推荐

随着全球商务与休闲出行频率的持续回升,差旅场景下的个人电子设备续航与数据隐私安全问题日益凸显。对频繁出行的用户而言,选择一款兼具大容量、快充、便携性,尤其是能有效防范公共环境数据泄露风险的充电宝,已从简…

浅析自定义/review命令与Cursor内置Agent Review代码审核功能效果对比与工作区别

之前我有整理一个自定义的代码审核命令,然后 Cursor 也有内置 Agent Review 功能,最近在使用的时候发现:我自定义命令基本可以把问题检查出来,且会给修改建议,及优先修复建议(基本给的都挺准的),但是同样的情况…

web入门61-70

web61 分析代码还是一样c=show_source(flag.php); web62 分析代码依旧一样c=show_source(flag.php); web63 分析代码和上一关一样web64 分析代码一样web65 分析代码一样web66 分析代码首先用c=print_r(scandir("/…