【必藏】大模型评估完全指南:从传统指标到LLM评分者框架

每次推送变更时,进行恰当的评估也有助于确保一切不会失控。

本文分为两部分。若您是新手,第一部分会简要介绍BLEU和ROUGE等传统指标,提及大语言模型基准测试,并引入在评估中使用大语言模型作为评判者的理念。

若您对此已不陌生,可跳过这部分。第二部分将深入探讨不同类型大语言模型应用的评估。

我们过去的做法

若您熟知自然语言处理(NLP)任务的评估方式及公开基准测试的工作原理,可跳过第一部分。

若您不了解,那么了解准确率、BLEU等早期指标的原始用途及工作原理,同时理解我们如何针对MMLU等公开基准进行测试,会很有帮助。

评估自然语言处理任务

评估分类、翻译、摘要等传统自然语言处理任务时,我们会采用准确率、精确率、F1值、BLEU和ROUGE等传统指标。

这些指标如今仍在使用,但主要用于模型输出单一、易比较的“正确”答案的场景。

以分类为例,其任务是为每个文本分配单一标签。为测试这一点,我们可通过比较模型分配的标签与评估数据集中的参考标签(判断是否正确)来计算准确率。

规则很明确:若分配错误标签,得0分;若分配正确标签,得1分。

这意味着,若我们为包含1000封邮件的垃圾邮件数据集构建分类器,且模型正确标记了其中910封,那么准确率即为0.91。

对于文本分类,我们通常还会使用F1值、精确率和召回率。

在摘要生成和机器翻译等自然语言处理任务中,人们常使用ROUGE和BLEU来衡量模型生成的译文或摘要与参考文本的匹配程度。

这两种分数都会统计重叠的n元语法,尽管比较方向不同,但本质上,共享的词语块越多,分数就越高。

这种方式相当简单化,因为若输出使用不同措辞,分数就会偏低。

当一个回应只有唯一正确答案时,这些指标效果最佳,但对于我们如今构建的大语言模型应用,它们往往并非理想选择。

大语言模型基准测试

每次发布新版本的大语言模型时,都会参照一些基准测试:MMLU Pro、GPQA或Big-Bench。

这些是通用评估,其准确术语实为“基准测试”,而非评估(我们稍后会介绍评估)。

尽管每个模型还会接受多种其他评估(包括毒性、幻觉和偏见评估),但最受关注的评估更像是考试或排行榜。

MMLU等数据集为选择题形式,已存在相当长时间。我实际上浏览过该数据集,发现它颇为杂乱。

部分问题和答案相当模糊,这让我认为,大语言模型供应商会尝试在这些数据集上训练模型,以确保模型能正确回答。

这引发了公众的一些担忧:大多数大语言模型在这些基准测试中表现出色,可能只是过拟合;也正因如此,我们需要更新的数据集和独立评估。

大语言模型评分器

在这些数据集上进行评估时,通常可使用准确率和单元测试。但如今的新变化是增加了一种名为“大语言模型即评判者”的方式。

为给模型做基准测试,各团队大多会采用传统方法。

因此,只要是选择题或只有唯一正确答案,只需将答案与参考答案进行精确匹配即可,无需其他操作。

MMLU和GPQA等含多项选择题答案的数据集便是如此。

对于编码测试(HumanEval、SWE-Bench),评分者只需运行模型的补丁或函数。若所有测试通过,则问题视为已解决,反之则未解决。

然而,可想而知,若问题模糊或为开放式,答案可能会有波动。这种差距催生了“大语言模型即评判者”的兴起,即由GPT-4等大语言模型对答案进行评分。

我们让大语言模型对含推理过程的答案进行评分

MT-Bench是使用大语言模型作为评分者的基准测试之一,它向GPT-4输入两个相互竞争的多轮答案,并询问哪个更好。

我认为,原本使用人工评分的Chatbot Arena,如今也通过引入“大语言模型即评判者”来扩大规模。

为保证透明度,您也可使用BERTScore等语义标尺来比较语义相似度。为简洁起见,此处略过其他相关内容。

因此,团队可能仍会使用BLEU或ROUGE等重叠指标进行快速合理性检查,或在可能的情况下依赖精确匹配解析,但新做法是让另一个大语言模型来评判输出结果。

我们对大语言模型应用的做法

如今的主要变化是,我们不仅测试大语言模型本身,还测试整个系统。

我们评估的是整个系统的输出,而非仅大语言模型的输出

只要有可能,我们仍会像以前一样使用程序化方法进行评估。

对于更细致的输出,我们可先使用BLEU或ROUGE等成本低且确定性强的指标来查看n元语法重叠情况,但如今大多数现代框架会使用大语言模型评分器进行评估。

有三个领域值得探讨:如何评估多轮对话、检索增强生成(RAG)和智能体,包括评估方式及可采用的指标类型。

您可在下方看到这三个领域中已定义的大量指标。

在介绍相关辅助框架前,我们先简要讨论所有这些内容。

多轮对话

首先是为多轮对话(即我们在聊天机器人中看到的对话)构建评估。

与聊天机器人互动时,我们希望对话自然、专业,希望它记住关键信息。我们希望它在整个对话过程中紧扣主题,并切实回答我们的问题。

人们在此处追踪的标准指标相当多。首先可谈谈相关性/连贯性完整性

相关性用于追踪大语言模型是否恰当回应用户查询并紧扣主题;若最终结果切实达成用户目标,则完整性得分较高。

也就是说,若我们能追踪整个对话过程中的满意度,就能追踪它是否真的“降低支持成本”、提高信任度,同时实现较高的“自助服务率”。

第二部分是知识保留可靠性

即:它是否记住对话中的关键细节?我们能否相信它不会“迷失方向”?仅记住细节还不够,它还需能够自我纠正。

这是我们在一些氛围编码工具中看到的情况:它们会忘记自己犯过的错误,然后反复犯错。我们应将此记录为较低的可靠性稳定性

第三部分可追踪角色一致性提示对齐。这用于追踪大语言模型是否坚守被赋予的角色,以及是否遵循系统提示中的指令。

接下来是与安全性相关的指标,如幻觉偏见/毒性

幻觉是一个重要的追踪指标,但也颇具挑战性。人们可能会尝试通过网络搜索来评估输出,或将输出拆分为不同声明,由更大型的模型(以“大语言模型即评判者”的方式)进行评估。

还有其他方法,如SelfCheckGPT,它通过在相同提示上多次调用模型,检查模型的一致性,看其是否坚守初始答案及偏离次数。

对于偏见/毒性,您可使用其他自然语言处理方法,如经过微调的分类器。

您可能想要追踪的其他指标可能是针对应用定制的,例如代码正确性、安全漏洞、JSON格式正确性等。

至于评估方式,并非始终需要使用大语言模型,尽管在大多数情况下,标准解决方案会使用。

在可提取正确答案的情况下(如解析JSON),我们自然无需使用大语言模型。如前所述,许多大语言模型供应商也会使用单元测试来对与代码相关的指标进行基准测试。

不言而喻,用于评判的大语言模型并非始终超级可靠,就像它们所评估的应用一样,但我此处没有具体数据,因此您得自行查找。

检索增强生成(RAG)

在多轮对话可追踪内容的基础上,我们可转而探讨使用检索增强生成(RAG)时需要衡量的内容。

对于检索增强生成系统,我们需将过程分为两部分:分别衡量检索指标和生成指标。

需要衡量的第一部分是检索,以及所获取的文档是否与查询相关。

若检索方面得分较低,我们可通过设置更好的分块策略、更换嵌入模型、添加混合搜索和重排序等技术、使用元数据过滤及类似方法来调整系统。

为衡量检索效果,我们可使用依赖精心整理数据集的旧指标,也可使用以大语言模型为评判者的无参考方法。

我需先提及经典的信息检索(IR)指标,因为它们最早出现。对于这些指标,我们需要“黄金”答案:即设置一个查询,然后为该特定查询对每个文档进行排名。

尽管您可使用大语言模型构建这些数据集,但我们不会使用大语言模型进行衡量,因为我们已有数据集中的分数可用于比较。

最著名的信息检索指标是Precision@k(前k精度)、Recall@k(前k召回率)和Hit@k(前k命中率)。

这些指标分别衡量获取的相关文档数量、基于黄金参考答案检索到的相关文档数量,以及结果中是否至少包含一个相关文档。

RAGAS和DeepEval等较新的框架引入了无参考、“大语言模型评判式”的指标,如上下文召回率和上下文精确率。

这些指标通过使用大语言模型进行评判,统计基于查询的前k列表中包含多少真正相关的块。

也就是说,基于查询,系统是否确实返回了相关文档,或者是否有太多不相关文档导致无法正确回答问题?

为构建用于评估检索的数据集,您可从真实日志中挖掘问题,然后由人工整理。

您也可在大语言模型的帮助下使用数据集生成器,这些生成器大多存在于各类框架中,或作为YourBench等独立工具存在。

若您要使用大语言模型设置自己的数据集生成器,可按如下方式操作。

# 用于生成问题的提示 qa_generate_prompt_tmpl = """\ 上下文信息如下。 --------------------- {context_str} --------------------- 根据上述上下文信息,不借助先验知识,仅基于该上下文生成{num}个问题和{num}个答案。 ...."""

若我们转向检索增强生成系统的生成部分,现在要衡量的是它如何使用提供的文档来回答问题。

若这部分表现不佳,我们可调整提示、微调模型设置(如温度等)、完全更换模型,或针对领域专业知识对其进行微调。我们还可迫使它使用思维链(CoT)风格的循环进行“推理”、检查自我一致性等。

对于这部分,RAGAS的指标很有用:答案相关性、忠实性和噪声敏感性。

这些指标用于衡量答案是否真正回应了用户的问题、答案中的每个声明是否都有检索到的文档支持,以及少量不相关的上下文是否会使模型偏离方向。

看看RAGAS,对于第一个指标,它可能会让大语言模型“从0到1打分,评估该答案在多大程度上直接回应了问题”,并向其提供问题、答案和检索到的上下文。这会返回一个原始的0-1分数,可用于计算平均值。

因此,总而言之,我们将系统分为两部分进行评估,尽管您可使用依赖信息检索指标的方法,但也可使用依赖大语言模型进行评分的无参考方法。

我们需要介绍的最后一点是,除了我们已涵盖的内容外,智能体如何扩展我们现在需要追踪的指标范围。

智能体

对于智能体,我们不仅关注输出、对话和上下文。

现在我们还评估它的“行动方式”:它能否完成一项任务或工作流程、完成效率如何,以及是否在正确的时间调用了正确的工具。

不同框架对这些指标的命名不同,但本质上,您最想追踪的两个指标是任务完成度和工具正确性。

为追踪工具使用情况,我们想知道是否为用户查询使用了正确的工具。

我们确实需要某种内置真实结果的黄金脚本,来测试每次运行,但您可编写一次,然后在每次变更时使用。

对于任务完成度,评估方式是读取整个轨迹和目标,返回0到1之间的数值并附上理由。这应能衡量智能体完成任务的效率。

对于智能体,根据您的应用,您仍需要测试我们已涵盖的其他内容。

即使有相当多已定义的指标可用,您的用例也会有所不同,因此了解常见指标很有价值,但不要认为它们就是追踪您应用的最佳指标。

接下来,让我们概述一下可提供帮助的主流框架。

辅助框架

有不少框架可帮助您进行评估,但我想谈谈几个主流框架:RAGAS、DeepEval、OpenAI和MLFlow的Evals,并分析它们的优势及适用场景。

您也可使用不少特定于框架的评估系统,如LlamaIndex,尤其适用于快速原型设计。

OpenAI和MLFlow的Evals是附加组件,而非独立框架;而RAGAS主要作为评估检索增强生成应用的指标库而构建(尽管它们也提供其他指标)。

DeepEval可能是所有框架中最全面的评估库。

但值得一提的是,它们都能在您自己的数据集上运行评估,以某种方式适用于多轮对话、检索增强生成和智能体,支持“大语言模型即评判者”,允许设置自定义指标,且适合持续集成(CI)。

如前所述,它们的不同之处在于全面性。

MLFlow主要用于评估传统机器学习管道,因此对于基于大语言模型的应用,它们提供的指标数量较少。OpenAI是一个非常轻量级的解决方案,期望您自行设置指标,尽管它们提供了一个示例库来帮助您入门。

RAGAS提供了相当多的指标,并与LangChain集成,因此您可轻松运行这些指标。

DeepEval提供了很多现成功能,包括RAGAS的指标。

框架对比

若我们查看所提供的指标,就能了解这些解决方案的广泛程度。

值得注意的是,提供指标的框架在命名上并不总是遵循标准。它们可能意思相同,但名称不同。

例如,一个框架中的“忠实性”可能与另一个框架中的“基于事实性”意思相同;“答案相关性”可能与“响应相关性”相同,等等。

这通常会给系统评估带来很多不必要的混淆和复杂性。

尽管如此,DeepEval仍脱颖而出,提供了40多个指标,还提供了一个名为G-Eval的框架,可帮助您快速设置自定义指标,使其成为从想法到可运行指标的最快方式。

OpenAI的Evals框架更适合您需要定制逻辑的场景,而非仅需要快速评判的场景。

根据DeepEval团队的说法,自定义指标是开发人员设置最多的,因此不要纠结于谁提供了什么指标。您的用例是独特的,评估方式也会如此。

那么,在什么情况下应使用哪个框架?

若您需要用于检索增强生成管道的专门指标且设置最少,可使用RAGAS。若您想要一个完整的、现成的评估套件,可选择DeepEval。

若您已在使用MLFlow,或更喜欢内置的跟踪和用户界面功能,MLFlow是个不错的选择。OpenAI的Evals框架最基础,因此若您依赖OpenAI基础设施且需要灵活性,它是最佳选择。

最后,DeepEval还通过其DeepTeam框架提供红队测试,该框架可自动化对大语言模型系统的对抗性测试。市面上也有其他框架做这件事,尽管可能没有这么全面。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1199609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

15分钟用CHATHUB打造AI产品原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个快速原型生成模板,基于CHATHUB平台。要求:1) 支持通过自然语言描述生成可运行原型;2) 预设常见AI应用场景(客服、教育、娱乐等)&#x…

共模与差模:定义、区别、防护、理解、应用场景

共模与差模:定义、区别、防护、理解、举例、应用场景 共模(Common Mode, CM)和差模(Differential Mode, DM)是信号传输、EMC 电磁兼容、电源滤波中最核心的两个概念,本质是描述信号 / 干扰相对于参考地的两种不同传输方式。 一、核心定义 1. 差模(Differential Mode)…

JAVA11 vs 旧版本:开发效率提升30%的秘诀

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 编写一个JAVA11程序,展示如何用新特性简化常见编码任务。包含:1) 使用var简化代码 2) 新的字符串方法 3) 集合工厂方法 4) 改进的Stream API。要求每个示例…

RAG只是起点!企业级AI Agent开发的三重境界(建议收藏)

当老板让我搞AI Agent时,我以为自己是天选之子,即将用代码改变世界。我天真地以为搞定RAG就是终点,没想到它只是新手村的入场券。本文记录了一个初转AI的工程师,如何被Chunk切分、模型幻觉和那该死的调度系统,从自信满…

寻找宁波研究生留学中介?top10机构反馈及时,助您成功留学

寻找宁波研究生留学中介?top10机构反馈及时,助您成功留学一、宁波研究生如何选择留学中介?关注服务及时性与专业深度2026年1月10日,当一位宁波地区的高校学子在搜索引擎中输入“宁波研究生留学中介”时,其核心关切…

WINBOAT:AI如何革新船舶设计开发流程

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个基于AI的船舶设计辅助系统,能够根据输入参数自动生成最优船体设计方案。系统需要包含以下功能:1) 流体力学性能模拟模块 2) 结构强度分析模块 3) 材…

SGLang-v0.5.6容器化部署:Docker镜像使用教程

SGLang-v0.5.6容器化部署:Docker镜像使用教程 SGLang-v0.5.6 是当前版本中稳定性与性能表现俱佳的一个发布版本,特别适合用于生产环境下的大模型推理服务部署。本文将带你从零开始,通过 Docker 镜像的方式快速部署 SGLang 服务,无…

SCSS入门指南:小学生都能懂的样式预处理器教程

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个交互式SCSS学习平台,功能包括:1. 基础概念可视化解释;2. 实时代码编辑器与预览;3. 渐进式练习题系统;4. 常见错…

Git小白必看:VS Code插件入门图解指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个交互式新手教程,引导用户逐步学习VS Code Git插件的基本功能。包括初始化仓库、提交更改、查看历史等核心操作。教程应采用分步指导形式,每个步骤都…

Qwen All-in-One权限控制:API访问安全管理方案

Qwen All-in-One权限控制:API访问安全管理方案 1. 背景与架构概述 1.1 单模型多任务的AI服务新范式 🧠 Qwen All-in-One: 单模型多任务智能引擎 基于 Qwen1.5-0.5B 的轻量级、全能型 AI 服务 Single Model, Multi-Task Inference powered by LLM Prom…

在福州寻找最好的研究生留学机构?录取案例多的事实与选择指南

在福州寻找最好的研究生留学机构?录取案例多的事实与选择指南一、在福州寻找可靠的研究生留学机构?录取案例是关键指标作为从业八年的国际教育规划师,我常被福州地区的高校学生及家长问及,如何甄别本地留学服务机构…

5分钟搭建RSA密钥验证原型系统

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 构建一个极简RSA密钥验证原型,功能包括:1. 一键生成密钥对 2. 模拟文件/环境变量/数据库三种存储方式 3. 自动测试密钥加载 4. 可视化展示加载过程 5. 导出…

2026副主任护师怎么备考?攻略测评:经验分享与课程资料深度解析

2026副主任护师怎么备考?攻略测评:经验分享与课程资料深度解析前言面对2026副主任护师资格考试,如何从零散的经验分享中提炼出真正有效的备考路径,是许多护理工作者启动备考时面临的首要问题。市场上的课程与资料纷…

【建议收藏】AI智能体工作流5种架构设计模式详解:从小白到程序员的进阶指南

本文对AI 智能体的工作流(Workflow)的5种架构设计模式、何时使用何种流程以及对 AI 智能架构未来意味着什么进行一个实用的分解。下文我们对5种架构设计模式详细剖析之。 一、AI 智能体工作流剖析让我们从基础开始。在这个语境中,工作流&…

AI一键解决MySQL Workbench中文界面设置难题

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个AI辅助工具,自动检测用户系统语言环境,当用户打开MySQL Workbench时,自动提示是否需要切换界面语言。若选择中文,则自动完成…

Flink在实时电商大屏中的实战应用

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个电商实时数据大屏Demo,使用Apache Flink处理以下数据流:1. 用户点击流实时分析;2. 交易金额实时聚合;3. 异常交易实时告警。…

【程序员必备收藏】大模型输出稳定性评估:4种量化方法详解+实战指南

大模型相关工作岗位需求也会越来越多了,甚至有很多兼职的岗位。所以,接下来一段时间我打算出一个大模型技术解读系列,帮助那些想从事大模型工作的同学,当然,即便你不找相关工作,读一读多了解下大模型技术也…

郑州top10研究生留学机构详细盘点,反馈及时,服务优质可靠

郑州top10研究生留学机构详细盘点,反馈及时,服务优质可靠一、郑州学子如何挑选可靠的研究生留学中介?作为从业十年的国际教育规划师,我常被郑州的同学们问及:“本地有哪些真正靠谱的留学机构?”“服务过程透明吗…

用PYAUTOGUI快速构建自动化原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个快速原型工具,使用PYAUTOGUI实现以下功能:1. 记录用户的鼠标和键盘操作;2. 生成可重复执行的Python脚本;3. 允许简单编辑录…

LaTeX效率革命:AI对比传统编写速度提升300%

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个LaTeX效率工具包,包含:1)输入部分公式描述即可智能补全完整LaTeX代码 2)实时语法检查并高亮错误 3)记忆用户常用…