网站怎么优化排名的方法做新媒体应该关注什么网站

bicheng/2026/1/27 8:39:35/文章来源:
网站怎么优化排名的方法,做新媒体应该关注什么网站,竞价培训班,wordpress 36kr模板作者#xff1a;来自 Elastic Steve Dodson 有多种策略可以将特定领域的知识添加到大型语言模型 (LLM) 中#xff0c;并且作为积极研究领域的一部分#xff0c;正在研究更多方法。 对特定领域数据集进行预训练和微调等方法使 LLMs 能够推理并生成特定领域语言。 然而#…作者来自 Elastic Steve Dodson 有多种策略可以将特定领域的知识添加到大型语言模型 (LLM) 中并且作为积极研究领域的一部分正在研究更多方法。 对特定领域数据集进行预训练和微调等方法使 LLMs 能够推理并生成特定领域语言。 然而使用这些 LLM 作为知识库仍然容易产生幻觉。 如果领域语言与 LLM 训练数据相似则通过检索增强生成 (RAG) 使用外部信息检索系统向 LLM 提供上下文信息可以改善事实响应。 最终微调和 RAG 的组合可能会提供最佳结果。 该博客试图描述一些存储和检索 LLMs 知识的基本过程。 后续博客将更详细地描述不同的 RAG 策略。 Pre-training预训练Fine-tuning 微调Retrieval Augmented Generation RAG训练时间几天几周甚至几个月几分钟到几小时不需要定制需要大量领域训练数据 可定制模型架构、大小 分词器等 创建新的 “基础” LLM 模型添加特定于域的数据 针对特定任务进行调整。 更新LLM模型。没有模型权重 外部信息检索系统可以调整以与 LLM 对齐。 提示可以优化以提高任务性能。目的下一个 token 预测提高任务绩效提高特定领域文档集的任务性能专业知识高中低 介绍 基于大型语言模型 (LLM) 的生成式人工智能技术极大地提高了我们开发处理、理解和生成文本工具的能力。 此外这些技术引入了创新的信息检索机制其中生成式人工智能技术使用模型存储的参数知识直接响应用户查询。 然而值得注意的是模型的参数知识是整个训练数据集的浓缩表示。 因此将这些技术应用于原始训练数据之外的特定知识库或领域确实存在一定的局限性例如 生成人工智能的响应可能缺乏上下文或准确性因为它们无法访问训练数据中不存在的信息。有可能产生听起来合理但不正确或误导性的信息幻觉。 存在不同的策略来克服这些限制例如扩展原始训练数据、微调模型以及与特定领域知识的外部源集成。 这些不同的方法会产生不同的行为并带来不同的实施成本。 特定领域的预训练 LLMs 接受了代表各种自然语言用例的庞大数据集的预训练 模型总数据集大小数据来源训练成本PaLM 540B7800 亿  tokens社交媒体对话多语言50% 过滤网页多语言27% 书籍英文13% GitHub代码5% 维基百科多语言4% 新闻英文1%8.4M TPU v2 hoursGPT-34990 亿 tokens普通爬行已过滤60% WebText2 22% 书籍18% 书籍 28% 维基百科 3%0.8M GPU hoursLLaMA 22 兆 tokens“来自公开来源的数据混合”3.3M GPU hours  这个预训练步骤的成本是巨大的并且需要大量的工作来整理和准备数据集。 这两项任务都需要高水平的技术专业知识。 此外预训练只是创建模型的第一步。 通常然后在针对特定任务精心策划和定制的较小数据集上对模型进行微调。 此过程通常还涉及人工审核员他们对可能的模型输出进行排名和审核以提高模型的性能和安全性。 这进一步增加了过程的复杂性和成本。 这种方法应用于特定领域的示例包括 ESMFold、ProGen2 等 - 蛋白质序列的 LLM蛋白质序列可以使用类似语言的序列表示但不被自然语言模型覆盖Galatica - 科学 LLM专门接受大量科学数据集的培训并包括处理科学符号的特殊处理BloombergGPT - 金融 LLM接受 51% 金融数据、49% 公共数据集的培训StarCoder - 代码 LLM使用 384 种编程语言的 6.4TB 许可源代码进行培训并包含 54GB GitHub 问题和存储库级元数据 特定领域模型通常优于各自领域内的通用模型在与自然语言显着不同的领域例如蛋白质序列和代码中观察到最显着的改进。 然而对于知识密集型任务这些特定领域模型由于依赖参数知识而受到相同的限制。 因此虽然这些模型可以更有效地理解领域的关系和结构但它们仍然容易出现不准确和幻觉。 特定领域的微调 LLMs 的微调涉及针对特定任务或领域训练预先训练的模型以提高其在该领域的表现。 它通过使用特定于任务的数据更新模型的参数使模型的知识适应更狭窄的上下文同时保留在预训练期间获得的一般语言理解。 这种方法针对特定任务优化了模型与从头开始训练相比节省了大量时间。 例子 Alpaca - 经过微调的 LLaMA-7B 模型其行为在质量上与 OpenAI 的 GPT-3.5 类似xFinance - 针对特定金融任务的微调 LLaMA-13B 模型。 据报道其表现优于 BloombergGPTChatDoctor - 用于医疗聊天的微调 LLaMA-7B 模型。falcon-40b-code-alpaca - 经过微调的 falcon-40b 模型用于从自然语言生成代码 成本 微调的成本明显低于预训练的成本。 此外诸如参数高效微调PEFT方法例如如上所述的 LoRA、适配器、提示调整和上下文学习等新颖方法可以使预训练语言模型PLM非常有效地适应各种不同的环境。 下游应用程序无需微调所有模型参数。 例如 模型微调方法微调数据集成本Alpaca Self-Instruct52K 条独特的指令和相应的输出3 hours on 8 80GB A100s:24 GPU hoursxFinance使用 xTuring 库进行无监督微调和指令微调493M token文本数据集 82K指令数据集25 hours on 8 A100 80GB GPUs:200 GPU hoursChatDoctorSelf-Instruct11 万次医患互动3 hours on 6 A100 GPUS: 18 GPU hoursfalcon-40b-code-alpacaSelf-Instruct52K指令数据集 20K 指令输入代码三元组4 hours on 4 A100 80GB GPUs: 16 GPU hours 与特定领域的预训练模型类似这些模型通常在各自的领域内表现出更好的性能但它们仍然面临与参数知识相关的限制。 检索增强生成 - RAG LLMs 将事实知识存储在其参数中但他们访问和精确操纵这些知识的能力仍然有限。 这可能会导致 LLMs 提供非事实但看似合理的预测幻觉—— 特别是对于不受欢迎的问题。 此外为他们的决策提供参考并有效地更新他们的知识仍然是开放的研究问题。 解决这些限制的通用方法是 RAG其中 LLM 的参数知识以来自信息检索系统的外部或非参数知识为基础。 这些知识作为提示中的附加上下文传递给 LLM并向 LLM 提供有关如何使用此上下文信息的具体说明。这使其更符合迄今为止有关参数知识的讨论。这种方法的优点是 : 与微调和预训练不同LLM 参数不会改变因此没有训练成本简单实施所需的专业知识较低尽管存在更高级的策略响应可以严格限制于从信息检索系统返回的上下文从而限制幻觉可以使用较小的特定于任务的 LLM - 因为 LLM 用于特定任务而不是知识库。知识库很容易更新因为它不需要改变 LLM回复可以引用人工验证的来源和链接输出 将这种非参数知识即检索到的文本与 LLM 的参数知识相结合的策略是一个活跃的研究领域。 其中一些方法涉及结合检索策略修改 LLM因此不能像本博客中的定义那样明确分类。 我们将在以后的博客中深入探讨更多细节。 简单的例子 在一个简单的示例中我们使用了基于本博客信息的微调 LLaMA2 13B 模型。 该模型使用 LLaMA2 预训练和微调数据截止日期特别是 2023 年 7 月 23 日之后发布的 AWS 博客文章进行了微调。我们还将这些文档提取到 Elasticsearch 中并建立了一个简单的 RAG 管道。 在此管道中模型响应是根据作为上下文的检索到的文档生成的。 红色突出显示表示错误的响应蓝色突出显示正确的响应。 不过需要注意的是这只是一个单一的例子并不构成对 fine-tuning 与 RAG 的综合评价只是提供了一个之前的 fine-tuning 的例子用于形式而不是事实。我们计划在即将发布的博客中进行更彻底的研究的比较。 原文Domain Specific Generative AI: Pre-Training, Fine-Tuning, and RAG — Elastic Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/86259.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站app简单做网页设计师考试内容

目录 #基本使用 #配置toast主题 #toast结束跳转URL #API #Props #Params #Methods 此组件表现形式类似uni的uni.showToastAPI,但也有不同的地方,具体表现在: uView的toast有5种主题可选可以配置toast结束后,跳转相应URL目…

定制网站建设公司价格手机网站标准

软件开发一般来说是一项团队作业,在本系列文章开始就提到过软件的编码是由一个团队“并行”完成的,为了保证编码任务正常完成,首先引入版本控制工具来完成代码管理,为了保证代码质量引入了代码分析器以及代码测试。版本控制工具可…

建设网站现在免费吗自己建一个网站需要准备什么

问题描述 某天和往常一样启动java项目,发现数据库出问题了,然后打开navicat,发现数据库的链接都连接不上, 一点击就会弹出报错框: 然后就各种上网搜索。 解决方案 上网查了一些解决方案,大部分都是说看…

企业品牌网站建设涪陵网站建设

PID原理介绍及C#编程仿真 https://blog.csdn.net/panjinliang066333/article/details/104428683

网站建设备案哪家好wordpress 旅行主题

PhotoShop学习笔记 对图像进行缩放拉伸自动选中像素相近的同一个区域分离图层的选中区域分离图层的非选中区域处理不自然的缝合痕迹 记录一些PhotoShop中用到的操作,主要是在处理AI图像时遇到的需求。 对图像进行缩放拉伸 CTRLT 自动选中像素相近的同一个区域 魔…

建筑公司网站管理员网站建设技术代码

【导读】地图公司给地图“上色”主要靠数据,数据够则地图生。数据是地图的生命,车速是路况的根本,地图获取数据主要有两种方式:自给自足、仰给于人上班出门,点开地图,前面红色,后面红色&#xf…

永康企业网站建设公司企业推广网站的方法

代碼如下: conda create -n evo python3.8 conda activate evo pip install evo --upgrade --no-binary evo 然後耐心等待一下,即可順利安裝。前提是電腦里有conda!

做网站如何避免侵权企业网站建设代理商

API Server API Server是什么 提供集群管理的REST API接口,包括认证授权、数据校验以及集群状态变更等提供其他模块之间的数据交互和通信的枢纽(其他模块通过API Server查询或修改数据,只有API Server才直接操作etcd) 访问控制…

成都创建公司网站更新不了wordpress

2000-2022年各省环境规制数据(原始数据计算过程计算结果) 1、时间:2000-2022年 2、范围:30省 3、来源:各省年鉴、国家统计局、统计年鉴 4、指标:年份、省份、工业污染源治理投资完成实际额、工业增加值…

如何把电脑改成服务器做网站wordpress占用CPU高

公司代码管理平台新切换到gitlab下,上线发版流程随之变更 1新建分支,开发完成,提交新分支 2.去gitlab平台上找到Merge requests 3 点击右上角的New merge request select source branch 选择新建的分支 点击 compare branches and contin…

运动服装商城网站建设网站备案幕布要求

无输入截止条件的ACM输入 华为OD机试题中有一些题目是没有输入截止条件的,比如 华为OD机试 - 数字游戏(Java & JS & Python)_伏城之外的博客-CSDN博客 从输入描述来看,每组有两行输入,但是并没有告诉我们具体有几组? 那么输入该如何截止呢? 此时,有两种输入…

简述电子商务网站的建设步骤平面设计师务所

数据集类型:图像分类用,不可用于目标检测无标注文件 数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):256016 分类类别数:356 类别名称:["1","2"…

在哪个网站去租地方做收废站惠州做网站建设

系列文章目录 智能化校园:深入探讨云端管理系统设计与实现(一) 文章目录 系列文章目录功能开发登录功能分析验证码功能实现登录校验功能登录后跳转功能 系统管理器实现验证码响应图片功能实现异步图片上传头像功能实现全局修改密码功能实现 …

尉氏网站建设图片交易网站源码

前言 最近学习VUE,在ubuntu 2204 上配置开发环境,涉及到npm node nodejs vue-Cli脚手架等内容,做以记录。 一、node nodejs npm nvm 区别 ? node 是框架,类似python的解释器。nodejs 是编程语言,是js语言的…

公司网站建设需求分析汉川做网站

问题描述: 今天在写csdn动态的时候,发了五个动态,但是主页面的“最近”看不到我发的动态,我还以为是csdn动态每天的发送量有数量限制。去这个地方点我的发现 右上角全是“审核中”的字样 按理说是不可能审核这么久的&#xff08…

做网站 给图片加链接网站赚流量

接口缩容 在VS编译器的模式下&#xff0c;类似于erase和insert接口的函数通常会进行缩容&#xff0c;因此&#xff0c;insert和erase行参中的迭代器可能会失效。下图中以erase为例&#xff1a; 代码如下&#xff1a; #include <iostream> #include <vector> #inclu…

成都建设网站的一般做企业网站需要什么

有两种情况&#xff1a; 压根没安装下载了但没设为库或方法不对 大多数为第一种情况&#xff1a; 一. 下载jdbc 打开网址选择一个版本进行下载 https://nowjava.com/jar/version/mysql/mysql-connector-java.html 二.安装jdbc 在项目里建一个lib文件夹 在把之前下载的jar文…

简阳电力建设立项网站友情贴吧

Proxyman专为开发人员和网络爱好者设计&#xff0c;它允许用户拦截、查看和修改所有传入和传出的网络请求&#xff0c;并提供详细的分析和调试功能。 Proxyman支持HTTP、HTTPS和WebSocket协议&#xff0c;因此&#xff0c;可以轻松捕获和查看这些协议下的网络流量。用户可以使…

爱站网站长seo综合查询怎么找人做动漫视频网站

3.2 xHCI数据结构 3.2.1 Device Context Base Address Array 3.2.2 Device Context 3.2.3 Slot Context

自己做网站不想买空间 自己电脑可以做服务器吗?怎么进入wordpress修改界面

文章目录 网络设备和网络软件网卡交换机交换机的三个主要功能交换机的工作原理第二层交换和第三层交换交换机的堆叠和级联 路由器路由器工作原理 网关网关的分类 无线接入点(AP)调制解调器网络软件 网络设备和网络软件 网卡 网络接口卡又称网络适配器&#xff0c;简称网卡。网…