RAG学习道路

news/2025/11/6 9:41:13/文章来源:https://www.cnblogs.com/wenkaizhang/p/19194210

数据准备阶段

加载原始文档
使用来自langchain_community.document_loaders的各种Loader,
如:UnstructuredMarkdownLoader,TextLoader等.
传入参数一般为文件路径如:
"../../data/C1/markdown/easy-rl-chapter1.md"

文本分块(Chunking)
为了便于后续嵌入与检索,长文档被分割成较小的文本块(chunks)。
经常使用递归字符分割:RecursiveCharacterTextSplitter()。
其默认行为旨在最大程度保留文本的语义结构:
https://datawhalechina.github.io/all-in-rag/#/chapter2/05_text_chunking

实际应用实例:
text_splitter = CharacterTextSplitter( chunk_size=200, # 每个块的大小 chunk_overlap=50 # 块之间的重叠大小 )
其中,chunk_overlap是为了保证上下文连续性的参数,其实现的思路为:

块编号 覆盖的字符区间 说明
第1块 0 ~ 199 从开头取200个字符
第2块 150 ~ 349 向后滑动 200 - 50 = 150 个字符
第3块 300 ~ 499 再滑动 150 个字符
👉 每个块都与前一个块有50个字符的重叠部分(即 chunk_overlap)
这意味着如果一段话跨越了两个块的边界,
模型在处理第2块时依然能看到第1块的结尾,从而理解上下文。
它本质上是一个滑动窗口的步长控制机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/957421.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年杭州找电商代运营公司权威推荐榜单:正规代运营/直播代运营/专业直播代运营源头公司精选

杭州电商代运营行业已进入技术驱动与全域融合的新阶段,头部服务商凭借数字化工具与垂直领域经验,正重塑品牌增长路径。 在政策红利、人才聚集及阿里/抖音生态优势的加持下,杭州作为“电商之都”持续引领中国数字商业…

2025年口碑好的植物生长灯TOP品牌厂家排行榜

2025年口碑好的植物生长灯TOP品牌厂家排行榜 随着现代农业技术的快速发展,植物生长灯在设施农业、垂直农场、家庭种植等领域的应用越来越广泛。优质的植物生长灯不仅能弥补自然光照不足,还能提高作物产量和品质。20…

2025年比较好的精品韩国绒厂家最新权威实力榜

2025年比较好的精品韩国绒厂家最新权威实力榜 韩国绒作为一种兼具舒适性与时尚感的面料,近年来在服装、家纺、配饰等领域广受欢迎。随着市场需求的增长,选择一家实力雄厚、品质可靠的韩国绒厂家至关重要。本文根据企…

2025年靠谱的进口品牌缓冲铰链厂家选购指南与推荐

2025年靠谱的进口品牌缓冲铰链厂家选购指南与推荐缓冲铰链作为现代家具五金的核心部件,其质量直接决定了家具的使用寿命和用户体验。随着家居行业对品质要求的不断提升,进口品牌缓冲铰链凭借其精湛工艺和卓越性能,正…

打开远程解释器下的streamlit的hello页面

打开远程解释器下的streamlit的hello页面 前提是已经在远程解释器安装好streamlit 1.激活远程解释器(我在本地pycharm使用的那个远程解释器) 确定远程解释器位置激活(在远程ubuntu激活)2.输入streamlit hello输出结…

快速傅里叶变换(FFT)的应用

1. 信号处理基础概念 %% FFT基础与应用示例 clear; close all; clc;% 生成测试信号 fs = 1000; % 采样频率 1000Hz t = 0:1/fs:1-1/fs; % 时间向量 (1秒) N = length(t); % 信号长度% 创建…

2025信创DevOps平台选型新视角:破局数据孤岛,重构协同效率

数字化转型中,互联网企业常陷“研发-办公”数据孤岛,拖累协同与研发效能。本文对比主流DevOps产品,其中国产DevOps平台契合信创DevOps需求,能打通研运数据、兼容信创生态,有效破解孤岛问题,为DevOps平台选型提供…

2025年口碑好的吹膜机清洗料品牌厂家排行榜

2025年口碑好的吹膜机清洗料品牌厂家排行榜 随着塑料加工行业的快速发展,吹膜机清洗料作为生产过程中的重要辅助材料,其品质直接影响生产效率和产品质量。优质的清洗料不仅能有效清除机器内的残留物,还能延长设备使…

2025年知名的连栋玻璃温室热门厂家推荐榜单

2025年知名的连栋玻璃温室热门厂家推荐榜单 随着现代农业和设施园艺的快速发展,连栋玻璃温室因其采光性好、保温性强、使用寿命长等优势,成为现代农业生产的重要设施。2025年,市场上涌现出一批技术领先、服务优质的…

2025年评价高的石材抛丸机TOP实力厂家推荐榜

2025年评价高的石材抛丸机TOP实力厂家推荐榜 在石材加工、建筑、冶金等行业中,抛丸机作为表面处理的核心设备,其性能和质量直接影响生产效率与产品品质。2025年,随着技术的不断升级,市场对高效、耐用、智能化的抛…

2025年热门的全屋定制生态板厂家选购指南与推荐

2025年热门的全屋定制生态板厂家选购指南与推荐 随着消费者对家居环保、健康、个性化需求的不断提升,全屋定制生态板市场迎来了快速发展。生态板因其环保性能优越、花色丰富、加工便捷等特点,成为现代家居装修的首选…

2025年口碑好的装箱机用户好评厂家排行

2025年口碑好的装箱机用户好评厂家排行 随着工业自动化需求的持续增长,装箱机作为生产线后端包装的核心设备,其效率、稳定性和智能化水平直接影响企业产能与成本控制。2025年,市场上涌现出一批技术领先、服务优质的…

git clone操作报错diffie-hellman-group1-sha1的解决方案

在使用Git进行克隆操作的过程中,可能会遇到一个与加密算法相关的报错,尤其是当服务器使用了过时的安全算法 diffie-hellman-group1-sha1时。这通常发生在尝试克隆旧的或配置较老的Git服务器时,当代的SSH客户端默认不…

2025年声学指纹在线监测系统公司,在线监测系统哪家公司的服务周到?

在智能电网与工业设备运维数字化转型浪潮中,声学指纹在线监测系统凭借精准的设备故障预警能力,成为保障电力、能源等领域设备安全稳定运行的核心技术之一。企业在选择声学指纹在线监测系统供应商时,不仅关注技术先进…

HAwebsso.nl未受保护API端点泄露1.5万医生凭证数据

荷兰医疗单点登录系统HAwebsso.nl因未受保护的API端点导致超过1.5万名医生的用户名和密码哈希值泄露。本文详细分析了IDOR漏洞的发现过程、技术细节和修复建议,涉及端点安全、哈希算法分析和威胁建模等内容。未受保护…

2025 年 11 月广州装修公司最新推荐:5 大品牌专业测评,选品参考指南

引言 为帮助装修需求者精准筛选可靠服务商,近期行业协会开展装修公司专项测评,采用 “量化指标 + 实地核验” 的专业测评方法。测评从设计专业度(25%)、施工标准化(30%)、售后保障力(20%)、合规完成率(15%)、…

Intersection Observer API 理解

Intersection Observer API 理解今天在写div中滚动触底,分批加载内容的时候,发现一个新的 接口 Intersection Observer API 官方文档:https://developer.mozilla.org/zh-CN/docs/Web/API/Intersection_Observer_API…

2025年评价高的白刚玉热门厂家推荐榜单

2025年评价高的白刚玉热门厂家推荐榜单 白刚玉作为一种高性能的磨料和耐火材料,广泛应用于精密铸造、研磨抛光、耐火材料等领域。随着工业技术的不断发展,市场对白刚玉的品质要求越来越高。为帮助用户快速找到优质供…

2025 年不锈钢水管源头厂家最新推荐榜:聚焦具备大规模生产能力靠谱企业,涵盖多类型产品与优质安装服务不锈钢水管工程,不锈钢水管管件,不锈钢水管安装公司推荐

引言 当前,不锈钢水管在建筑与家装领域应用愈发广泛,但其行业质量参差不齐的问题仍需重视。为筛选出具备大规模生产能力且可靠的源头厂家,本次榜单结合行业协会最新测评数据制定,测评涵盖生产规模、产品质量、服务…

NOIP前计划

勇气和斗志 打基础 目标就是打好基础 要事优先,符合目标的事先做,不符合的事优先级往后放 只有23天,大概3周左右,还能干一些事情 要事:板子不熟,码不出来的,找例题快速码dp专项练习数学专项练习模拟赛模拟赛时状…