5款可用于LLMs的爬虫工具/方案

5款可用于LLMs的爬虫工具/方案

news/2026/1/10 17:25:20/文章来源:https://blog.csdn.net/fwh66/article/details/138756404

5款可用于LLMs的爬虫工具/方案

Crawl4AI
功能: 提取语义标记的数据块为JSON格式，提供干净的HTML和Markdown文件。
用途: 适用于RAG（检索增强生成）、微调以及AI聊天机器人的开发。
特点: 高效数据提取，支持LLM格式，多URL支持，易于集成和Docker容器化。
GitHub: https://github.com/unclecode/crawl4ai
FireCrawl
功能: 抓取网站的所有可访问子页面，并转换内容为干净的Markdown格式。
特点: 适用于JavaScript动态生成的内容网站，提供易用的API。
GitHub: https://github.com/mendableai/firecrawl
Scrapegraph-ai
功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
特点: 自动执行数据抓取任务，用户只需指定信息类型。
GitHub: https://github.com/VinciGit00/Scrapegraph-ai
Markdowner
功能: 将网站快速转换为Markdown数据。
特点: 支持自动爬虫、详细模式、JavaScript网站等，易于扩展和自托管。
GitHub: https://github.com/dhravya/markdowner
Jina Reader
功能：将任何URL转化为LLM所需的Markdown格式
特点：可以针对这些内容集成不同的模型，支持API
GitHub：https://github.com/jina-ai/reader

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/836151.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

c++ 入门2

c++ 入门2

目录五. 函数重载 1、参数类型不同 2、参数个数不同 3、参数类型顺序不同 C支持函数重载的原理--名字修饰(name Mangling） 为什么C支持函数重载，而C语言不支持函数重载呢？ 六. 引用 6.1 概念 6.2 引用特性 6.3 常引用 6.4 使用场景 …

阅读更多...

美国政府发布新的国际网络空间和数字政策战略（下）

美国政府发布新的国际网络空间和数字政策战略（下）

文章目录前言五、当前时期的特征六、战略的畅想前言该战略提出，2020年代是决定性的十年，当前采取的行动将塑造未来网络空间、数字技术和数字经济的“轮廓”；在实施该战略时，美国务院将与国会和机构间合作伙伴合作，评估当前的网络授权，并根据需要修改或创建授权，以便跟…

阅读更多...

数据结构之排序（上）

数据结构之排序（上）

片头嗨，小伙伴们，大家好！我们今天来学习数据结构之排序（上），今天我们先讲一讲3个排序，分别是直接插入排序、冒泡排序以及希尔排序。 1. 排序的概念及其应用 1.1 排序的概念排序&#xff1a…

阅读更多...

图书馆APP开发解决方案

图书馆APP开发解决方案

uni-app框架：使用Vue.js开发跨平台应用的前端框架，编写一套代码，可编译到Android、小程序等平台。框架支持:springboot/Ssm/thinkphp/django/flask/express均支持前端开发:vue.js 可选语言：pythonjavanode.jsphp均支持运行软件…

阅读更多...

docker 部署并运行一个微服务

docker 部署并运行一个微服务

要将微服务部署并运行在Docker容器中，你需要按照以下步骤操作： 编写Dockerfile：在项目根目录下创建一个名为Dockerfile的文件，并添加以下内容： # 使用一个基础的Docker镜像 FROM docker-image# 将项目文件复制到容器…

阅读更多...

C++中合成的默认构造函数的访问权限

C++中合成的默认构造函数的访问权限

问题我们知道，在C中，如果没有为一个类显式定义构造函数，那么编译器会为我们隐式地定义一个默认构造函数。那么，你有没有想过，这个隐式定义地默认构造函数（合成的默认构造函数）的访问权限是什么…

阅读更多...

蓝桥杯备战10.分巧克力

蓝桥杯备战10.分巧克力

P8647 [蓝桥杯 2017 省 AB] 分巧克力 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 暴力枚举过70%样例 #include<bits/stdc.h> #define endl \n #define int long long using namespace std; const int N 2e710,M 1e310; int n,k; int h[N],w[N]; bool check(int …

阅读更多...

js的传参方法

js的传参方法

在JavaScript中，有几种不同的方式可以向函数传递参数（传参）。以下是一些主要的方法： 位置参数（Positional Parameters） 这是最常见的传参方式。在定义函数时，你指定参数的名称，然后…

阅读更多...

百度云防护如何开启CC攻击防护

百度云防护如何开启CC攻击防护

百度云防护的最重要的功能是可以CC攻击防护，针对CC攻击，百度云防护有被动的CC攻击拦截规则，也有主动自定义访问策略拦截。今天百度云来教大家如何开启百度云防护的CC攻击防御功能。 1.进入防护模板功能-创建模板 2.开启CC攻击防御功能&…

阅读更多...

李飞飞首次创业！

李飞飞首次创业！

B站：啥都会一点的研究生公众号：啥都会一点的研究生最近AI又有啥进展？一起看看吧~ 中国独角兽企业已达369家，六成以上与AI、芯片等硬科技赛道有关 2024中关村论坛“全球独角兽企业大会”上发布全新《中国独角兽企业发展报告&am…

阅读更多...

探索互联网医院系统源码：开发在线药房小程序实战教学

探索互联网医院系统源码：开发在线药房小程序实战教学

今天，笔者将与大家一同深入探讨互联网医院系统的源码结构，并通过开发在线药房小程序的实战教学，为读者提供一种学习和理解这一领域的途径。一、互联网医院系统源码解析 1.技术选型互联网医院系统的开发离不开合适的技术选型，…

阅读更多...

JavaScript（进阶）

JavaScript（进阶）

作用域了解作用域对程序执行的影响及作用域链的查找机制，使用闭包函数创建隔离作用域避免全局变量污染。作用域（scope）规定了变量能够被访问的“范围”，离开了这个“范围”变量便不能被访问，作用域分为全局作用域和局…

阅读更多...

类和对象-Python-第二部分

类和对象-Python-第二部分

师从黑马程序员多态抽象类（接口） #演示抽象类 class AC:def cool_wind(self):"""制冷"""passdef hot_wind(self):"""制热"""def swing_l_r(self):"""左右摆风""…

阅读更多...

Cloudflare国内IP地址使用教程

Cloudflare国内IP地址使用教程

Cloudflare国内IP地址使用教程加速网站： 首先我们添加一个 A 记录解析，解析 IP 就是我们服务器真实 IP： 然后侧边栏 SSL/TLS - 自定义主机名： 回退源这里填写你刚刚解析的域名，保存后回退源状态为有效再来接下的操作…

阅读更多...

第十二篇：数据库系统导论 - 探索数据管理的基石

第十二篇：数据库系统导论 - 探索数据管理的基石

数据库系统导论 - 探索数据管理的基石 1 引言数据的力量：揭秘数据库系统的核心在信息时代，数据无处不在，它们成为了企业和社会运作的基础。我们如何储存、检索、更新和维护这些数据，决定了我们能否从这些数据中获得力量。数据…

阅读更多...

JAVA基础-----泛型

JAVA基础-----泛型

三、泛型接口 1、基本语法： public interface 接口名<类型参数> {... }2、泛型接口中的类型参数，在该接口被继承或者被实现时确定。解释如下： （1）在泛型接口中，静态成员也不能使用泛型接口定义的类…

阅读更多...

linux内核debug(一)oops

linux内核debug(一)oops

目录一、引言二、二、oops ------>2.1、kallsyms ------>2.2、编写产生oops的驱动 ------>2.3、打印函数调用过程 ------>2.4、根据RBP寄存器找到出错函数 ------>2.5、反汇编驱动 ------>2.6、addr2line ------>2.7、内核代码出错 ------>…

阅读更多...

Spring Boot进阶 - 实现自动装配原理

Spring Boot进阶 - 实现自动装配原理

Spring Boot的自动装配（Auto-Configuration）是其核心特性之一，它极大地简化了Spring应用的配置过程。自动装配的原理基于Spring框架的Configuration、ConditionalOnClass、ConditionalOnMissingBean等注解，以及Spring Boot提供的s…

阅读更多...

网络应用层

网络应用层

叠甲：以下文章主要是依靠我的实际编码学习中总结出来的经验之谈，求逻辑自洽，不能百分百保证正确，有错误、未定义、不合适的内容请尽情指出！ 文章目录 1.使用协议和序列化1.1.自定义协议，自定义序列化1.2.自…

阅读更多...

【网络】网络基础

【网络】网络基础

目录一、前言 1.计算机网络背景 2.认识协议二、网络协议初识 1.OSI七层模型 2.TCP/IP五层(或四层)模型 3.网络传输基本流程 4.数据包封装和分用 5.网络中的地址管理 1.IP地址 2.MAC地址一、前言 1.计算机网络背景网络之前，我们所有在电脑上的操作都是…

阅读更多...

最新文章