使用dify搭建爬虫Agent工作流

最近用Dify做了一个工作流应用,可以实现自动化采集亚马逊商品信息,包括名称、价格、折扣、评分、评论等关键字段,然后使用DeepSeek对商品竞争力、价格、用户口碑进行分析,为跨境卖家提供一份完整的分析报告。

整个工作流搭建用到了几个核心工具,Dify不必多说,是专门用来设计工作流的开源框架,里面集成各种工具、接口、插件、LLM,非常适合做产品原型设计。

其中用于数据采集的是亮数据网页抓取器,Dify上有相应的插件接口,它可以对亚马逊等跨境平台进行关键字段采集,并能自动处理平台的反爬限制,比如设置ip代理池、验证码解锁等技术,所以是比较省心的一个爬虫接口。

https://get.brightdata.com/webscra

这里大概介绍下亮数据,因为网页抓取器是这个工作流的核心节点。亮数据是专门做数据采集的平台,有抓取器、解锁器、远程浏览器、MCP等工具,可以简化网页请求的复杂度,因为它把反爬处理技术嵌入在接口里,用户只需要提交需求和url就能直接采集到数据。

还会用到DeepSeek R1模型,用来对亮数据网页抓取器返回的JSON数据进行解析,提取关键字段,并形成商品分析报告。

接下来讲下这个工作是如何具体实现的。

首先你需要配置Dify应用,可以根据Github教程使用Docker进行部署,对电脑硬件要求比较简单,大于2核CPU、4G运行内存就可以跑。

如果你只是想测试,建议在Dify云版本上部署工作流,但云上的功能配置会有点缩水。

部署好Dify后,下一步需要配置亮数据网页抓取器,你需要先到亮数据平台申请key,它会赠送额度,测试够用了。

小声透露下:下面链接注册每月有5000条免费试用额度,我特别争取到企业用户通过我的链接申请,加客户经理可再升级试用额度!

https://get.brightdata.com/webscra

然后在Dify插件里搜索找到亮数据网页抓取器,下载并配置好key后,这个插件就可以用了。

接着再配置DeepSeek API,到DeepSeek平台去申请key,在Dify上配置好就可以用,这里不多赘诉。

做好配置准备后,下面进入工作流搭建。

首先创建“输入”节点,设置输入变量字段:product_url,提示用户输入亚马逊商品链接。

然后开始创建“亮数据网页抓取器”节点,选择“Structured Data Feeds”,并且设置输入变量描述、目标url,选择上一节点的输入变量“product_url”,由于亮数据key在之前已经配置好,这里可以直接用。

下一步创建“LLM”节点,选择配置好的DeepSeek R1模型,设置输入变量和系统prompt,这个很重要,决定LLM输出什么样的内容,可以按照我的模版去设置。

最后创建“输出”节点,展示LLM输出的内容,这里你可以选择直接输出文本,也可以设置导出PDF、Word、Markdown都可以。

整个工作创建好后,呈现以下的结构形式。

随便找个亚马逊商品链接测试下,比如以下的Razer耳机。

执行工作流任务,它就会先采集数据,然后LLM分析数据,最后输出结论。

亮数据抓取器采集到的商品Json数据如下:

DeepSeek提炼Json数据,形成的商品分析报告如下。

核心字段值:

商品特性:

用户评价:

指导建议:

整个流程,DeepSeek提取了亮数据网页抓取器采集到的数据,并进行分析汇总,看起来蛮专业的。

除此之外,亮数据网页抓取器还有搜索引擎模式,可以按照用户需求来查询谷歌搜索,返回数据,比如我让它查询Open AI创始人Sam Altman最近一年在推特上的帖子,并让LLM提取关键信息进行总结。

通过上面Dify工作流的例子,可以看到现在数据采集开发模式发生了很大变化,不再需要你精通编程,也可以通过Dify+亮数据网页抓取器做到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1125529.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【课程设计/毕业设计】基于深度学习机器学习的土豆疾病识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

内驱力:点燃自我成长的发动机

你是否曾有过这样的经历:被外在压力推着走时倍感疲惫,而发自内心想要做一件事时却充满能量?这背后起作用的就是内驱力——那个无需外力推动、却能让每个人持续前进的内心发动机。 内驱力是什么? 内驱力是一种源自内心的动力,它让我们主动追求成长、学习和进步。与外部的…

Katalon平台的集成生态

在现代软件开发中,任何工具都难以孤立地发挥作用。一个工具的价值,往往与其融入现有技术生态的能力息息相关。Katalon平台深谙此道,构建了一个极其广泛的集成网络,使其不仅能作为强大的自动化测试工具独立运作,更能成为…

Python代码实现示例解析

代码实现 以下是一个实现[输入代码要求]的[输入编程语言]代码示例: def example_function(input_data):"""示例函数:实现[输入代码要求]参数:input_data: 输入数据返回:处理后的结果"""# 初始化结…

深度学习毕设项目:基于python深度学习的苹果和西红柿识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

新手进阶Python:给办公助手加定时功能,自动处理任务不用盯

大家好!我是CSDN的Python新手博主~ 上一篇我们整合了Excel、Word、PDF、OCR的全能办公助手,很多小伙伴反馈“如果能定时自动运行就好了,比如每天早上8点自动处理Excel数据、生成报表并发送给领导,不用我手动点”。今天…

FastAPI 极简教程1

FastAPI 极简教程 文章目录 FastAPI 极简教程 一 环境准备与安装 二 最小可用示例 三 核心概念速览 **四 项目结构与路由拆分** 五 运行与部署要点 🚀 FastAPI 极简教程 (10-50行代码) 0️⃣ 1分钟搞定 步骤 一 环境准备与安装 使用 Python 3.8+,建议搭配虚拟环境(venv)隔…

计及电转气协同的含碳捕集与垃圾焚烧虚拟电厂优化调度Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

数据科学为大数据领域的业务增长赋能

数据科学为大数据领域的业务增长赋能 关键词:数据科学、大数据、业务增长、机器学习、数据分析、数据挖掘、商业智能 摘要:本文探讨了数据科学如何在大数据时代为企业业务增长提供强大动力。我们将从基础概念入手,分析数据科学的核心技术栈,展示实际应用案例,并展望未来发…

深度学习毕设选题推荐:python基于CNN卷积神经网络对猫狗数据集训练识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

精准编程代码生成指南

请提供具体的编程语言和代码要求,以便生成符合需求的代码片段。例如:编程语言:Python代码要求:实现一个函数,计算两个数的和示例格式如下:编程语言Python代码要求实现一个函数,计算两个数的和代…

基于阶梯碳交易的含P2G-CCS耦合和燃气掺氢的虚拟电厂优化调度Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

什么是LLDP

文章目录为什么需要LLDPLLDP应用场景有哪些LLDP报文格式LLDP是如何工作的LLDP(Link Layer Discovery Protocol)是IEEE 802.1ab中定义的链路层发现协议。LLDP是一种标准的二层发现方式,可以将本端设备的管理地址、设备标识、接口标识等信息组织…

深度学习毕设选题推荐:基于python-cnn深度学习的猫的种类识别基于人工智能-cnn深度学习的猫的种类识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

华为OD技术面真题 - 计算机网络 - 1

文章目录计算机网络体系计算机网络为什么要分层应用进程的数据在各层之间传递过程端口、IP地址和MAC地址分别的作用说说不同层经典网络协议计算机网络体系 计算机网络体系结构标准主要分为三种: OSI体系结构:概念清楚,理论也比较完整,但是它既复杂又不…

基于氢储能的热电联供型微电网优化调度方法Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

编程实战:从原理到代码的完整指南

请提供具体的编程语言和代码要求,以便生成符合需求的代码示例。例如:编程语言:Python代码要求:实现一个函数,计算两个数的和并返回结果或编程语言:JavaScript代码要求:创建一个异步函数&#xf…

深度学习毕设选题推荐:基于 python深度学习的罗马数据集训练识别人工智能

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

深入解析HMAC:消息认证码的核心原理

好的!我们来对 HMAC(Hash-based Message Authentication Code,基于哈希的消息认证码) 进行一次全面、深入且结构清晰的详解。 HMAC 是现代密码学和网络安全中确保数据完整性与身份认证的核心工具。它不是用来加密数据的&#xff…

iir滤波器的理论分析与matlab仿真,对比butter/cheby1/cheby2/ellip/yulewalk

目录 1.butter函数,巴特沃斯滤波器 2. cheby1函数,切比雪夫I型滤波器 3. cheby2函数,切比雪夫II型滤波器 4.ellip函数,椭圆滤波器 5.yulewalk函数,Yule-Walker滤波器 6.各函数对比分析 IIR滤波器即无限长单位冲激响应滤波器…