背景
某高校师资网站全面采用网络图片展示,网站是禁止右键使用下载,也不允许复制信息。我们试图采集这些信息,使用目前智能体任务+VibeCoding+Deepsee-OCR解析
来突破这个问题。
流程拆解

第一步 html解析
智能体我们方便选择space.coze.cn, 可以自行部署其他开源智能体框架

解析为一定格式的文本

XPath查询

图片URL结果集

Vide coding生成处理markdown的代码

Trae重构代码

最后图片下载输出文件夹

在线DeepSeek-OCR


VibeCoding过程


Deepseek-OCR调用参数参考
max_tokens = 4096,
temperature = 0.0,
top_p = 0.7,
top_k = 50
提示词
输出markdown
<|grounding|>Convert the document to markdown.
其他场景提示词参考如下
General OCR: Free OCR.
Table: <|grounding|>Extract all tables and convert to markdown format.
代码Debugging
调用接口文档参考

运行日志
调用DeepSeek-OCR的API,输出

调用生成解析后文本markdown文件
原图


总结
我们使用了一套以 Agent 为核心驱动的自动化信息处理系统,旨在实现网页内容的深度解析、有效链接抽取,以及图片内容的结构化转换(通过调用 DeepSeek-OCR 将图片识别结果转为 Markdown 格式)。整个流程由 Agent 统筹调度,各模块协同运作,形成从网页信息采集到结构化输出的完整闭环。
今天先到这儿,希望对AI,云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管理,信息安全,团队建设 有参考作用 , 您可能感兴趣的文章:
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变
如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。
