html5 学习网站外贸手机商城网站建设 深圳
html5 学习网站,外贸手机商城网站建设 深圳,wordpress多语模板,jsp网站开发技术1. 起因
由于某些原因需要在大量的文献中查找相关内容#xff0c;手动实在是太慢了#xff0c;所以选择了GROBID库进行文献批量解析
2. GROBID介绍
GROBID是一个机器学习库#xff0c;用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档#xff0…1. 起因
由于某些原因需要在大量的文献中查找相关内容手动实在是太慢了所以选择了GROBID库进行文献批量解析
2. GROBID介绍
GROBID是一个机器学习库用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档特别关注技术和科学出版物。能够提取文献中的标题、文本、图表及参考文献等信息GROBID目前仅支持Linux及macOSwindows系统需要通过docker调用
3. Docker安装
已经安装docker请跳过这一步骤
3.1 Docker介绍[来自GPT]:
Docker 是一个开源的应用容器引擎它允许开发者将应用程序与其环境一起打包称作容器化从而在任何支持Docker的环境中部署和运行。这项技术提供了一种简化的方法可以将复杂的应用程序快速、一致地部署在不同的环境中——不管是在本地开发机器上还是在外部的测试环境或云平台上。
3.1.1 Docker的主要组件
Docker 引擎负责创建、运行和管理容器的核心服务。Docker 容器运行应用程序的轻量级、独立的环境。容器在从图片Image实例化时创建其中包含了运行应用所需的代码、运行库、环境变量和配置文件。Docker 镜像是一个只读的模板用于创建容器。镜像包含了运行特定应用所需的所有内容——代码、运行时、库等。Docker Hub是一个Docker容器镜像的公共仓库类似于GitHub可以用来存放、共享和管理镜像。Docker 仓库存放Docker镜像的地方可以是公共的也可以是私有的。Dockerfile是一个文本文件包含了一系列的指令用于自动构建一个新的Docker镜像。Docker Compose是一个工具允许您使用YAML文件定义多个容器的应用服务并且通过一个命令来启动和停止这些服务。
3.1.2 Docker的工作原理
Docker 使用容器来隔离和运行应用程序。容器是一种轻量级的虚拟化它运行在同一个操作系统内核上但保持应用程序的隔离。容器比传统的虚拟机VM更加高效因为它们共享宿主机的内核而不需要为每个虚拟机运行一个完整的操作系统。
3.1.3 Docker的优势
快速一致地交付您的应用程序Docker可以快速构建、测试并部署代码因为容器化的应用可以在不同的环境中保持一致。响应性强的部署和扩展容器可以几乎即时启动这使得扩展和自动化部署变得简单快捷。在同一个硬件上运行更多的工作负载由于容器共享宿主机的系统核心它们使用更少的资源这意味着你可以在相同的硬件上运行更多的服务。
3.1.4 Docker的应用场景
提供一致的开发环境无论开发团队成员使用何种操作系统Docker容器保证应用能够在一致的环境中运行。微服务架构每个微服务可以被容器化独立部署和扩展。快速部署容器显著减少了从开发生命周期到生产部署的时间。应用程序隔离保证在每个容器中运行的应用程序是相互隔离的。资源优化容器的轻量级特性意味着更有效的资源使用。
总的来说Docker是当今极为重要的DevOps工具之一它极大地促进了应用程序的快速开发、测试和部署流程。
3.2 Windows版本
笔者的系统为win11家庭版接下来将以此为基础进行介绍
3.3打开Hyper-V
将以下代码复制到txt文本中,文件名为Hyper.txt将后缀改为Hyper.bat点击bat文件重启电脑后就设置好了
pushd %~dp0
dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum hyper-v.txt
for /f %%i in (findstr /i . hyper-v.txt 2^nul) do dism /online /norestart /add-package:%SystemRoot%\servicing\Packages\%%i
del hyper-v.txt
Dism /online /enable-feature /featurename:Microsoft-Hyper-V-All /LimitAccess /ALL打开任务管理器–性能确保虚拟化已开启 打开控制面板-程序和功能-启用或关闭Windows功能确保下面两个功能也是正常打开的
3.4 安装WSL2
WSL2相关介绍来自GPTWSL2即Windows Subsystem for Linux version 2是微软为Windows 10和Windows 11提供的一个功能允许用户直接在Windows上运行Linux环境包括大多数命令行工具、实用程序和应用程序。它是WSL的第二版本提供了更完整的Linux兼容性和更高的性能。 管理员权限打开cmdWSL version只要为2就是正确的
3.5 Docker下载与安装 https://www.docker.com/products/docker-desktop/ 访问上述链接下载Windows版本 下载完成后双击打开等待程序安装完成并重启电脑 打开后只要不报错就ok 报错的话自行查找原因 我这边遇到过两类错误docker desktop wsl distro terminated abruptly以及unexpected wsl error都是通过卸载关闭功能重装解决的可以参考https://zhuanlan.zhihu.com/p/669999834
3.6 GROBID安装 GROBID库目前存在两个版本 full lightweight我安装的第二个 Full: 可运行深度学习和 CRF 模型的完整镜像见最新版本号10GB该镜像包括所有必要的 python 和 TensorFlow 库、GPU 支持和所有 DL 模型资源。它可以提供更准确的结果特别是在参考文献提取/解析和引文上下文识别方面。根据 GPU推荐的可用性与否某些深度学习模型可能会带来更慢的运行时间和更高的内存使用率。该图像比纯 CRF 图像大得多。完整图像包含 Python 和 TensorFlow/Pytorch 库超过 3GB以及预加载的嵌入约 5GB但我们建议使用它。 Lightweight: 仅包含 CRF 模型的轻量级图像300MB该图像在运行时间和内存使用方面具有最佳性能并限制了图像的大小但它没有使用一些在准确性方面表现最佳的模型。图像信息可在此处找到。如果可能请使用上述完整图像。
docker run --rm --init --ulimit core0 -p 8070:8070 lfoppiano/grobid:0.8.0输入上述代码到下面这样出现model path就完成了此时可以访问进入网站Grobid Web Application 解析成功
4 调用API
import os
import re
import requests
import glob
import time
from bs4 import BeautifulSoup
from tqdm import *filesglob.glob(r...\*.pdf)url http://localhost:8070/api/processFulltextDocumentfor f in tqdm(files):try:params dict(inputopen(f, rb))response requests.post(url, filesparams, timeout300)reslutresponse.content.decode(utf-8)sBeautifulSoup(reslut,lxml)saver...\XML\{}.xml.format(f.split(\\)[-1][:-4])with open(save, w, encodingutf-8) as file:# 写入XML声明头file.write(?xml version1.0 encodingUTF-8?\n)# 写入剩余的XML数据file.write(str(s))time.sleep(1)except Exception as e:print(f)pass
参考
https://blog.csdn.net/yt266666/article/details/127453067?spm1001.2014.3001.5502https://grobid.readthedocs.io/en/latest/Grobid-docker/https://zhuanlan.zhihu.com/p/669999834
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/92060.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!