知识图谱(七)之数据处理

一数据标注回顾

1.1整体思路

  1. 现在我们有txt和txtroiginal.

txt里面是标注数据,txtoriginal里面是原始数据,数据如下:

txt:

txtoriginal:

  1. 根据标注数据和标签类型构建字典

这是标签类型:

  1. 遍历原始数据,通过索引和标签的字典,给想引得位置打上标签.通过索引查字典,如果能查到则将对应的value作为标签,否则打上o的标签.

二代码实现

2.1使用路径拼接读取数据

import os import json cur = os.getcwd() print(cur) os.chdir('..') cur = os.getcwd() print(f'修改以后的目录{cur}') path=os.path.join(cur,'data/labels.json') print(f'拼接后的路径{path}') labels=json.load(open(path,'r',encoding='utf-8')) print(f'labels->{labels}')

2.1.1补充os.getcwd()方法:这个方法的缺陷是其他包在导入使用这个方法的包后,获取到的是其他包的路径,会导致读取数据出现错误

报错的原因是路径输出的是当前文件夹的路径,因为输出的不是导入的包的路径,所以找不到相关文件.

2.2.2使用os.path.abspath()的方法可以避免这个问题

import os import json # 如何设计,让这个代码在调用时,相对路径不随着调用位置变化而变化 file_path = os.path.abspath(__file__) print(f'file_path-->{file_path}') base_dir = os.path.dirname(file_path) print(f'base_dir-->{base_dir}') # 路径拼接 path = os.path.join(base_dir, '../data/labels.json') print(f'拼接之后的路径2-->{path}') # 读取json文件 labels = json.load(open(path, 'r', encoding='utf-8')) print(f'labels-->{labels}')

拼接好路径以后,使用os.walk()读取路径下的文件

这个方法返回的是可迭代对象,用循环的方法遍历,分别返回的是:文件夹路径,文件夹列表,文件列表

results = os.walk(os.path.join(base_dir, '../data_origin')) print(f'results-->{results}') for dir_path, dirs, files in results: # 路径、文件夹(列表)、文件(列表) print('*'*50) print(f'dir_path-->{dir_path}') print(f'dirs-->{dirs}') print(f'files-->{files}')

2.2数据处理

先获取实体的英文名,然后用B-英文名或者I-英文名拼接,,得到每实体里面每个字的标签.

遍历原始文本,通过标签数据的索引给原始文本里面的字打标签,如果没有这个字的标签,就打O

2.2.1拼接的方法

拼接结果:

2.2.2遍历原始文本,给实体打标签

找到索引提取value,找不到索引打O

2.2.3最终结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1180116.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Z-Image-Turbo实战分享:构建多语言AI绘画平台的经验

Z-Image-Turbo实战分享:构建多语言AI绘画平台的经验 1. 背景与选型动因 随着AIGC技术的快速发展,文生图模型在创意设计、内容生成和跨语言表达等场景中展现出巨大潜力。然而,许多开源模型在生成速度、显存占用和多语言支持方面存在明显短板…

5分钟部署Glyph视觉推理,让大模型‘看懂’百万token文本

5分钟部署Glyph视觉推理,让大模型‘看懂’百万token文本 1. 上下文瓶颈:大模型的隐形天花板 在大语言模型(LLM)快速演进的今天,上下文长度(Context Length)已成为衡量模型能力的关键指标之一。…

一键启动Qwen3-Embedding-4B:SGlang镜像开箱即用指南

一键启动Qwen3-Embedding-4B:SGlang镜像开箱即用指南 1. 引言:为什么选择SGlang部署Qwen3-Embedding-4B? 随着大模型在信息检索、语义理解与跨语言任务中的广泛应用,高效、低延迟的文本嵌入服务成为构建智能应用的核心基础设施。…

FST ITN-ZH林业行业案例:林木数据标准化处理

FST ITN-ZH林业行业案例:林木数据标准化处理 1. 引言 在林业信息化管理过程中,大量野外调查、资源统计和监测报告中包含非结构化的中文文本数据。这些数据常以自然语言形式表达数量、时间、单位等信息,例如“树高约二十五米”、“胸径一百二…

PyTorch-2.x-Universal-Dev-v1.0部署教程:A800/H800显卡CUDA 12.1兼容性测试

PyTorch-2.x-Universal-Dev-v1.0部署教程:A800/H800显卡CUDA 12.1兼容性测试 1. 引言 随着大模型训练和深度学习研究的不断深入,对高性能GPU计算平台的需求日益增长。NVIDIA A800 和 H800 显卡作为面向数据中心与高性能计算场景的重要硬件,…

未来已来!Open-AutoGLM开启手机自动化新时代

未来已来!Open-AutoGLM开启手机自动化新时代 1. 背景与技术演进 近年来,AI Agent 的发展正从“对话助手”向“行动执行者”跃迁。传统大模型擅长理解与生成语言,但无法直接与物理或数字环境交互。而 Open-AutoGLM 的出现,标志着…

FSMN-VAD服务启动失败?检查这五个关键点

FSMN-VAD服务启动失败?检查这五个关键点 在部署基于 ModelScope 的 FSMN-VAD 离线语音端点检测服务时,尽管流程看似简单,但实际操作中仍可能遇到服务无法正常启动的问题。本文将结合常见错误场景,系统性地梳理 五个最关键的排查方…

跨国公司员工管理:AI工坊统一生成全球分支机构证件照

跨国公司员工管理:AI工坊统一生成全球分支机构证件照 1. 引言 1.1 业务场景描述 在全球化运营的跨国企业中,人力资源管理面临诸多挑战,其中之一便是员工证件照的标准化采集。无论是入职档案、门禁系统、工牌制作还是内部通讯录更新&#x…

Altium Designer中Gerber导出核心要点一文说清

Altium Designer中Gerber导出核心要点一文说清:从设计到制造的无缝衔接 为什么一次正确的Gerber输出能省下整整一周? 在硬件开发的冲刺阶段,最怕什么?不是原理图改了三次,也不是Layout布线返工——而是 打样回来的板…

开源可商用小模型推荐:Qwen2.5-0.5B+弹性算力部署指南

开源可商用小模型推荐:Qwen2.5-0.5B弹性算力部署指南 1. 引言:边缘智能时代的小模型需求 随着AI应用场景向终端设备延伸,对轻量化、低延迟、高能效的推理模型需求日益增长。传统大模型虽性能强大,但受限于显存占用和算力要求&am…

HY-MT1.5-1.8B模型性能基准:不同硬件平台的对比测试

HY-MT1.5-1.8B模型性能基准:不同硬件平台的对比测试 1. 引言 1.1 背景与技术趋势 随着多语言交流需求的快速增长,神经机器翻译(NMT)正从传统的云端集中式部署向终端侧轻量化运行演进。尤其是在移动设备、边缘计算和低带宽场景中…

基于SAM3大模型镜像的开放词汇分割实践|附Gradio交互部署

基于SAM3大模型镜像的开放词汇分割实践|附Gradio交互部署 在计算机视觉领域,图像语义理解正从封闭类别识别迈向开放词汇(Open-Vocabulary)感知的新阶段。传统分割模型受限于预定义类别,难以应对“穿红帽子的小孩”或“…

2025年多语言检索趋势:Qwen3-Embedding-4B落地实战指南

2025年多语言检索趋势:Qwen3-Embedding-4B落地实战指南 1. 引言:通义千问3-Embedding-4B——面向未来的文本向量化引擎 随着全球信息交互的加速,多语言语义理解与长文本处理能力已成为构建下一代知识库系统的核心需求。在这一背景下&#x…

FFmpeg 下载 HLS 流媒体笔记

基本命令 ffmpeg -i "m3u8地址" -c copy output.mp4参数说明参数 说明-i "URL" 输入源(m3u8 播放列表地址)-c copy 直接复制流,不重新编码(速度快,无损质量)output.mp4 输出文件名工作原理m…

Llama3-8B vs 通义千问2.5-7B-Instruct:英文任务性能全面对比

Llama3-8B vs 通义千问2.5-7B-Instruct:英文任务性能全面对比 1. 模型背景与选型动机 在当前开源大模型快速迭代的背景下,7B–8B 参数量级已成为兼顾推理效率与语言能力的“黄金区间”。Meta 发布的 Llama3-8B 和阿里云推出的 通义千问 Qwen2.5-7B-Inst…

HY-MT1.5-1.8B量化实战:云端GPU快速测试不同精度效果

HY-MT1.5-1.8B量化实战:云端GPU快速测试不同精度效果 你是不是也遇到过这样的问题:手头有个嵌入式设备要部署翻译模型,但本地调试太慢、资源有限,调参像“盲人摸象”?尤其是面对像 HY-MT1.5-1.8B 这种主打“端侧部署”…

基于滑膜控制器的分数阶非线性悬架模型simulink建模与仿真

1.课题概述 基于滑膜控制器的分数阶非线性悬架模型simulink建模与仿真。通过simulink搭建含分数阶的悬架非线性仿真模型。仿真分析轮胎动载荷的幅频特性,电机垂直加速度的幅频特性,悬架动扰度的幅频特性,车身垂直加…

开源AI模型部署新趋势:DeepSeek-R1蒸馏技术实战解析

开源AI模型部署新趋势:DeepSeek-R1蒸馏技术实战解析 1. 引言 1.1 技术背景与行业痛点 随着大语言模型(LLM)在自然语言理解、代码生成和数学推理等任务中的广泛应用,如何在有限算力条件下实现高性能推理成为工程落地的关键挑战。…

TensorFlow-v2.15一文详解:tf.Variable与@tf.function使用技巧

TensorFlow-v2.15一文详解:tf.Variable与tf.function使用技巧 1. 引言:TensorFlow 2.15 的核心特性与开发价值 TensorFlow 是由 Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台&#…

医疗文献分析:Extract-Kit-1.0应用实例

医疗文献分析:Extract-Kit-1.0应用实例 1. 技术背景与应用场景 随着医学研究的快速发展,大量科研成果以PDF格式发表在各类期刊中。这些文档通常包含复杂的版式结构,如表格、公式、图表和多栏排版,传统文本提取方法难以准确还原其…