NLP中两种不同的中文分词形式,jieba和spaCy

1. jieba分词

import jiebatext='在中国古代文化中,书法和绘画是艺术的重要表现形式。古人常说,‘文字如其人’,通过墨迹可以窥见作者的性情和气质。而画家则以笔墨搏击,表现出山川河流、花鸟虫鱼的灵动。这些艺术形式不仅仅是技艺的表现,更是一种精神的抒发和文化的传承。'words = jieba.cut(text,cut_all=False)
print(list(words))

返回结果: 

['在', '中国', '古代', '文化', '中', ',', '书法', '和', '绘画', '是', '艺术', '的', '重要', '表现形式', '。', '古人', '常说', ',', '‘', '文字', '如其人', '’', ',', '通过', '墨迹', '可以', '窥见', '作者', '的', '性情', '和', '气质', '。', '而', '画家', '则', '以', '笔墨', '搏击', ',', '表现', '出', '山川', '河流', '、', '花鸟虫鱼', '的', '灵动', '。', '这些', '艺术', '形式', '不仅仅', '是', '技艺', '的', '表现', ',', '更是', '一种', '精神', '的', '抒发', '和', '文化', '的', '传承', '。']

 2. spaCy的中文模型进行分词

import spacy_stanza
import stanza# 下载并加载 Stanza 中文模型
stanza.download('zh')
nlp = spacy_stanza.load_pipeline('zh')text='在中国古代文化中,书法和绘画是艺术的重要表现形式。古人常说,‘文字如其人’,通过墨迹可以窥见作者的性情和气质。而画家则以笔墨搏击,表现出山川河流、花鸟虫鱼的灵动。这些艺术形式不仅仅是技艺的表现,更是一种精神的抒发和文化的传承。'doc = nlp(text)
words = [token.text for token in doc]
print(words)

返回结果:

['在', '中国', '古代', '文化', '中', ',', '书法', '和', '绘画', '是', '艺术', '的', '重要', '表现', '形式', '。', '古', '人', '常', '说', ',', '‘', '文字', '如', '其', '人', '’', ',', '通过', '墨迹', '可以', '窥见', '作者', '的', '性情', '和', '气质', '。', '而', '画家', '则', '以', '笔', '墨', '搏击', ',', '表现', '出', '山川', '河流', '、', '花鸟', '虫', '鱼', '的', '灵动', '。', '这些', '艺术', '形式', '不', '仅仅', '是', '技艺', '的', '表现', ',', '更是', '一', '种', '精神', '的', '抒发', '和', '文化', '的', '传承', '。']

 

3. 分析和比较

  • 第一段分词结果

    • 每个词都单独分开,保留了原文中的每个词语。
    • 分词粒度较细,适合某些需要对每个词语进行精确处理的场合。
  • 第二段分词结果

    • 将一些词语合并成了一个词组,如 "表现形式"、"古人"、"笔墨"、"花鸟虫鱼"。
    • 分词结果更加符合语言习惯和表达习惯,一些固定搭配和成语被识别并合并成一个词组。
    • 可能更适合一些语义理解或者对上下文整体理解较为重要的应用场景。

4. 选择合适的分词结果

选择哪种分词结果取决于你的具体需求:

  • 如果需要对每个词语进行单独处理,或者进行详细的语言分析,第一段分词结果更适合。
  • 如果需要更符合日常语言使用习惯的分词结果,或者进行更高层次的语义理解,第二段分词结果可能更适合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/860006.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LangChain入门学习笔记(六)—— Model I/O之Output Parsers

当大模型产生输出返回后,它的内容更像是一段平铺的文字没有结构。在传给下游节点处理时可能并不能符合输入要求,LangChain提供了一套机制使得模型返回的内容可以按照开发者定义的那样结构化。 在官网文档中可以看到LangChain提供了丰富的输出解析器&…

二叉树-左叶子之和(easy)

目录 一、问题描述 二、解题思路 三、代码实现 四、刷题链接 一、问题描述 二、解题思路 此题属于树遍历的简单题,用递归深度遍历的方式,当遇到左叶子结点(在递归函数中加上一个判断当前结点是左结点还是右结点的标记位),此时加上当前结点…

数字图像处理实验报告小论文(Matlab语言)

1.课题分析 在当今信息化社会,图像处理技术已成为众多领域不可或缺的一部分,从医学影像分析到安防监控,再到日常生活中的图片美化,图像处理技术都发挥着至关重要的作用。本次课题主要聚焦于图像灰度处理、图像小波变换和图像分割这…

Python基础系列教程:从零开始学习Python

Python有很多功能强大的机器学习和大数据分析包,适合对大数据和人工智能感兴趣的同学学习。要想了解一门语言,首先需要了解它的语法。本文将介绍Python的一些基础语法,包括数据类型、变量类型、条件控制、循环结构等内容。废话少说&#xff0…

C++核心编程---面向对象的三大特性---继承

C核心编程—面向对象的三大特性—继承 文章目录 C核心编程---面向对象的三大特性---继承1. 基本继承语法2. 继承方式3. 多重继承4. 构造和析构顺序4.1 构造函数的调用顺序:4.2 析构函数的调用顺序: 5. 虚继承6. 访问基类成员7. 同名成员和同名静态成员的…

第二十四节:带你梳理Vue2 : Vue具名插槽/作用域插槽/v-slot指令

1. 具名插槽 1.1 没有使用具名插槽的问题 有的时候我们在使用子组件时,在子组件模板上不同的位置插入不同的内容, 只有一个插槽显然没法满足我们的需求,看示例: 需求如下: 子组件是一篇文章的结构父组件在调用子组件是给文章插入标题,正文,时间信息 示例代码如下: <di…

【强化学习的数学原理】课程笔记--1(基本概念,贝尔曼公式)

目录 基本概念State, Action, State transitionPolicy, Reward, Trajectory, Discount ReturnEpisodeMarkov decision process 贝尔曼公式推导确定形式的贝尔曼公式推导一般形式的贝尔曼公式State ValueAction Value 一些例子贝尔曼公式的 Matric-vector form贝尔曼公式的解析解…

Elasticsearch 索引与文档操作实践指南

上节我们部署了elasticsearch8.4.1和kibana8.4.1以及ik分词器&#xff0c;本节我们来学习下elasticsearch的相关索引&#xff0c;文档操作。 首先我们kinana的主界面找到开发者工具在里面我们来编写相关操作。 标题查看集群情况 GET /_cluster/health详细解释&#xff1a; …

心理学|发展心理学——发展心理学单科作业(中科院)

一、单选题(第1-100小题,每题0.5分,共计50分。) 1、认为心理发展是主体与客体相互作用的结果,持该观点的学者是( ) 分值0.5分 A、皮亚杰 B、普莱尔 C、吴伟士 D、施太伦 A 2、艾里克森认为童年期(7岁~12岁)的主要发展任务是( ) 分值0.5分 A、获得勤…

(四十四)Vue Router的命名路由和路由组件传参

文章目录 命名路由组件传参query参数方式参数传递参数接收 params参数方式参数传递参数接收 props配置方式布尔值形式对象模式函数模式 上一篇&#xff1a;&#xff08;四十三&#xff09;Vue Router之嵌套路由 命名路由 命名路由是为路由配置项提供一个名称&#xff0c;以便…

云计算【第一阶段(18)】磁盘管理与文件系统 分区格式挂载(一)

目录 一、磁盘基础 二、磁盘结构 2.1、机械硬盘 2.2、固态硬盘 2.3、扩展移动硬盘 2.4、机械磁盘的一些计算&#xff08;了解&#xff09; 2.5、磁盘接口类型 二、Linux 中使用的文件系统类型 2.1、磁盘分区的表示 2.1.1、主引导记录(MBR) 2.1.2、Linux中将硬盘、分…

【十二】图解 Spring 核心数据结构:BeanDefinition

图解 Spring 核心数据结构&#xff1a;BeanDefinition 简介 使用spring框架的技术人员都知道spring两个大核心技术IOC和AOP&#xff0c;随着投入更多的时间去学习spring生态&#xff0c;越发觉得spring的发展不可思议&#xff0c;一直都是引领着Java EE的技术变革&#xff0c;这…

麒麟信安系统关闭core文件操作

在使用麒麟信安系统时&#xff0c;如果应用程序运行过程中崩溃了&#xff0c;此时并不会导致内核崩溃&#xff0c;只会在tmp目录下产生崩溃数据&#xff0c;如下图 不过tmp目录下的分区容量有限&#xff0c;当崩溃的应用core文件过大时将会占用tmp空间&#xff0c;导致tmpfs分区…

上海计算机学会2022年6月月赛C++丙组T4连续的零

题目描述 给定一个 01 序列 b1​b2​…bn​&#xff0c;01 的意思就是这个数列里只有 0 与 1。 请问最少需要将多少个 1 改成 0&#xff0c;序列里会出现至少 k 个连续的 0。 输入格式 第一行&#xff1a;两个整数 n 与 k。第二行&#xff1a;n 个字符表示 b1​b2​…bn​&…

Msql----表的约束

提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、表的约束 表的约束&#xff1a;表中一定要有约束&#xff0c;通过约束让插入表中的数据是符合预期的。它的本质是通过技术手段&#xff0c;让程序员插入正确的数据&#xff0c;约束的最终目标是保证…

IP地址的主要功能

IP地址&#xff0c;作为互联网协议&#xff08;Internet Protocol&#xff09;的核心组成部分&#xff0c;是网络设备在互联网中的唯一标识。它不仅仅是一个简单的数字串&#xff0c;而是承载着网络通信的重要功能。以下是IP地址的主要功能及其在网络中的重要性的详细分析。 唯…

NAPI篇【4】——NAPI应用点亮一个LED

OpenHarmony的NAPI功能为开发者提供了JS与C/C不同语言模块之间的相互访问&#xff0c;交互的能力&#xff0c;使得开发者使用C或者C语言实现应用的关键功能。如操作开发板中某个GPIO节点的状态&#xff08;OpenHarmony并没有提供直接操作GPIO口状态的API&#xff09;&#xff0…

深入解读Netty中的NIO:原理、架构与实现详解

深入解读Netty中的NIO&#xff1a;原理、架构与实现详解 Netty是一个基于Java的异步事件驱动网络应用框架&#xff0c;广泛用于构建高性能、高可扩展性的网络服务器和客户端&#xff08;学习netty请参考&#xff1a;深入浅出Netty&#xff1a;高性能网络应用框架的原理与实践&…

vue2加入keep-alive后的生命周期情况

目录 1.加入keep-alive会执行哪些生命周期&#xff1f;1.activated2.deactivated 2.keep-alive是什么 &#xff1a; 缓存当前组件3.如果当前组件加入了keep-alive第一次进入这个组件会执行5个生命周期4.第二次或者第N次进去组件会执行哪些生命周期&#xff1f;1.如果当前组件加…

AIGC:引领内容创作新时代的智能引擎

随着人工智能技术的飞速发展&#xff0c;AIGC&#xff08;Artificial Intelligence Generated Content&#xff0c;人工智能生成内容&#xff09;逐渐崭露头角&#xff0c;成为推动内容创作领域变革的重要力量。作为一名程序员&#xff0c;我深感AIGC的巨大潜力和广阔前景&…