NLTK库用法示例:Python自然语言处理入门到实践 - 实践

news/2025/11/12 19:30:04/文章来源:https://www.cnblogs.com/gccbuaa/p/19215117

自然语言处理(NLP)是人工智能的重要分支,而NLTK(Natural Language Toolkit)作为Python最经典的NLP库,为开发者提供了丰富的语料库、词汇资源和文本处理工具。无论是文本分析、情感识别还是语言模型训练,NLTK都能提供基础且实用的支持。本文将通过具体示例,从环境搭建到实战应用,带你掌握NLTK的核心用法,轻松入门自然语言处理。

一、NLTK简介与环境准备

1. 为什么选择NLTK?

  • 入门友好:API设计简洁,文档丰富,是NLP初学者的首选工具

  • 资源丰富:内置超过100个语料库和词汇资源(如WordNet、Penn Treebank)

  • 功能全面:支持分词、词性标注、命名实体识别、句法分析等基础任务

  • 生态兼容:可与NumPy、Pandas、Scikit-learn等库无缝配合,构建完整NLP pipeline

2. 安装与数据集下载

NLTK的安装分为库本身和配套数据集两部分:

# 安装NLTK库
pip install nltk

安装完成后,需要下载必要的语料库和模型(首次使用时):

import nltk
# 启动交互式下载器(选择需要的数据集,推荐至少下载punkt、averaged_perceptron_tagger、wordnet)
nltk.download()
# 也可直接下载指定数据集(命令行方式)
nltk.download('punkt')        # 用于分词
nltk.download('averaged_perceptron_tagger')  # 用于词性标注
nltk.download('wordnet')      # 用于词形还原
nltk.download('maxent_ne_chunker')  # 用于命名实体识别
nltk.download('words')        # 用于实体识别的词汇库
nltk.download('vader_lexicon')  # 用于情感分析

二、基础功能:文本预处理与分析

文本预处理是NLP任务的第一步,包括分词、去除停用词、词形还原等,NLTK提供了一站式工具支持。

1. 分词(Tokenization)

分词是将连续文本拆分为单词或句子的过程,是文本处理的基础:

from nltk.tokenize import word_tokenize, sent_tokenize
# 示例文本
text = "NLTK is a powerful Python library for NLP. It provides easy-to-use interfaces to over 50 corpora and lexical resources."
# 句子分割(将文本拆分为句子)
sentences = sent_tokenize(text)
print("句子分割结果:")
for i, sent in enumerate(sentences, 1):print(f"句子{i}:{sent}")
# 单词分割(将句子拆分为单词)
words = word_tokenize(sentences[0])  # 对第一句进行分词
print("\n单词分割结果:")
print(words)

输出结果:

句子分割结果:
句子1:NLTK is a powerful Python library for NLP.
句子2:It provides easy-to-use interfaces to over 50 corpora and lexical resources.
单词分割结果:
['NLTK', 'is', 'a', 'powerful', 'Python', 'library', 'for', 'NLP', '.']

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/963704.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025大桶/桶装/纯净/瓶装/灌装水设备推荐榜:青州市路得自动化五星领跑 四大品牌赋能水企高效生产

2025年,饮用水生产行业对灌装水设备的智能化、定制化、稳定性需求持续升级,灌装、大桶、桶装、纯净、瓶装水设备的品质直接影响生产效率与产品安全。本次榜单结合技术实力、场景适配性、用户口碑等维度筛选,为行业提…

2025人形机器人产业链全景分析报告:核心技术与市场趋势|附130+份报告PDF、数据、可视化模板汇总下载

原文链接:https://tecdat.cn/?p=44288 原文出处:拓端抖音号 @拓端 tecdat2023年特斯拉Optimus初代机带着73公斤的“体重”亮相时,行业还在焦虑“它的续航能否撑过1小时”;仅仅两年后,宇树科技G1就以35公斤的轻量…

2025履带式/机场/智能驱鸟机器人系统推荐榜:申昊科技以AI赋能,破解多场景鸟害难题

在智慧交通、工业运维等领域,鸟害引发的设备故障、安全隐患一直是行业痛点。传统驱鸟方式易让鸟类适应、效率低下,而杭州申昊科技股份有限公司研发的智能驱鸟机器人,凭借技术创新与多场景适配性,入选 2025 智能驱鸟…

2025室外/攀爬/绳网/公园/景区/户外游乐设施企业口碑榜:全场景覆盖 + 实力出圈,这4家企业成采购优选

2025年游乐设施行业迎来高质量发展期,市场规模预计突破 500 亿元,复合年增长率保持 8.5% 左右,室外游乐设施、无动力游乐设施、景区游乐设施等细分需求持续攀升。基于企业实力、产品矩阵与市场口碑,精选 4 家优质企…

Python梯度提升树、XGBoost、LASSO回归、决策树、SVM、随机森林预测中国A股上市公司数据研发操纵融合CEO特质与公司特征及SHAP可解释性研究|附代码数据

全文链接:https://tecdat.cn/?p=44265原文出处:拓端数据部落公众号分析师:Liu Qing引言 在创新驱动发展战略深入推进的当下,企业研发投入成为经济高质量发展的核心动力,而研发费用加计扣除、高新技术企业税收优惠…

2025商超照明/灯具/灯光源头厂家推荐榜:富明阳领衔,四大优质品牌凭技术与服务出圈,照亮商超经营新图景

商超照明是商业空间的核心竞争力之一,优质的照明灯具与解决方案能提升商品吸引力、优化购物体验。2025 年,一批深耕商超照明领域的品牌凭借硬实力脱颖而出,以下为大家推荐 5 家靠谱的商超照明品牌与厂家,供行业参考…

2025年艺考文化课优选机构:聚焦艺考文化课机构/艺考文化课培训山东艺考文化课机构/封闭集训与精准提分核心竞争力

当艺考生结束专业统考,文化课冲刺成为升学关键环节。优质的培训机构能精准破解基础薄弱、复习时间紧等痛点,为备考之路保驾护航。基于办学资质、教学成果、口碑反馈等核心维度,本文梳理 2025 济南艺考文化课培训优质…

2025年邦顿商用空气能厂家新实力榜:聚焦邦顿商用变频/商用变频冷暖/商用变频热泵/模块化应用优势!

随着商用场景对节能降耗需求的持续提升,商用空气能凭借高效环保的核心优势,成为酒店、商场、工业厂房等场所的优选热源解决方案。2025 年,市场对大功率、低能耗、全场景适配的商用空气能产品需求激增,本文基于企业…

2025密集型/智能/防潮防腐/多层抽屉式/切片蜡块柜推荐榜:北京中宝元五星领跑 高容量智能存储方案成实验室优选

随着科研实验样本存储需求升级,切片蜡块柜的安全性、容量与适配性成为核心考量。2025 年行业推荐榜聚焦实验室核心需求,精选 3 家实力企业,北京中宝元科技发展有限责任公司以全维度优势斩获五星,两款四星产品各具特…

实用指南:OmniSteward:LLM Agent 赋能,语音文字随心控,智能家居与电脑的超级管家

实用指南:OmniSteward:LLM Agent 赋能,语音文字随心控,智能家居与电脑的超级管家pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; f…

Dynamics 365 Field Service跨站脚本漏洞分析

本文详细分析了CVE-2025-62211漏洞,这是一个影响Dynamics 365 Field Service的跨站脚本漏洞,CVSS评分8.7分,允许授权攻击者通过网络进行欺骗攻击。概述 CVE-2025-62211是Dynamics 365 Field Service(在线版)中的一…

例子:vue3+vite+router创建多级导航菜单,菜单收缩展开优化

第一部分 1、初始化项目npm init vite@latestnpm run dev :运行项目 q+Enter:退出运行 2、安装路由依赖npm install vue-router@4 # Vue3 对应 vue-router 4.x 版本 第二部分: 创建页面组件 在 src/views/home/ 目…

专题:2025AI时代的医疗保健业:应用与行业趋势研究报告|附130+份报告PDF、数据、可视化模板汇总下载

原文链接:https://tecdat.cn/?p=44257原文出处:拓端抖音号@拓端tecdat2025年的医疗保健行业,正站在“压力”与“机遇”的十字路口:一边是中国65岁及以上人口占比将从15.6%飙升至2070年的42%,慢性病护理需求快压垮…

团队作业2——需求规格说明书

需求规格说明书这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13481这…

实用指南:Java优选算法——位运算

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

英语_阅读_Postman_待读

Tom lives in a small town with his wife and two children. 汤姆和他的妻子以及两个孩子住在一个小镇上。 He has worked as a postman for more than twenty years, but life today is very different from when he…

CF1984F Reconstruction

比较偏套路。 首先你要知道,给我们这些信息的组合其实有用的很少,我们利用相邻两位的信息就足以规约出所有限制了。 就是分类讨论相邻位的 P/S 关系,那么就会得出一系列关于 \(a_i, a_{i - 1}\) 的限制了(与总和也…

英语_句子摘抄

Tom knows that even as the world moves forward, some things, like love and family, last forever.汤姆知道,即使世界在前进,有些东西,如爱与家庭,是永恒不变的。

详细介绍:python编程基础知识

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[USACO18JAN] G/S 题解

[USACO18JAN] G/S 题解双倍经验双倍爽!P4185 [USACO18JAN] MooTube G 题解 P6111 [USACO18JAN] MooTube S 题解(数据弱化版) 题目链接 题目链接(弱化版) 我的博客 前言 如标题所言,是双倍经验。不同的是P6111可以…