阿里云主机建网站吉林市建设官方网站

news/2025/9/28 17:15:06/文章来源:
阿里云主机建网站,吉林市建设官方网站,wordpress用户登陆,windows优化大师在哪里一、说明 文本摘要是一种自然语言处理技术#xff0c;允许用户将大量文本总结为小块#xff0c;而不会丢失任何重要信息。本文介绍NLP中使用Gensim和Sumy实现文本摘要的步骤。 二、为什么要总结文本#xff1f; 互联网包含大量信息#xff0c;而且每秒都在增加。文本摘要可… 一、说明         文本摘要是一种自然语言处理技术允许用户将大量文本总结为小块而不会丢失任何重要信息。本文介绍NLP中使用Gensim和Sumy实现文本摘要的步骤。 二、为什么要总结文本         互联网包含大量信息而且每秒都在增加。文本摘要可以通过提供长文本的简单、非正式的摘要来提供帮助。除了摘要之外它还可以让用户快速准确地识别段落或文章的基本内容。         总结文本有很多正当理由包括 减少阅读时间提高生产力不错过重要事实使文本轮廓更容易         文本摘要有两种主要方法提取式和抽象式。 2.1  抽取文本摘要         此方法通过从原始文本中选择最常用的短语和句子来创建摘要。最重要的单词和句子以及与该主题相关的信息最多的单词和句子被优先考虑。  使用提取摘要器的示例         长文本Python 是一种高级、解释性、交互式、面向对象的脚本语言。对于初级程序员来说Python 是一门很棒的语言。         摘 要Python 是一种高级的、解释性的、交互式的、面向对象的脚本语言。 2.2 抽象文本摘要         抽象摘要方法涉及生成传达源文档含义的全新短语和句子。它利用算法和数学以更短的形式创建原始文本的表示。 让我们用一个简单的例子来理解抽象总结器         长文本Python 是一种高级、解释性、交互式、面向对象的脚本语言。对于初级程序员来说Python 是一门很棒的语言。         摘要Python 是一种高级脚本语言对于初级程序员很有帮助。         这两种技术都有各自的用途。对于第一个人们可以通过从源中挑选最热门的单词来创建简短的摘要。另一方面第二种方法可以通过添加自己的文字来完全改变摘要从而使原始消息不会消失。让我们看看如何用 Python 构建这些 三、构建一个提取文本摘要器         NLTK自然语言处理工具包是一个 Python 库提供了一组可用于构建文本摘要的工具。         我们将使用Python 编程维基百科页面内容作为示例。让我们编写一个简单的函数来使用requests和 BeautifulSoup从互联网页中抓取数据 from bs4 import BeautifulSoup import requestsdef scrape_con(url):res requests.get(url)soup BeautifulSoup(res.text,html.parser) content soup.findAll(p)data for text in content:data text.textreturn datascrape_con(https://en.wikipedia.org/wiki/Python_(programming_language)) 文本摘要的第一步是清理文本。我们将执行一些基本的文本清理例如将文本转换为小写、删除标点符号等。您可以从我之前关于心跳的文章中阅读有关文本清理的更多信息。 import re def clean_data(data):text re.sub(r\[[0-9]*\], ,data)text text.lower()text re.sub(r\s, ,text)text re.sub(r,, ,text)return text cleaned_data clean_data(raw_data) 清理数据后下一步将是创建单词和句子标记并计算每个标记的频率。 import nltk nltk.download(punkt) nltk.download(stopwords) from nltk.tokenize import sent_tokenize,word_tokenizesent_tokens sent_tokenize(cleaned_data) word_tokens word_tokenize(cleaned_data) word_frequency {} stopwords set(stopwords.words(english))for word in word_tokens:if word not in stopwords:if word not in word_frequency.keys():word_frequency[word]1else:word_frequency[word] 1 for word in word_frequency.keys():word_frequency[word] (word_frequency[word]/maximum_frequency) 现在我们将借助词典生成句子分数word_frequency。 sentences_score {} for sentence in sent_tokens:for word in word_tokenize(sentence):if word in word_frequency.keys():if (len(sentence.split( ))) 30:if sentence not in sentences_score.keys():sentences_score[sentence] word_frequency[word]else:sentences_score[sentence] word_frequency[word]         最后我们使用该heapq库提取前n个句子并将它们包含在最终摘要中。n是用户定义的数字在下面的示例中我们将其设置为 3。 def get_key(val): for key, value in sentences_score.items(): if val value: return key key get_key(max(sentences_score.values())) summary heapq.nlargest(n,sentences_score,keysentences_score.get) ## n3 print( .join(summary)) 通过传递 n 3生成的提取摘要为 python 的名字源自英国喜剧团体 monty pythonPython 的创建者 Guido van rossum 在开发该语言时很喜欢这个团体。python 3.10 弃用了 wstr 将在 python 3.12 中删除意味着届时需要修改 python 扩展并向该语言添加模式匹配。         还有其他库以更自动化的方式提供相同的解决方案。我们将在下面探讨它们。 隔离困难的数据样本彗星可以做到这一点。通过我们的 PetCam 场景了解更多信息并发现彗星文物。 3.1.Gensim         Gensim 是一个开源库用于无监督主题建模、文档索引、相似性检索和其他自然语言处理功能使用现代统计机器学习如维基百科所述。         Gensim 有一个summarize带有内置提取文本摘要器的类。让我们使用维基百科中的相同网页并使用gensim摘要器对其进行总结。 import gensim import re from gensim.summarization.summarizer import summarize import requests from bs4 import BeautifulSoupurl https://en.wikipedia.org/wiki/Python_(programming_language)res requests.get(url) soup BeautifulSoup(res.text,html.parser)extracted_rows_content [] for i in range(len(soup.select(p))):row_text soup.select(p)[i].getText().strip()extracted_rows_content.append(row_text) raw_data .join(extracted_rows_content)import re def clean_data(data):text re.sub(r\[[0-9]*\], ,data)text text.lower()text re.sub(r\s, ,text)text re.sub(r,, ,text)return text cleaned_article_content clean_data(raw_data)summary summarize(cleaned_article_content, ratio 0.01) summary re.sub(\[[^\]]*\],,summary) print(summary)         标准库的部分内容由规范涵盖 - 例如 Web 服务器网关接口 (wsgi) 实现 wsgiref 遵循 pep 333 - 但大多数是由其代码内部文档和测试套件指定的。 3.2. Sumy         Sumy 是一个用于从 HTML 页面或纯文本中提取摘要的 Python 库。它使用多种算法来准备摘要。例如我们正在使用 LexRank 算法其主要思想是如果一个句子与许多其他句子非常相似那么它很可能是包含在摘要中的重要句子。 import sumy from sumy.parsers.plaintext import PlaintextParser from sumy.nlp.tokenizers import Tokenizer from sumy.summarizers.lex_rank import LexRankSummarizerimport requests from bs4 import BeautifulSoupurl https://en.wikipedia.org/wiki/Python_(programming_language)res requests.get(url) soup BeautifulSoup(res.text,html.parser)articles [] for i in range(len(soup.select(p))):article soup.select(p)[i].getText().strip()articles.append(article) raw_data .join(articles)import re def clean_data(data):text re.sub(r\[[0-9]*\], ,data)text text.lower()text re.sub(r\s, ,text)text re.sub(r,, ,text)return text cleaned_article_content clean_data(raw_data)# For Strings parser PlaintextParser.from_string(cleaned_article_content,Tokenizer(english))summarizer LexRankSummarizer() #Summarize the document with 2 sentences summary summarizer(parser.document, 2)for sentence in summary:print(sentence)         除了 LexRank 之外Sumy 还有其他汇总方法如Luhn、TextRank、SumBasic和LSA。潜在语义分析LSA是近年来最常用的方法。该方法能够识别文本中的同义词以及文档中未明确写入的主题。LsaSummarizer您可以通过从类导入来使用它sumy.summarizers.lsa。 四、结论         文本摘要可以通过简短的摘要表示主要事实来减少文章的阅读时间。提取和抽象方法都可以使用不同的方法来做到这一点。这完全取决于您的用例以及您需要哪种方法。当然在某些情况下提取摘要器无法在摘要中包含最上面的句子而抽象摘要器会生成完全不同的摘要。最后它们都只是需要一定程度的人类评估的算法。 五、推荐读物 1. Abstractive Text Summarization Using Python [Kaggle Notebook] 2. An approach to abstractive text summarization  [IEEE Research Papaer] 3. Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond [cornell university (arxiv)] 4. Using Latent Semantic Analysis in Text Summarization and Summary Evaluation [By Josef Steinberger and Karel Ježek]5. 使用 Python 和 NLTK 进行文本摘要 |由 Abhay Parashar |心跳 (comet.ml)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/920885.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用了wordpress的网站进去了

11月24日——26日,冷喷涂技术及其在增材制造中的应用专题会在襄阳召开,来自国内外200多名科技工作者齐聚一堂,共同交流冷喷涂技术的研究与应用。 本次专题研讨会由中国机械工程学会表面工程分会主办,湖北超卓航空科技股份有限公司…

题解:AT_abc425_f [ABC425F] Inserting Process

这个 \(n\le 22\) 的数据范围一看就是那种正解 \(O(n2^n)\) 不知道为啥还去卡 \(O(n^22^n)\) 的玩意儿吧,结合题面大致就能猜到它是个状压DP状物。 然后应该普遍就能想到是把每个字符当前在不在串里压成状态,按每一步…

[转]bat/cmd将命令执行的结果赋值给变量

前言全局说明bat脚本里执行运行命令获取值一、说明 1.1 环境: Windows 7 旗舰版二、 比如我想把git代码的commitid获取以后加到文件夹上来标记文件夹中的包是哪个git 节点构建得到的。 git 命令是git rev-parse --shor…

题解:P13507 [OOI 2024] Three Arrays

模拟赛搬的题,假了一万次,我也不知道咋搞过去的。 食用本题解时需要感性理解每个操作和定义的合理性,最好不要先去想这么搞的必要性。 我们可以对两个数分开考虑,由于两者顺序无影响。为方便这里将 \(L\) 或 \(R\)…

题解:AT_abc424_f [ABC424F] Adding Chords

喜欢我们绿题拿和线段树差不多长的 1.2KB 树套树无脑场切掉吗? 但是真的可以拿树套树过,而且很快就能写完,虽然复杂度劣一点,不过我的树套树时限三秒能飞到一秒内。 注意到这个问题其实和环没啥关系,可以把它转化…

如何在不同区域/网络环境下评估 reCAPTCHA 的表现 - 详解

如何在不同区域/网络环境下评估 reCAPTCHA 的表现 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas…

宝路华手表官方网站做 个收废品网站

https://www.xhsay.com/wordpress-attachment-taxonomies.html 时不时看到有朋友说 WordPress 这么强大的系统,怎么多媒体附件都不支持分类呢。好吧,目前默认的确是不支持的。今天推荐一款新的插件 Attachment Taxonomies,它可以为多媒体添加…

网站主机与服务器广州越秀区发布

20分钟上手DeepSeek开发:SpringBoot Vue2快速构建AI对话系统 前言 在生成式AI技术蓬勃发展的今天,大语言模型已成为企业智能化转型和个人效率提升的核心驱动力。作为国产大模型的优秀代表,DeepSeek凭借其卓越的中文语义理解能力和开发者友…

手机版传奇发布网站做一个个人网站的步骤

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 Linux 的字符串截取很有用。有八种方法。 假设有变量 varhttp://www.aaa.com/123.htm 1. # 号截取,删除左边字符,…

用dw自己做网站360网站建设的目标是什么

课程总计41课时,从什么是事务讲起,直到分布式事务解决方案,很的0基础基础与提升系列课程。对于难以理解的知识点,全部用画图实战的方式讲解。彻底明白事务的四个特性:原子性、一致性、隔离性、持久性,用场景…

常州个人网站建设网易企业邮箱价格表

文章目录 cpolar内网穿透工具 cpolar内网穿透工具 科学技术的发展日新月异,电子设备在人们的生活中已成为不可或缺的工具,甚至在很多情况下,各类型的电子设备已经成为工作的核心,虽然移动设备越来越小巧,功能也越来越…

2025 年最新编织袋生产厂家权威推荐排行榜:聚焦 TOP5 优质企业,助力企业精准甄选可靠合作伙伴牛皮纸/塑料/PP彩膜/化工/化肥编织袋厂家推荐

在工业、农业、食品等领域的生产流转中,编织袋作为关键包装载体,其品质、供应稳定性及定制能力直接关系到企业运营效率与产品安全。当前市场上编织袋生产厂家数量繁杂,部分企业存在质量管理缺失、产品承重不足、密封…

做装修的人到什么网站找工作怎样是做网站

docker学习第四天 docker学习第四天1. 回顾1.1. 容器的网络类型1.2. 容器的本质1.3. 数据的持久化1.4. 看有哪些卷1.5. 看卷的详细信息 2. 如何做多台宿主机里的多个容器之间的数据共享2.1. 概念2.2. 搭NFS服务器实现多个容器之间的数据共享的详细步骤2.3. 如果是多台机器&…

P11854 [CSP-J2022 山东] 宴会

P11854 [CSP-J2022 山东] 宴会 题解题目传送门 当时这个题是我考试题,考试的时候感性理解出来的三分做法。 首先咱感性理解一下,当\(x_0\)位于左边无穷远处时,答案是个很大的数。 然后随着\(x_0\)从左向右移动,答案…

2025 年试验机厂家权威推荐榜:TOP5 优质厂家综合实力解析,助力科研与工业客户精准选型电子万能材料/橡胶拉力/塑料拉力/扬州拉力试验机厂家推荐

在材料检测领域,试验机是保障科研数据精准性与工业质量管控效率的核心设备,其品质直接关系到实验进度推进与生产线稳定运行。当前市场上试验机供应商资质差异显著,部分厂商存在产品适配性差、技术支撑不足、售后响应…

# PostgreSQL高可用架构深度解析:从单机到分布式的演进之路

# PostgreSQL高可用架构深度解析:从单机到分布式的演进之路Posted on 2025-09-28 17:00 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:# PostgreSQL高可用架构深度解析:从单机到分布式的演进之路PostgreSQ…

洛阳做网站公司有哪些搭建一个网站多少钱

文章目录 前言一、问题重述二、主函数总结 前言 第十五蓝桥杯国赛落幕已有十天,是时候总结一下,这个专栏也将结束。虽然并没有取得预期的结果,但故事结尾并不总是美满的。下面是赛前练习的第十二届国赛的代码。 一、问题重述 二、主函数 完整…

跟Manus聊聊Bean生命周期设计哲学[From Manus]

跟Manus聊聊Bean生命周期设计哲学[From Manus]Posted on 2025-09-28 17:00 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:跟Manus聊聊Bean生命周期设计哲学[From Manus]Mind RoadmapBean生命周期设计哲学 “零…

Software Crisis and Complexity

Software Crisis and ComplexityPosted on 2025-09-28 17:00 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:Software Crisis and Complexity软件危机与复杂性:工程思维的诞生背景 核心要点 第一次软件危机(1…

Foojay 播客 #71:与 James Gosling 一起庆祝 Java 诞生 30 周年

Foojay 播客 #71:与 James Gosling 一起庆祝 Java 诞生 30 周年Posted on 2025-09-28 17:00 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:Foojay 播客 #71:与 James Gosling 一起庆祝 Java 诞生 30 周年htt…