TF-IDF在现代搜索引擎优化策略中的作用

TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于文本挖掘和信息检索的统计方法,用来评估一个词语对于一个文档或一个语料库的重要程度。TF-IDF算法结合了词频(TF)和逆文档频率(IDF)两个指标,既考虑了词语在单个文档中的出现频率,也考虑了词语在整个语料库中的普遍性。

1. 术语解释

1.1 词频(TF)

词频(Term Frequency)是指一个词在文档中出现的频率。如果一个词经常出现,它就一定很重要,对吗?并非总是如此!像 “and”、"the "和 "is "这样的词在英语中经常出现,但它们并不能说明文档的内容。这就是 IDF 的作用所在。

tf(t,d) = count of t in d / number of words in d

1.2 逆文档频率(IDF)

逆文档频率(Inverse Document Frequency)用来衡量词语在整个语料库中的普遍性。词语出现得越频繁,其信息量越小,反之,出现得越少,其信息量越大。

在这里插入图片描述

2. TF-IDF计算

TF-IDF值是TF和IDF的乘积,用来衡量词语的重要性。公式如下:

TF-IDF(t,d,D)=TF(t,d)×IDF(t,D)

3. 示例

假设我们有如下三个文档:

  • 文档1:我喜欢看电影
  • 文档2:我不喜欢看电影
  • 文档3:我喜欢看书

首先,我们计算每个文档中词语的词频(TF):

词语文档1 TF文档2 TF文档3 TF
1/41/41/4
喜欢1/41/41/4
1/41/41/4
电影1/41/40
01/40
001/4

接着,我们计算每个词语的逆文档频率(IDF):

词语出现文档数IDF
3log⁡(3/3)=0\log(3/3) = 0log(3/3)=0
喜欢3log⁡(3/3)=0\log(3/3) = 0log(3/3)=0
3log⁡(3/3)=0\log(3/3) = 0log(3/3)=0
电影2log⁡(3/2)≈0.176\log(3/2) \approx 0.176log(3/2)0.176
1log⁡(3/1)≈1.098\log(3/1) \approx 1.098log(3/1)1.098
1log⁡(3/1)≈1.098\log(3/1) \approx 1.098log(3/1)1.098

最后,我们计算TF-IDF值:

词语文档1 TF-IDF文档2 TF-IDF文档3 TF-IDF
000
喜欢000
000
电影1/4×0.176≈0.0441/4 \times 0.176 \approx 0.0441/4×0.1760.0441/4×0.176≈0.0441/4 \times 0.176 \approx 0.0441/4×0.1760.0440
01/4×1.098≈0.2751/4 \times 1.098 \approx 0.2751/4×1.0980.2750
001/4×1.098≈0.2751/4 \times 1.098 \approx 0.2751/4×1.0980.275

4. 代码

>>> from sklearn.feature_extraction.text import TfidfTransformer
>>> from sklearn.feature_extraction.text import CountVectorizer
>>> from sklearn.pipeline import Pipeline
>>> corpus = ['this is the first document',
...          'this document is the second document',
...          'and this is the third one',
...          'is this the first document']
>>> vocabulary = ['this', 'document', 'first', 'is', 'second', 'the',
...              'and', 'one']
>>> pipe = Pipeline([('count', CountVectorizer(vocabulary=vocabulary)),
...                 ('tfid', TfidfTransformer())]).fit(corpus)
>>> pipe['count'].transform(corpus).toarray()
array([[1, 1, 1, 1, 0, 1, 0, 0],[1, 2, 0, 1, 1, 1, 0, 0],[1, 0, 0, 1, 0, 1, 1, 1],[1, 1, 1, 1, 0, 1, 0, 0]])
>>> pipe['tfid'].idf_
array([1.        , 1.22314355, 1.51082562, 1.        , 1.91629073,1.        , 1.91629073, 1.91629073])
>>> pipe.transform(corpus).shape
(4, 8)

参考 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html

5. 应用场景

  • 信息检索:通过TF-IDF算法可以提升搜索引擎的搜索结果质量,使得相关性高的文档排在前面。
  • 文本分类:作为文本特征提取的方法,TF-IDF在文本分类中有广泛应用。
  • 推荐系统:结合用户的历史记录和文档的TF-IDF值,推荐系统可以向用户推荐更符合其兴趣的内容。

6. 优缺点

优点

  • 简单易实现: TF-IDF算法计算简单,易于实现。
  • 有效性: 在许多文本挖掘和信息检索任务中,TF-IDF算法表现良好。

缺点

  • 忽略词序和语义: TF-IDF只考虑词频和逆文档频率,忽略了词语的顺序和上下文语义。
  • 高维稀疏性: 在大型语料库中,TF-IDF矩阵会非常稀疏,计算和存储成本较高。

7. 总结

TF-IDF算法是一种经典且广泛使用的文本特征提取方法,尽管有一些局限性,但在许多实际应用中依然表现良好。理解和掌握TF-IDF算法对于从事自然语言处理和信息检索领域的研究人员和工程师来说,是非常重要的。

我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个领域感兴趣,或者想要了解更多技术干货,请关注我的账号,一起成长!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/30686.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【nvidia agx xavier】ubuntu20.04 换源

指明架构:[archarm64] !!! tsinghua源 sudo gedit /etc/apt/sources.list deb [archarm64] https://mirrors.tuna.tsinghua.edu.cn/ubuntu-ports/ focal main restricted universe multiverse deb [archarm64] https://mirrors.tuna.tsinghua.edu.cn/ubuntu-ports/…

软考高级资格是否等于高级工程师或者是否拥有职称?

软考采用"考试取代评审"的方式,一旦通过考试,就不再需要进行相应的职称认定和评审工作。取得考试通过证书意味着具备了相应工作岗位的水平和职称资格。软考的初级、中级、高级分别对应着技术员/助理工程师、工程师和高级工程师这些职称。 大多…

osi七层参考模型和tcp/ip模型的区别与相似之处

osi七层参考模型: 2.tcp/ip四层参考模型: osi七层参考模型与tcp/ip四层参考模型的相似与区别: 相同点: 2者都是模型化层次化 下层对上层提供服务支持 每层协议彼此相互独立 不同点:OSI先有模型才有协议 TCP/IP先有…

Vue中data的属性可以和methods中方法同名吗,为什么?

在Vue中,data的属性不可以和methods中的方法同名,原因如下: 命名规范:从编程规范的角度来看,同名属性或方法可能会导致混淆和难以维护的代码。data通常用于存储组件的状态或数据,而methods则包含组件的行为…

MK米客方德 SD NAND 功耗对比

在这个数据驱动的时代,MK米客方德在工业存储领域不断突破,凭借卓越的产品和服务赢得了广泛的客户认可。我们自主研发的嵌入式存储芯片已实现规模化量产,而我们最新一代的工业级SD NAND—AST系列也已正式推出。 该产品采用LGA-8(6*8mm)封装&am…

在无线网中 2.4G、5G、WiFi6、WiFi7 都是什么意思?

有同学问我在无线网中 2.4G/5G/WiFi6/WiFi7 都是什么意思?其实这是两个概念, 2.4G/5G 是频段,WiFi6/WiFi7 是无线协议的版本,千万别把版本和频段搞混了。 WiFi 协议是一系列基于 IEEE 802.11 标准的无线局域网技术协议&#xff0…

PHP框架详解 - ThinkPHP框架

ThinkPHP 是一个开源的轻量级 PHP 开发框架,它遵循 Apache2 开源许可协议发布,适用于敏捷 WEB 应用开发和简化企业应用开发。以下是对 ThinkPHP 框架的一些基本介绍和特点: 轻量级:ThinkPHP 以其轻量级特性而闻名,适合…

为什么选择飞速(FS)25G SFP28光模块?

25G SFP28光模块是一种传输速率为25Gbps的光模块。与传统的10G光模块相比,它具有更高的端口密度,可以通过减少TOR交换机和线缆的数量来节省运营成本。同时,25G光模块为中小型数据中心提供更节能高效的选择,非常适合连接中小型数据…

使用Spring的StopWatch类优雅打印方法执行耗时

在做开发的时需要统计每个方法的执行消耗时间,或者记录一段代码执行时间,最简单的方法就是打印当前时间与执行完时间的差值,然后这样如果执行大量测试的话就很麻烦,并且不直观,然而使用使用Spring的StopWatch类就可以优雅打印方法…

.NET C# 使用GDAL读取FileGDB要素类

.NET C# 使用GDAL读取FileGDB要素类 目录 .NET C# 使用GDAL读取FileGDB要素类1 环境2 Nuget3 Code 1 环境 VisualStudio2022 .NET6 GDAL 3.7.5 2 Nuget 3 Code using OSGeo.OGR; using OSGeo.OSR;namespace TestGDAL {internal class Program{static void Main(string[] a…

el-table多选分页回显

el-table多选分页回显 1.多选项添加 :reserve-selection"true" <el-table-column type"selection" align"center" width"55" :reserve-selection"true" ></el-table-column>reserve-selection : 仅对 typesel…

浅谈配置元件之Java默认请求

浅谈配置元件之Java默认请求 1.简介 “Java默认请求”&#xff08;虽然直接名为"Java Request"更常见&#xff09;是一个高级配置元件&#xff0c;它允许用户通过Java代码自定义请求逻辑&#xff0c;为测试提供了极高的灵活性和扩展性。 2.Java请求组件概述 在JM…

Ubuntu/Linux系统安装JDK1.8(带jdk1.8资源和操作教程)

文章目录 前言一、JDK1.8下载二、上传三、安装四、配置环境变量五、查看总结 前言 &#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;Ubuntu/Linux jdk1.8安装包&#xff…

MySQL支持哪些特殊字符

MySQL支持多种特殊字符&#xff0c;这些字符在SQL语句中具有特定的含义&#xff0c;需要在使用时特别注意。以下是一些MySQL中的特殊字符及其相关信息&#xff1a; 引号&#xff1a; 单引号&#xff08;&#xff09;&#xff1a;用于定义字符串。如果字符串中包含单引号本身&…

[BFS广搜]数字变换

描述 给定一个包含5个数字&#xff08;0-9&#xff09;的字符串&#xff0c;例如 “02943”&#xff0c;请将“12345”变换到它。 你可以采取3种操作进行变换 1. 交换相邻的两个数字 2. 将一个数字加1。如果加1后大于9&#xff0c;则变为0 3. 将一个数字加倍。如果加倍后大…

【机器学习】【深度学习】MXnet神经网络图像风格迁移学习简介

使用部分 一、编程环境 编程环境使用Windows11上的Anaconda环境&#xff0c;Python版本为3.6. 关于Conda环境的建立和管理&#xff0c;可以参考我的博客&#xff1a;【Anaconda】【Windows编程技术】【Python】Anaconda的常用命令及实操 二、项目结构&#xff08;代码非原创…

whisper fastapi 完整识别一个音频文件实现

import whisper from fastapi import FastAPI, File, UploadFile from fastapi.responses import StreamingResponse import io import torch import numpy as np from pydantic import BaseModel import os import tempfile# 加载 Whisper 模型 model whisper.load_model(&qu…

Hive期末总结

hive的概念&#xff0c;谁开发的 Apache Hive 是一个Apache 软件基金会维护的开源项目 Facebook贡献 hive是一个基于hadoop的数据仓库工具&#xff08;对数据汇总查询和分析的工具&#xff09; hive执行原理 Hive通过给用户提供的一系列交互接口&#xff0c;接收到用户的指令…

关于面试被面试官暴怼:“几年研究生白读” 的前因后果

中午一个网友来信说自己和面试官干起来了,看完他的描述真是苦笑不得,这年头是怎么了,最近互联网CS消息满天飞,怎么连面试官都SB起来了呢? 大概是这样的:这位网友面试时被问及了Serializable接口的底层实现原理,因为这是一个标识性的空接口,大部分同学在学习时都秉持着会…

【Mybatis-plus】查询及更新为null或空字符串

前言 查询为 null 或者 空字符串时&#xff0c;可以使用 or() 关键字。 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 查询 使用 LambdaQueryWrapper 查询 parentCode 为 null 或者 空字符串 的数据。 LambdaQueryWrapper<CompanyEntity> qu…