网站如何做双链路腾讯企业邮箱的优惠活动

news/2025/10/4 5:15:26/文章来源:
网站如何做双链路,腾讯企业邮箱的优惠活动,wordpress更改ip地址后图片处理,中牟网站制作文章目录 前言文本表示1文本特征概念介绍2 文本特征选择方法3 文本表示方法 text expressing3.1 One Hot(独热)编码3.2 TF-IDF 模型3.3 Word2Vec 参考链接#xff1a; 前言 文本是一种非结构化的数据信息#xff0c;是不可以直接被计算的。 文本表示的作用就是将这些非结构… 文章目录 前言文本表示1文本特征概念介绍2 文本特征选择方法3 文本表示方法 text expressing3.1 One Hot(独热)编码3.2 TF-IDF 模型3.3 Word2Vec 参考链接 前言 文本是一种非结构化的数据信息是不可以直接被计算的。 文本表示的作用就是将这些非结构化的信息转化为计算机可以理解的结构化的信息 这样就可以针对文本信息做计算来完成后面的任务。 文本表示 1文本特征概念介绍 在向量空间模型中文本可以选择字、词组、短语、甚至“概念”等多种元素表示。 这些元素用来表征文本的性质区别文本的属性因此这些元素可以被称为文本的特征。 在文本数据集上一般含有数万甚至数十万个不同的词组如此庞大的词组构成的向量规模惊人计算机运算非常困难。进行特征选择对文本分类具有重要的意义。 特征选择就是要选择那些最能表征文本含义的词组元素。特征选择不仅可以降低问题的规模还有助于分类性能的改善。 2 文本特征选择方法 选取不同的特征对文本分类系统的性能有不同程度的影响。 已提出的文本分类特征选择方法比较多常用的方法有 文档频率(Document FrequencyDF)、 信息增益(Information GainIG)、 校验(CHI)和互信息(Mutual InformationMI)等方法。 3 文本表示方法 text expressing 常见的文本表征的模型有 1传统的 one-hot问题维度高、tf-idf词频统计 2基于词向量的 Word2vec、doc2vec、glove、festext基于特定任务、结构简单 3基于语言模型: ELMO、GPT、BERT 基于文本特征的需要大量数据集 3.1 One Hot(独热)编码 one-hot在特征提取上属于词袋模型 1概念介绍 One-Hot表示是把语料库中的所有文本进行分词把所有单词词汇收集起来并对单词进行编号构建一个词汇表vocabulary词汇表是一个字典结构key是单词value是单词的索引。 如果词汇表有n个单词构成那么单词的索引从0开始到n-1结束。 词汇向量有n列但是只有一列的值为1把值为1的列的索引带入到词汇表vocabulary中就可以查找到该词向量表示的词汇也就是说对于某个单词 term如果它出现在词汇序列中的位置为 k那么它的向量表示就是“第 k 位为1其他位置都为0 ”这就是One-Hot独热名称的由来。 举个例子来说假设现有分词后的语料库如下 我 爱 学习 学习 爱 我 学习 很 重要 我 努力 学习 把上述语料中的词汇整理出来并进行排序排序原则另说可以有很多假设我们的词汇表排序结果如下 {“我”3“爱”2“学习”4“很”1“重要”1“努力”1} 2单词的词向量 得出如下词向量表示 “我”[100000] “爱”[010000] 3文档向量 文档向量的表示方法是直接把各词的词向量表示加和即文档向量中列的值表示词在文档中出现的次数。 那么原来的三句话的向量表示如下 [222000] [001110] [101001] One-Hot方法很简单 优点 解决了分类器处理离散数据困难的问题 一定程度上起到了扩展特征的作用 缺点 没有考虑单词之间的相对位置文本中词的顺序信息也是很重要的 任意两个词之间都是孤立的在大多数情况下词与词是相互影响的 如果文档中有很多词词向量会有很多列但是只有一个列的值是1它得到的特征是离散稀疏的 3.2 TF-IDF 模型 这种模型主要是用词汇的统计特征来作为特征集TF-IDF 由两部分组成TFTerm frequency词频**IDFInverse document frequency逆文档频率两部分组成利用 TF 和 IDF 两个参数来表示词语在文本中的重要程度。 TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为逆文档频率, 用于计算该词区分文档的能力。 TF*IDF 的指导思想建立在这样一条基本假设之上在一个文本中出现很多次的单词, 在另一个同类文本中出现次数也会很多, 反之亦然 假设要统计一篇文档中的前10个关键词.首先想到的是统计一下文档中每个词出现的频率TF词频越高这个词就越重要。但是统计完你可能会发现你得到的关键词基本都是“的”、“是”、“为”这样没有实际意义的词停用词这个问题怎么解决呢你可能会想到为每个词都加一个权重像这种”停用词“就加一个很小的权重甚至是置为0这个权重就是IDF。公式如下 TF应该很容易理解就是计算词频IDF衡量词的常见程度。为了计算IDF我们需要事先准备一个语料库用来模拟语言的使用环境如果一个词越是常见那么式子中分母就越大逆文档频率就越小越接近于0。这里的分母1是为了避免分母为0的情况出现。TF-IDF的计算公式如下 根据公式很容易看出TF-IDF的值与该词在文章中出现的频率成正比与该词在整个语料库中出现的频率成反比因此可以很好的实现提取文章中关键词的目的。 其实TF-IDF方法是将One-hot中为1的列改成了权值TF-IDF。 3.3 Word2Vec 传统的(基于计数的)文本数据特征工程策略包括了一大类的模型这些模型通常称为词袋模型包括词频、TF-IDF(词频逆文档频率)、N-grams等等。 虽然它们是从文本中提取特征的有效方法但是由于模型本身就是一袋非结构化的单词我们丢失了额外的信息比如每个文本文档中围绕邻近单词的语义、结构、序列和上下文。 1、概念 Word2vec 使用的词向量不是我们上述提到的One-hot Representation那种词向量而是 Distributed representation 的词向量表示方式。 其基本思想是 通过训练将每个词映射成 K 维实数向量K 一般为模型中的超参数通过词之间的距离比如 cosine 相似度、欧氏距离等来判断它们之间的语义相似度。 word2vector有两种形式——CBOW 和 Skip-gram。 两种训练加速方法 负采样 层次softmax。 2、Continuous Bag of Words(CBOW) 连续词袋模型 CBOW模型体系结构试图基于上下文单词(周围单词)预测当前目标单词(中心单词)。 考虑一个简单的句子“the quick brown fox jumps over the lazy dog”这可以是(context_window, target_word)对如果我们考虑一个大小为2的上下文窗口我们有([quick, fox] brown)、([the, brown] quick)、([the, dog] lazy)等例子。因此该模型试图基于context_window单词预测target_word。 我们将在没有任何辅助信息的情况下从语料库本身来做。可以将CBOW结构建模为一个深度学习分类模型这样我们就可以将上下文单词作为输入X并尝试预测目标单词Y。 工作原理实现将集中于以下几个部分 构建语料库词汇表 建立一个CBOW(上下文目标)生成器 构建CBOW模型架构 训练模型 获取Word Embeddings 3、Skip-gram 跳字模型 Skip-gram模型体系结构实现与CBOW模型相反的功能。它预测给定目标单词(中心单词)的源上下文单词(周围单词)。 考虑到我们前面简单的句子“the quick brown fox jumps over the lazy dog”。如果我们使用CBOW模型就会得到一对(context_window, target_word)其中如果我们考虑一个大小为2的上下文窗口就会得到([quick, fox] brown) ([the, brown] quick) ([the, dog] lazy)等等。 现在考虑到Skip-gram模型的目标是根据目标单词预测上下文该模型通常将上下文和目标颠倒过来并尝试根据目标单词预测每个上下文单词。因此任务变成了给定目标单词’quick’预测上下文[the, brown]以此类推。因此该模型是基于target_word预测context_window单词。 正如我们在CBOW模型中所讨论的我们现在需要将这个Skip-gram架构建模为一个深度学习分类模型这样我们就可以将目标单词作为输入并预测上下文单词。这变得有点复杂因为我们在上下文中有多个单词。比如句子“the quick brown fox jumps over the lazy dog” 我们将每个(target, context_words)对分解为多个(target, context)对这样每个上下文只包含一个单词从而进一步简化了这个过程。因此我们前面的数据集被转换成成对的比如(brownquick)(brownfox) (quick, the) (quick, brown)等等。但是如何监督或训练模型使其知道什么是上下文相关的什么不是 为此我们对Skip-gram模型输入(X, Y)其中X是我们的输入Y是我们的标签。我们使用[(target, context) 1]对作为输入正样本其中target是我们感兴趣的单词context是发生在目标单词附近的上下文单词正样本标签1表示这是上下文相关的一对。我们还输入[(target, random) 0]对作为输入负样本其中target仍然是我们感兴趣的单词但是random只是从我们的词汇表中随机选择的一个单词它与我们的目标单词没有上下文关系。因此负样本标签0表示这是上下文无关的一对。我们这样做是为了让模型能够了解哪些词对与上下文相关哪些不相关并为语义相似的词生成类似的嵌入。 实现Skip-gram模型工作将集中于五个部分 构建语料库词汇表 构建skip-gram[(target, context), relevancy]生成器 构建skip-gram模型结构 训练模型 得到词嵌入 参考链接 1、https://blog.csdn.net/qq_38293297/article/details/104850025 2、https://zhuanlan.zhihu.com/p/422220941

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杂志网站建设方案怎么做app和网站购物

1.局域网互联设备: 2层网桥(生成树、源路由)、3层交换机、路由器。网桥要求3层以上协议相同,1、2层协议不同可互联。 2.生成树网桥: 又叫透明网桥,IEEE802.1d,生成树算法。基本思想是在网桥之…

佛山顺德网站建设网站建设找哪个平台

原以为RT-DETR可以真的干翻YOLO家族,结果,!!!! 究竟能否让卷积神经网络重获新生? 1.数据准备 代码地址:https://github.com/WongKinYiu/yolov9 不能科学上网的评论区留言 数据集…

眼科医院网站开发策划纯静态网站怎么入侵

来源:easyExcel 使用指南详解 - 知乎 easyExcel简介 Java领域解析、生成Excel比较有名的框架有Apache poi、jxl等。但他们都存在一个严重的问题就是非常的耗内存。如果你的系统并发量不大的话可能还行,但是一旦并发上来后一定会OOM或者JVM频繁的full g…

做网站与数据库的关系网页设计定制代理

展开全部因为32313133353236313431303231363533e4b893e5b19e31333365633934mysql程序在启动的时候 非常依赖my.cnf里面的配置,而my.cnf文件中的配置,在执行mysql初始化的时候就可以手动指定。如果mysql不是使用yum安装,而是将mysql安装到自定…

音乐分享网站开发什么是wordpress响应式主题

阿里妹导读:你有没有遇到过这种情况:过几周或者几个月之后,再看到自己写的代码,感觉一团糟,不禁怀疑人生?我们每天都与代码打交道,但当被问道什么是好的代码时,很多人可能会先愣一下…

用于做网站的软件腾讯企业邮箱app下载

MR混合现实情景实训教学系统是一种将虚拟现实(VR)、增强现实(AR)相结合的先进技术。在法律教学课堂上,MR教学系统为学生模拟模拟法庭、案例分析等多种形式,让学生在实践中掌握法律知识,提高法律…

免费投资办厂长沙seo

From: http://canofy.iteye.com/blog/298263 python类型转换 Java代码 函数 描述 int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转换到一个浮点数 complex(real [,imag ]…

网站清除数据库抖音官网链接网站怎么做

文章目录 一、信息安全的基础-机密性1 相关概念2 对称加密和非对称加密 二、身份认证三 摘要算法四、数字签名五、数字证书结语 在支付过程中,设计多方的敏感信息,那么安全尤为重要。下面先简单介绍下,相关概念。 一、信息安全的基础-机密性 …

建设银行短信带网站北京高端网站建设费用

在产品管理的世界里,产品就像有生命的个体,经历着从诞生到消亡的过程。作为产品经理,深刻理解产品的四个生命周期 —— 引入期、成长期、成熟期和衰退期,是打造成功产品的关键。 引入期:破局的起点 对于 B 端产品而言&…

湖南长沙网站建设公司广州微信网站建设如何

Lobe Chat可以关联多个模型,可以调用外部OpenAI, gemini,通义千问等, 也可以关联内部本地大模型Ollama, 可以当作聊天对话框消息框来集成使用 安装方法参考: https://github.com/lobehub/lobe-chat https://lobehub.com/zh/docs/self-hosting/platform/…

做网站被骗该咋样做网络营销公

【题目描述】 用递归函数输出斐波那契数列第n项。0,1,1,2,3,5,8,13…… 【输入】 一个正整数n,表示第n项。 【输出】 第n项是多少。 【输入样例】 3 【输出样例】 1 代码实现 /*斐波那契*/ int fbnq(i…

甜品店网站开发背景网站的折线图怎么做

一、turtle库概述: turtle(海龟)库是turtle绘图体系python的实现; turtle绘图体系:1969年诞生,主要用于程序设计入门; turtle库是python的标准库之一;属于入门级的图形绘制函数库&am…

公司注册网站需要什么条件wordpress 主题使用教程

J2SE 5为Java编程语言引入了许多功能。 这些功能之一是自动装箱和拆箱 ,这是我几乎每天都没有考虑过的功能。 它通常很方便(尤其是与收藏夹一起使用时),但有时会导致一些令人讨厌的惊喜 ,即“ 怪异 ”和“ 疯狂” 。 在…

做网站加入视频无法播放百度平台营销软件

1丶问题描述 2丶解决方案 解决方案: 找到挂载到宿主机配置文件:gitlab.rb vi gitlab.rb 改成自己的ip 重启容器 docker restart gitlab 如果发现容器一直重启,可采用粗暴的方法,直接干掉当前容器,重新运行一个 …

房地产公司网站下载桂林市临桂区

目录 vector的使用 vector的定义 vector iterator的使用 vector空间增长问题 vector增删查改 vector深度剖析及模拟实现 vector核心接口模拟实现 使用memcpy拷贝问题 迭代器失效问题 vector的使用 vector的定义 C中,vector是一个模版,第一个参…

国学网站源码泰州网站建设工作

题目描述 公鸡五文钱一只,母鸡三文钱一只,小鸡一文钱三只,用m文钱买m只鸡,公鸡、母鸡、小鸡各买多少只? 输入 一个正整数m。 输出 若有解只输出一个解,即公鸡数量最少的那个解;若无解输出“No a…

网站建设的售后服务文化建设的例子

有的时候博客内容会有变动,首发博客是最新的,其他博客地址可能会未同步,认准https://blog.zysicyj.top 首发博客地址 安装插件 npm install hexo-include-markdown --save 创建模板目录 source/_template 创建模板 source/_template/tj.md 配置_config.y…

现在做网站开发长春网络公司排名

本文主要以python2为例。首先介绍一下Python头文件的编程风格,然后再给大家详细介绍import部分的基本用法。这两个部分就是Python中头文件的组成模块。编程风格#!/usr/bin/env python #在文件头部 ( 第一行 ) 加上 设置 Python 解释器 # -*- coding: utf-8 -*- #在文…

特微网站首页网络管理系统中管理对象

现在的情况是我扒到了一个开源的项目,现在想要实现一下前端对应的功能,后端是完备的,但是需要调用数据库将数据跑起来,这里可以使用到MySql数据库,这里我还发现了一个比较好用的软件小皮【phpStudy】 官网 一 安装软件…

微信网站推广蓝海国际版网站建设

英文原文:Books Programmers Claim to Have Read 马克吐温曾经说过,所谓经典小说,就是指很多人希望读过,但很少人真正花时间去读的小说。这种说法同样适用于“经典”的计算机书籍。 在 Stack Overflow (以及其它很多软件论坛)上&…