招聘网站开发程序员做国外订单的网站

news/2025/9/26 11:27:24/文章来源:
招聘网站开发程序员,做国外订单的网站,珠宝网站建商台北,做运营常用的网站环境 Python3#xff0c; gensim#xff0c;jieba#xff0c;numpy #xff0c;pandas 原理#xff1a;文章转成向量#xff0c;然后在计算两个向量的余弦值。 Gensim gensim是一个python的自然语言处理库#xff0c;能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模…环境 Python3 gensimjiebanumpy pandas 原理文章转成向量然后在计算两个向量的余弦值。 Gensim gensim是一个python的自然语言处理库能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式gensim还实现了word2vec功能以便进行进一步的处理。 中文分词 中文需要分词英文就不需要了分词用的 jieba 。 def segment(doc: str): 中文分词 Arguments: doc {str} -- 输入文本 Returns: [type] -- [description]# 停用词 stop_words pd.read_csv(./data/stopwords_TUH.txt, index_colFalse, quoting3, names[stopword], sep\n, encodingutf-8) stop_words list(stop_words.stopword) # 去掉html标签数字等 reg_html re.compile(r[^], re.S) doc reg_html.sub(, doc) doc re.sub([-], , doc) doc re.sub(\s, , doc) word_list list(jieba.cut(doc)) out_str for word in word_list: if word not in stop_words: out_str word out_str segments out_str.split(sep ) return segments 训练 Doc2Vec 模型 模型参数下面说明先上代码 def train(): 训练 Doc2Vec 模型# 先把所有文档的路径存进一个 array中docLabels data_dir ./data/corpus_words docLabels [f for f in listdir(data_dir) if f.endswith(.txt)] data [] for doc in docLabels: ws open(data_dir / doc, r, encodingUTF-8).read() data.append(ws) print(len(data)) # 训练 Doc2Vec并保存模型 sentences LabeledLineSentence(data, docLabels) # 实例化一个模型 model gensim.models.Doc2Vec(vector_size256, window10, min_count5, workers4, alpha0.025, min_alpha0.025, epochs12) model.build_vocab(sentences) print(开始训练...) # 训练模型 model.train(sentences, total_examplesmodel.corpus_count, epochs12) model.save(./models/doc2vec.model) print(model saved) 保存成功后会有三个文件分别是doc2vec.modeldoc2vec.model.trainables.syn1neg.npydoc2vec.model.wv.vectors.npy Doc2Vec参数说明 · vector_size是指特征向量的维度默认为100。大的size需要更多的训练数据,但是效果会更好. · window表示当前词与预测词在一个句子中的最大距离是多少 · alpha: 是学习速率 · min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5 · workers参数控制训练的并行数。 · epochs 迭代次数默认为5 文本转换成向量 利用之前保存的模型把分词后的分本转成向量代码如下 def sent2vec(model, words): 文本转换成向量 Arguments: model {[type]} -- Doc2Vec 模型 words {[type]} -- 分词后的文本 Returns: [type] -- 向量数组vect_list [] for w in words: try: vect_list.append(model.wv[w]) except: continue vect_list np.array(vect_list) vect vect_list.sum(axis0) return vect / np.sqrt((vect ** 2).sum()) 计算两个向量余弦值 余弦相似度又称为余弦相似性是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值绘制到向量空间中如最常见的二维空间。 余弦值的范围在[-1,1]之间值越趋近于1代表两个向量的方向越接近越趋近于-1他们的方向越相反接近于0表示两个向量近乎于正交。 最常见的应用就是计算文本相似度。将两个文本根据他们词建立两个向量计算这两个向量的余弦值就可以知道两个文本在统计学方法中他们的相似度情况。实践证明这是一个非常有效的方法。 公式 def similarity(a_vect, b_vect): 计算两个向量余弦值 Arguments: a_vect {[type]} -- a 向量 b_vect {[type]} -- b 向量 Returns: [type] -- [description]dot_val 0.0 a_norm 0.0 b_norm 0.0 cos None for a, b in zip(a_vect, b_vect): dot_val a*b a_norm a**2 b_norm b**2 if a_norm 0.0 or b_norm 0.0: cos -1 else: cos dot_val / ((a_norm*b_norm)**0.5) return cos 预测 def test_model(): print(load model) model gensim.models.Doc2Vec.load(‘./models/doc2vec.model‘) st1 open(./data/courpus_test/t1.txt, r, encodingUTF-8).read() st2 open(./data/courpus_test/t2.txt, r, encodingUTF-8).read() # 分词 print(segment) st1 segment(st1) st2 segment(st2) # 转成句子向量 vect1 sent2vec(model, st1) vect2 sent2vec(model, st2) # 查看变量占用空间大小 import sys print(sys.getsizeof(vect1)) print(sys.getsizeof(vect2)) cos similarity(vect1, vect2) print(相似度{:.4f}.format(cos)) 看下效果 完全相同的文章不相同的文章数据太大没有上传自己网上找找应该有很多。 参考 原文地址https://www.cnblogs.com/JreeyQi/p/9042397.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/918182.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛客刷题-Day5

动态规划1:线性dp、背包问题,区间 https://ac.nowcoder.com/acm/contest/24213?from=acdiscussn牛客刷题-Day5 今日刷题:\(1021-1025\) 1021 失衡天平 题目描述 终于 \(Alice\) 走出了大魔王的陷阱,可是现在傻傻的…

详细介绍:四大金刚之计算机网络

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

用标准版平板干翻上代Pro,小米又想学苹果了?

9月20日,小米合伙人卢伟冰在直播中揭晓了小米平板8系列的完整配置。 从整体配置到系列产品来看,小米平板8的发布再次印证了小米的产品策略:用标准版打上代Pro。 这熟悉的配方,熟悉的味道,不禁让人想起了大洋彼岸的…

VonaJS多租户同时支持共享模式和独立模式

VonaJS 通过多实例的概念来支持多租户 SAAS 系统的开发。只需启动一个后端服务,即可支持多个实例同时运行。同时支持共享模式和独立模式。多实例/多租户 VonaJS 通过多实例的概念来支持多租户 SAAS 系统的开发。只需启…

记录一下第一次为Dify贡献插件的经历

最近Dify上线了一个新功能——知识管道(Knowledge Pipeline)。知识管道可以像乐高一样编排你的信息,以数据源(Data Source)作为起始节点,以知识库节点作为结束节点。其一般步骤为:从数据源导入文档 -> 使用抽…

免费自媒体网站有创意的设计公司名称

1. 使用 systemd 服务设置开机自启动 假设已经有一个可执行的python程序,然后用一个sh脚本去启动python程序,正常情况使用挂起的方式nohup启动,日志输出到指定文件: sudo touch run.sh sudo chmod 777 run.shsh文件内容如下&…

物联网字节校验常用方法

① 校验和(Checksum)原理:把所有字节加起来(可能取低 8 位 / 16 位),作为校验值。 优点:实现极其简单,计算快,资源消耗小。 缺点:检测能力有限(部分错误无法发现,例如两个字节互换位置)。 应用场景:早期…

实用指南:RabbitMQ 核心组件详解与持久化日志队列实现方案

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

实用指南:【C语言】统计二进制中1的个数:三种方法的比较与分析

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Visual Prompt Builder-AI 提示词可视化工具 - 详解

Visual Prompt Builder-AI 提示词可视化工具 - 详解2025-09-26 11:18 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; disp…

STM32H743-ARM例程2-UART命令控制LED - 实践

STM32H743-ARM例程2-UART命令控制LED - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &quo…

大连做网站哪家便宜深圳市龙华区房价

作者:激越王预估稿费:400RMB投稿方式:发送邮件至linwei#360.cn,或登陆网页版在线投稿你是否听说过xml注入攻击呢,或者对它只知其一不知其二呢?现在让我们从xml相关基础知识开始,一步步了解xml攻…

建设科技处网站wordpress wap

目录 说明批量zip2pdf批量zip2pdf下载SS号重命名源代码SS号重命名源代码下载附录,水文年鉴 说明 1、zip2pdf是一个开源软件,支持自动化解压压缩包成PDG,PDG合成PDF,笔者在其基础上做了部分修改,支持批量转换。 2、秒…

提供做网站公司wordpress开启多站点

我们组件中 会有很多通用的信息和方法 那么 首先 我们看通用事件 通用事件中 最常用的就是我们的点击事件 比如说 我们之前常写的 组件.onClick(()>{//事件逻辑 })但是 我们之前 都没有用它接参数 我们可以这样 Button("跳转").onClick((ewat: ClickEvent)>…

网站建设html代码邢台信息港二手房出售

1.简介 双指针技巧是一种常见的算法解题方法,通过使用两个指针在数据结构上同时移动,可以解决多种问题。这种技巧通常适用于数组、字符串和链表等数据结构,下面我将详细介绍双指针技巧的特点和应用场景: 特点: 快慢…

完整教程:Zookeeper与Kafka:分布式系统中的协调与消息队列

完整教程:Zookeeper与Kafka:分布式系统中的协调与消息队列pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Conso…

vite-vue3 项目优化首屏加载速度

A嵌入B,B加载速度太慢了,需要4s+,需优化: B系统技术栈: vue3 + vite 优化结果如下,上下对比还有有差距的:一、先处理: 首屏加载的文件——先优化文件大 step1: 安装可视化插件 rollup-plugin-visualizer; vi…

深入解析:小九源码-springboot050-基于spring boot的苏蔚家校互联管理系统

深入解析:小九源码-springboot050-基于spring boot的苏蔚家校互联管理系统pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-famil…

建设自己公司的网站公司网站本地如何弄

目录 前言 一、Mybatis-Plus 开启日志的方式 二、测试 三、日志分析 章末 前言 小伙伴们大家好,相信大家平时在处理问题时都有各自的方式,最常用以及最好用的感觉还是断点调试,但是涉及到操作数据库的执行时,默认的话在控制台…

12_TCP和UDP实现服务端和客户端的通信

一、TCP实现多进程通信 server_process.c 服务端代码: #define _XOPEN_SOURCE #include <stdio.h> #include <arpa/inet.h> #include <unistd.h> #include <string.h> #include <stdlib.h…