网站备案的链接如何创建电商平台

news/2025/10/6 22:19:22/文章来源:
网站备案的链接,如何创建电商平台,中国十大购物网站排行榜,网站 框架前言 这篇文章用于记录阿里天池 NLP 入门赛#xff0c;详细讲解了整个数据处理流程#xff0c;以及如何从零构建一个模型#xff0c;适合新手入门。 赛题以新闻数据为赛题数据#xff0c;数据集报名后可见并可下载。赛题数据为新闻文本#xff0c;并按照字符级别进行匿名…前言 这篇文章用于记录阿里天池 NLP 入门赛详细讲解了整个数据处理流程以及如何从零构建一个模型适合新手入门。 赛题以新闻数据为赛题数据数据集报名后可见并可下载。赛题数据为新闻文本并按照字符级别进行匿名处理。整合划分出14个候选分类类别财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。 赛题数据由以下几个部分构成训练集20w条样本测试集A包括5w条样本测试集B包括5w条样本。 比赛地址零基础入门NLP - 新闻文本分类_学习赛_天池大赛-阿里云天池的赛制 数据可以通过上面的链接下载。 其中还用到了训练好的词向量文件。 词向量下载链接: 百度网盘 请输入提取码 提取码: qbpr 这篇文章中使用的模型主要是CNN LSTM Attention主要学习的是数据处理的完整流程以及模型构建的完整流程。虽然还没有使用 Bert 等方案不过如果看完了这篇文章理解了整个流程之后即使你想要使用其他模型来处理也能更快实现。 1. 为什么写篇文章 首先这篇文章的代码全部都来源于 Datawhale 提供的开源代码我添加了自己的笔记帮助新手更好地理解这个代码。 1.1 Datawhale 提供的代码有哪些需要改进 Datawhale 提供的代码里包含了数据处理以及从 0 到 1模型建立的完整流程。但是和前面提供的 basesline 的都不太一样它包含了非常多数据处理的细节模型也是由 3 个部分构成所以看起来难度陡然上升。 其次代码里的注释非常少也没有讲解整个数据处理和网络的整体流程。这些对于新手来说增加了理解的门槛。 在数据竞赛方面我也是一个新人花了一天的时间仔细研究数据在一种每一个步骤的转化对于一些难以理解的代码在群里询问之后也得到了 Datawhale 成员的热心解答。最终才明白了全部的代码。 1.2 我做了什么改进 所以为了减少对于新手的阅读难度我添加了一些内容。 首先梳理了整个流程包括两大部分数据处理和模型。 因为代码不是从上到下顺序阅读的。因此更容易让人理解的做法是先从整体上给出宏观的数据转换流程图其中要包括数据在每一步的 shape以及包含的转换步骤让读者心中有一个框架图再带着这个框架图去看细节会更加了然于胸。 其次除了了解了整体流程在真正的代码细节里读者可能还是会看不懂某一段小逻辑。因此我在原有代码的基础之上增添了许多注释以降低代码的理解门槛。 2. 数据处理 2.1 数据拆分为 10 份 数据首先会经过all_data2fold函数这个函数的作用是把原始的 DataFrame 数据转换为一个list有 10 个元素表示交叉验证里的 10 份每个元素是 dict每个dict包括 label 和 text。 首先根据 label 来划分数据行所在 index, 生成 label2id。 label2id 是一个 dictkey 为 labelvalue 是一个 list存储的是该类对应的 index。 ​然后根据label2id把每一类别的数据划分到 10 份数据中。​![](https://image.zhangxiann.com/数据处理.gif)​最终得到的数据fold_data是一个list有 10 个元素每个元素是 dict包括 label 和 text的列表[{labels:textx}, {labels:textx}. . .]。最后把前 9 份数据作为训练集train_data最后一份数据作为验证集dev_data并读取测试集test_data。 2.2 定义并创建 Vacab Vocab 的作用是 创建 词 和 index 对应的字典这里包括 2 份字典分别是_id2word 和 _id2extword。 其中 _id2word 是从新闻得到的 把词频小于 5 的词替换为了 UNK。对应到模型输入的 batch_inputs1。 _id2extword 是从 word2vec.txt 中得到的有 5976 个词。对应到模型输入的 batch_inputs2。 后面会有两个 embedding 层其中 _id2word 对应的 embedding 是可学习的_id2extword 对应的 embedding 是从文件中加载的是固定的。 创建 label 和 index 对应的字典。 上面这些字典都是基于train_data创建的。 3. 模型 3.1 把文章分割为句子 上上一步得到的 3 个数据都是一个listlist里的每个元素是 dict每个 dict 包括 label 和 text。这 3 个数据会经过 get_examples函数。 get_examples函数里会调用sentence_split函数把每一篇文章分割成为句子。 然后根据vocab把 word 转换为对应的索引这里使用了 2 个字典转换为 2 份索引分别是word_ids和extword_ids。最后返回的数据是一个 list每个元素是一个 tuple: (label, 句子数量doc)。其中doc又是一个 list每个 元素是一个 tuple: (句子长度word_ids, extword_ids)。 ​在迭代训练时调用data_iter函数生成每一批的batch_data。在data_iter函数里会调用batch_slice函数生成每一个batch。拿到batch_data后每个数据的格式仍然是上图中所示的格式下面调用batch2tensor函数。 3.2 生成训练数据 batch2tensor函数最后返回的数据是(batch_inputs1, batch_inputs2, batch_masks), batch_labels。形状都是(batch_size, doc_len, sent_len)。doc_len表示每篇新闻有几句话sent_len表示每句话有多少个单词。 batch_masks在有单词的位置值为1其他地方为 0用于后面计算 Attention把那些没有单词的位置的 attention 改为 0。 batch_inputs1, batch_inputs2, batch_masks形状是(batch_size, doc_len, sent_len)转换为(batch_size * doc_len, sent_len)。 3.3 网络部分 下面终于来到网络部分。模型结构图如下 3.3.1 WordCNNEncoder WordCNNEncoder 网络结构示意图如下​ 1. Embedding batch_inputs1, batch_inputs2都输入到WordCNNEncoder。WordCNNEncoder包括两个embedding层分别对应batch_inputs1embedding 层是可学习的得到word_embedbatch_inputs2读取的是外部训练好的词向量因此是不可学习的得到extword_embed。所以会分别得到两个词向量将 2 个词向量相加得到最终的词向量batch_embed形状是(batch_size * doc_len, sent_len, 100)然后添加一个维度变为(batch_size * doc_len, 1, sent_len, 100)对应 Pytorch 里图像的(B, C, H, W)。 2. CNN 然后分别定义 3 个卷积核output channel 都是 100 维。 第一个卷积核大小为[2,100]得到的输出是(batch_size * doc_len, 100 sent_len-21, 1)定义一个池化层大小为[sent_len-21, 1]最终得到输出经过squeeze()的形状是(batch_size * doc_len, 100)。 同理第 2 个卷积核大小为[3,100]第 3 个卷积核大小为[4,100]。卷积池化得到的输出形状也是(batch_size * doc_len, 100)。 最后将这 3 个向量在第 2 个维度上做拼接得到输出的形状是(batch_size * doc_len, 300)。 3.3.2 shape 转换 把上一步得到的数据的形状转换为(batch_size , doc_len, 300)名字是sent_reps。然后对mask进行处理。 batch_masks的形状是(batch_size , doc_len, 300)表示单词的 mask经过sent_masks batch_masks.bool().any(2).float()得到句子的 mask。含义是在最后一个维度判断是否有单词只要有 1 个单词那么整句话的 mask 就是 1sent_masks的维度是(batch_size , doc_len)。 3.3.3 SentEncoder SentEncoder 网络结构示意图如下 ​SentEncoder包含了 2 层的双向 LSTM输入数据sent_reps的形状是(batch_size , doc_len, 300)LSTM 的 hidden_size 为 256由于是双向的经过 LSTM 后的数据维度是(batch_size , doc_len, 512)然后和 mask 按位置相乘把没有单词的句子的位置改为 0最后输出的数据sent_hiddens维度依然是(batch_size , doc_len, 512)。 3.3.4 Attention 接着经过Attention。Attention的输入是sent_hiddens和sent_masks。在Attention里sent_hiddens首先经过线性变化得到key维度不变依然是(batch_size , doc_len, 512)。 然后key和query相乘得到outputs。query的维度是512因此output的维度是(batch_size , doc_len)这个就是我们需要的attention表示分配到每个句子的权重。下一步需要对这个attetion做softmax并使用sent_masks把没有单词的句子的权重置为-1e32得到masked_attn_scores。 最后把masked_attn_scores和key相乘得到batch_outputs形状是(batch_size, 512)。 3.3.5 FC 最后经过FC层得到分类概率的向量。 4. 完整代码注释 4.1 数据处理 导入包 import random ​ import numpy as np import torch import logging logging.basicConfig(levellogging.INFO, format%(asctime)-15s %(levelname)s: %(message)s) 查看本文全部内容欢迎访问天池技术圈官方地址【详细注释流程讲解】基于深度学习的文本分类 TextCNN_天池技术圈-阿里云天池 ​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929762.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jsp网站开发视频教程关键词网站排名软件

来源:中国科学报去年,当一颗美式足球场大小的雪茄形天体Oumuamua进入太阳系时,它并非仅仅让人们第一次看到了一块星际岩石。根据一项新的研究,这也支持了太空岩石通过在遥远的恒星系统之间运送微生物,从而在星际间传播…

Road Trip of the National Day holiday

During the National Day holiday, I went on a road trip with my wife to western Sichuan. We started from Chengdu and passed through Yaan and Luding. On the first day, we visted the "Red Army Flying…

selenium基础 - 教程

selenium基础 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "…

贵阳网站建设公企业型网站

前言 在之前的博客中: 1.Surface Web —> Deep Web —> Dark Web,我们解释了表层网络、深层网络等的相关概念; 2.Tor浏览器——层层剥开洋葱,我们阐述了Tor的历史和基本工作原理; 3.Tor浏览器…

详细介绍:20250602在荣品的PRO-RK3566开发板的Android13下的uboot启动阶段配置BOOTDELAY为10s

详细介绍:20250602在荣品的PRO-RK3566开发板的Android13下的uboot启动阶段配置BOOTDELAY为10s2025-10-06 22:08 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !impo…

兰州网站seo收费交友视频网站建设

61、在Word 2003中,下列关于查找操作的叙述,正确的是 。A、使用查找命令时,可以区分全角和半角字符,但不能区分大小写B、不支持用通配符来描述查找内容C、查找时只能从文档开始处进行D、除了可以按文字的内容进行查找,…

济南海绵城市建设官方网站网络购物消费者行为论文

原创:项道德(daode3056,daode1212) 在量子力学中,许多现象都是统计的结果,基本上用的是正态分布,然而,从本质上思考,应该还存在低阶的分布,标准的正态分布是它的极限,这样一来,或许在…

完整教程:基于单片机的FFT的频谱分析仪设计

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

费马小定理的证明

费马小定理:若 \(p\) 为质数,则 \(x^{p}\equiv x(\text{mod}\ p)\)。特别地,若 \(p\not\mid x\),则 \(x^{p-1}\equiv 1(\text{mod}\ p)\)。 首先,若 \(p\mid x\),则 \(x\equiv 0(\text{mod}\ p)\Leftrightarrow …

中国建设银行员工学习网站网站设计培训

📕作者简介:热编程的贝贝,致力于C/C、Java、Python等多编程语言,热爱跑步健身,喜爱音乐的一位博主。 📗本文收录于贝贝的日常汇报系列,大家有兴趣的可以看一看 📘相关专栏深度学习、…

深入解析:生成https 证书步骤

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

自己网站联系电话修改怎么做网站制作与网站建设

建造者模式(Builder Pattern)使用多个简单的对象一步一步构建成一个复杂的对象。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 一个 Builder 类会一步一步构造最终的对象。该 Builder 类是独立于其他对象的。 代码实…

校园学生网站开发自己如何建设微信网站

背景 阿里云API网关服务提供API托管服务,提供了强大的适配和集成能力,可以将各种不同的业务系统API实现统一管理。API网关同时支持将API访问日志一键存储到日志服务,通过日志服务强大的查询分析能力,用户可以针对访问日志自定义计…

做外贸怎样浏览国外网站有没有在网上做ps赚钱的网站

职业高中毕业的自我鉴定范文300字自我鉴定就是把一个时段的个人情况进行一次全面系统的总结,自我鉴定可以让我们对自己有个正确的认知,不如立即行动起来写一份自我鉴定吧。我们该怎么去写自我鉴定呢?下面是小编精心整理的职业高中毕业的自我鉴…

如何建立内部网站网站建设的威胁

1. 🌈题目详情 1.1 ⚠️题目 给出一个二叉树如下图所示: 请由该二叉树生成一个新的二叉树,它满足其树中的每个节点将包含原始树中的左子树和右子树的和。 左子树表示该节点左侧叶子节点为根节点的一颗新树;右子树表示该节点右侧叶子节点为根节点的一颗新树。 1.2 �…

北京建网站公司推荐西宁高端企业网站建设

find_vma函数功能描述:find_vma( )函数根据一个属于某个进程的虚拟地址,找到其所属的进程虚拟区间,并返回相应的vma_area_struct结构体指针。find_vma文件包含#includefind_vma函数定义在内核源码中的位置:linux-3.19.3/mm/mmap.c…

PTA-根据已有类Worker,利用LinkedList编写一个WorkerList类,完成计算所有工人总工资的功能

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

威尔逊定理的证明

威尔逊定理: 首先,对于 \(p = 2\),显然成立。 若 \(p \not= 2\),我们考虑一个 \(x\) 在模 \(p\) 意义下的逆元若是他自己,则 \(x^2\equiv 1(\text{mod}\ p)\)。 \(x\equiv 1\) 或 \(p - 1(\text{mod}\ p)\)。 而且…

网站开发好学嘛哪里有网站推广软件

来源:机器之心摘要:AI 迎来另一寒冬?这是 2018 年下半年至今我们一直能听到的一种声音。这类唱衰的文章一经发布,总是能博人眼球。这篇发表在 Medium 上的文章探讨了 AI 的历史和现在,泛谈了深度学习的局限性&#xff…

实用指南:HTML实现端午节主题网站:龙舟争渡,凭吊祭江诵君赋

实用指南:HTML实现端午节主题网站:龙舟争渡,凭吊祭江诵君赋pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Con…