3.5-RNN文本生成

1语言模型生成文本的顺序

  1. 前面我们已经能够实现使用下图的LSTM网络进行语言建模;

    在这里插入图片描述

  2. 对于一个已经在语料库上学习好的LSTM模型;如果语料库就只是you say goobye and i say hello;那么当把单词i输入到模型中,Time xxx层的第一个LSTM层将会输出一个概率分布,这个概率分布中概率最大的那个对应的单词应该是say;如下图所示;

    在这里插入图片描述

  3. 上图的情况是按照选择概率最大的那个作为当前输出的文本的;因此可以说是“确定的”,只要模型训练的好,他都会倾向于输出那些准确的单词;

  4. 那么我们就可以接着以这个层的输出的单词作为下一个时刻的输入,输出下一个时刻的概率分布,然后选择概率最大的,如下图所示;以此类推,就可以一直输出下去;我们可以人为控制什么时候停止,也可以设定当模型输出的下一个单词是特殊结束符号标记的时候就终止;如果模型训练的好,模型觉得要说完了,就会输出一个特殊结束符号标记,从而自动停止;

    在这里插入图片描述

  5. 另一种方法是以这个概率分布作为准则,随机的从词库中选择单词;就是之前说的np.choice方法;这样一来:

    1. 因为具有随机性,因此被选到的单词(被采样到的单词)每次都不一样
    2. 但是选到的单词又具有倾向性,即概率高的单词容易被选到,概率低的单词难以被选到。
  6. 这种引入随机性的方法,可以让模型生成训练数据中没有的文本,即新的文本;不过构成这些新文本的单词依然是那么些个单词,毕竟训练集里面只有这些单词;

2使用改进前的LSTM语言模型尝试生成文本

  1. 这里使用的是未改进的LSTMLM模型;且不使用训练好的权重;只是看一下生成的过程;
  2. 代码位于:RNN_generate/RNNLM_gen.py · GY/basicNLP - 码云 - 开源中国 (gitee.com);
  1. 生成的过程可以描述为:

    1. 给初始的单词,reshape之后输入到模型中;
    2. 由于Time xxx层是权重共享的,因此可以根据输入的数据的维度调整T值;
    3. 那么这里每次都输入一个单词,用上图中不带Time的层来输出一个概率分布;
    4. 以一定概率选择要预测的单词,然后将这个单词再次作为输入,输入到上图中不带Time的层,再输出一个概率分布;以此类推;直到全部输出完;
  2. 这里直接继承了未改进的Rnnlm类,然后实现了生成函数;生成函数代码如下:

    1. model 的 predict() 方法进行的是 mini-batch 处理,所以输入 x 必须是二维数组。因此,即使在只输入 1 个单词 ID 的情况下,也要将它的批大小视为 1,并将其整理成形状为 1 × 1 的 NumPy 数组
    class RnnlmGen(Rnnlm):def generate(self, start_id, skip_ids=None, sample_size=100):'''@param start_id: 第一个单词的ID@param skip_ids: 不生成的ID;用于排除一些填充符之类的@param sample_size: 生成的长度@return:生成的文本'''word_ids = [start_id]x = start_idwhile len(word_ids) < sample_size:# x = np.array(x).reshape(1, 1)if GPU:x = cupy.array(x).reshape(1, 1)else:x = np.array(x).reshape(1, 1)score = self.predict(x) # (N,T,V);这里是(1,1,10000)p = softmax(score.flatten()) # score.flatten()展平成一维的;softmax函数中设置了一维的计算方式if GPU:sampled = cupy.random.choice(len(p), size=1, p=p)else:sampled = np.random.choice(len(p), size=1, p=p)if (skip_ids is None) or (sampled not in skip_ids):x = sampledword_ids.append(int(x[0]))return word_ids
    
  3. 以下是生成文本;因为没有训练,所以杂乱无序;

    you fired designing indianapolis counsel calgary readers reviewed wright shouting underlying
    existing agip frankfurt depress interstate steelmakers natural weeks begins gatt stiff delivering 
    telesis grounds boards stream louisiana breed sample indexing acquiring commentary hired al 
    philip blast helping dictaphone attention confusion auditors beaten arbitrage ii scholars 
    forecasting monopolies burke fit spacecraft takeover-stock engineering aftershocks arise shipbuilding 
    minivans along recalls bone recreational year may disappears sixth motivated monitors understanding 
    swing previously coupon expects difference plo remain attendants sullivan kansas peninsula patent 
    skeptical fields galileo blackstone battered steps anger fusion mandatory mca trains postal 
    forest-products scrapped faa censorship tea building tests milton
    

3使用改进后的LSTM语言模型尝试生成文本

  1. 这里使用之前训练好的权重;权重位于:BetterRnnlm.pkl · GY/basicNLP - 码云 - 开源中国 (gitee.com);

  2. 代码位于:RNN_generate/betterRNNLM_gen.py · GY/basicNLP - 码云 - 开源中国 (gitee.com);

  3. 还演示了给模型一句话或者一句话开头几个单词,然后让其续写的方法;

    1. 代码位于:RNN_generate/betterRNNLM_gen_better_text.py · GY/basicNLP - 码云 - 开源中国 (gitee.com);
  1. 这里的改进即前面说的LSTM多层化、embedding层和Affine层的权重共享,以及在纵向上加入dropout层;

  2. 继承了BetterRnnlm类,然后实现generate函数;这个generate函数与2使用改进前的LSTM语言模型尝试生成文本小节的generate函数一样;

  3. 以下是生成的结果:

    1. 可以看到,训练好的模型生成的文本流畅多了;
    you said.
    in the event of falling environmental prices and the rapid growth of revenues rate for the third quarter abc has up from almost every time says frozen president of fox 's pro conn.
    i obtained a courthouse for other new york series on its job virginia to do with mr. spielvogel and the task and the merged bank business.
    according to the usx spokesman bernard and other major investors have declined to support this profit from personal management.
    delmed.
    the matter was held by berry 's family in five years.
    mr. nadeau
    
  4. 目前为止我们只是给模型第一个单词,然后让模型预测之后的单词;那么如果我们希望给模型一句话或者一句话开头几个单词,然后让其续写呢?

  5. 方法是:先将前几个单词依次输入到模型中;这样在LSTM层进行计算时会将隐藏状态保存在类的成员变量self.h中;但是要记得设置stateful=True,这样才能继承前面计算的隐藏状态;

  6. 之后,再将最后一个单词输入到模型中,依次获取模型输出即可;

  7. 核心代码如下:

    if __name__ == '__main__':start_words = 'the meaning of life is'start_ids = [word_to_id[w] for w in start_words.split(' ')]for x in start_ids[:-1]:if GPU:x = cupy.array(x).reshape(1, 1)else:x = np.array(x).reshape(1, 1)model.predict(x)# 文本生成word_ids = model.generate(start_ids[-1], skip_ids)txt = ' '.join([id_to_word[i] for i in word_ids])txt = txt.replace(' <eos>', '.\n')print(txt)
    
  8. 以下是一次输出的文本:

    the meaning of life is not a nightmare in many of the newspapers.
    the solution will be shipped although washington 's future is n't likely to adopt the first changes in the world.
    our state bailout is very large payments he says.
    on the in the corporate market the analyst said the arrest by the new york borough president had arranged less than one million shares in the event.
    and by selling their stake in rico the public home short-term market system is a one-time candidate for an investment bank.
    it 's time to worry that customers will need
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/50710.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苍穹外卖01

0. 配置maven (仅一次的操作 1.项目导入idea 2. 保证nginx服务器运行 &#xff08;nginx.exe要在非中文的目录下&#xff09; 开启服务&#xff1a; start nginx 查看任务进程是否存在&#xff1a; tasklist /fi "imagename eq nginx.exe" 关闭ngi…

查看、指定使用的 GPU 数量和编号

在使用 PyTorch 框架时&#xff0c;可以通过以下步骤查看可用的 GPU 数量&#xff0c;指定使用的 GPU 编号&#xff0c;并在代码中体现这一点。下面以2个GPU为例&#xff1a; 目录 一、脚本代码块实现1. 查看可用的 GPU2. 指定使用 GPU 的数量和编号使用 CUDA_VISIBLE_DEVICES…

中文之美,美在辞藻富丽,也美在情感含蓄内敛。

文章目录 引言句句不提幸福,句句都是幸福句句不提释怀,句句都是释怀句句不提爱意,句句都是爱意句句不提安慰,句句都是安慰句句不提遗憾,句句都是遗憾句句不提思念,句句都是思念引言 许多句子没有将主题直抒胸臆,却通过字词间的呼应、碰撞,让人感受到“言未表而意无穷”…

第12章 Express的RESTful API开发(二)

3. 路由与中间件 在Express中&#xff0c;路由用于定义应用的各个端点&#xff08;URI&#xff09;及其处理程序。中间件是一个可以访问请求对象&#xff08;req&#xff09;、响应对象&#xff08;res&#xff09;和下一个中间件函数的函数。中间件用于处理请求之前执行一些操…

java高级——Exception异常类基本解读

java高级——Exception异常类基本解读 前情提要文章介绍继承结构异常详解1. 异常的定义2. 异常的分类3.3 异常的处理机制3.3.1 try catch finally语句3.3.2 throw关键字3.3.3 throws关键字 4. 浅谈如何有效的避免异常的发生5. 自定义异常6. 常见的RuntimeException 总结 前情提…

JDBC(Java访问数据库)

Java Database Connectivity&#xff1a;Java访问数据库的解决方案 JDBC定义了一套标准接口&#xff0c;即访问数据库的通用API&#xff0c; 不同的数据库厂商根据各自数据库的特点去实现这些接口。 JDBC希望用相同的方式访问不同的数据库&#xff0c;让具体的数据库操作与数…

HDU1056——HangOver,HDU1057——A New Growth Industry,HDU1058——Humble Numbers

目录 HDU1056——HangOver 题目描述 运行代码 代码思路 HDU1057——A New Growth Industry 题目描述 运行代码 代码思路 HDU1058——Humble Numbers 题目描述 运行代码 代码思路 HDU1056——HangOver 题目描述 Problem - 1056 运行代码 #include <iostream&…

Elasticsearch面试三道题

针对Elasticsearch的面试题&#xff0c;从简单到困难&#xff0c;我可以给出以下三道题目&#xff1a; 1. Elasticsearch的基本概念与优势 问题&#xff1a;请简要介绍Elasticsearch是什么&#xff0c;并说明它相比传统数据库的优势有哪些&#xff1f; 答案&#xff1a; El…

数学建模--整数规划和非线性规划

目录 整数规划 非线性规划 总结 整数规划中分支定界法的具体步骤和实现细节是什么&#xff1f; 初始化&#xff1a; 分支&#xff1a; 定界&#xff1a; 剪枝&#xff1a; 终止条件&#xff1a; 非线性规划中的梯度法、牛顿法和拟牛顿法的比较分析有哪些&#xff1f;…

php判断某个目录下是否存在文件

/*** 判断字符串是否以什么结尾* param String $haystack 字符串* param String $needle 结尾* return Boolean*/ function endWith($haystack, $needle) {$length strlen($needle);if ($length 0) {return true;}return (substr($haystack, -$length) $needle); } /***…

Prometheus 监控 RabbitMQ

1. 安装 RabbitMQ Exporter RabbitMQ Exporter 是连接 RabbitMQ 和 Prometheus 的桥梁,它从 RabbitMQ 收集指标并以 Prometheus 可以理解的格式暴露这些指标。 1.1 下载 RabbitMQ Exporter wget https://github.com/kbudde/rabbitmq_exporter/releases/download/v0.20.0/ra…

前端面试题每日一学_1

今日一问&#xff1a; 下面的JS代码中&#xff0c;执行结果为object的选项是 () A、typeof []; B、typeof {}; C、typeof null; D、typeof undefined;​ 答案和解析可在文章底部查看。 今日面试题&#xff1a; 1、前端SEO优化的方法有哪些&#xff1f; ① 设置合理准确的t…

拉提查合创5步玩转git工具协作代码开发

1 工具使用场景 开发团队使用git版本管理工具&#xff0c;进行协作代码开发过程中&#xff0c;最常用的场景为&#xff1a; &#xff08;1&#xff09;拉取代码 将git远端仓库最新代码拉取到本地。 &#xff08;2&#xff09;提交代码 将本地新增修改的代码提交至git远端仓库中…

【SpringBoot】2 项目搭建

创建项目 1&#xff09;确实本地 jdk 版本 打开命令行窗口&#xff1a;快捷键 Windows R&#xff0c;输入 CMD&#xff0c;敲回车 执行命令&#xff1a;java -version 2&#xff09;在项目 clone 的位置创建 Spring Boot 项目&#xff0c;使用 Maven 进行依赖管理&#xff…

大模型学习(1)

初学者&#xff0c;仅做自己学习记录&#xff0c;如果对你有什么帮助&#xff0c;那更好了。 下面是论文《Attention Is All You Need》的经典transformer架构&#xff0c;在学习的过程中&#xff0c;有很多疑惑。 embedding层在做什么 Transformer的embedding层在做的是将输…

35.【C语言】详解函数递归

目录&#xff1a; 定义 作用 例子1~3 拓展学习 趣味练习 1.定义&#xff1a;函数自己调用自己&#xff08;递推回归&#xff09; int main() {main()return 0; } 这样容易死循环&#xff0c;导致爆栈(Stack Overflow) 所以需要设立限制条件&#xff0c;使执行时越来越接近条…

02 Golang面向对象编程_20240727 课程笔记

视频课程 最近发现越来越多的公司在用Golang了&#xff0c;所以精心整理了一套视频教程给大家&#xff0c;这个是其中的第二部&#xff0c;后续还会有很多。 视频已经录制完成&#xff0c;完整目录截图如下&#xff1a; 课程目录 01 结构体的声明.mp402 使用var根据结构体…

iOS基础---多线程:GCD、NSThread、NSOperation

系列文章目录 iOS基础—多线程&#xff1a;GCD、NSThread、NSOperation 文章目录 系列文章目录一、GCD1.GCD的任务、函数、队列a.任务b.函数c.队列 2.GCD的使用a.同步函数并发队列b.异步函数并发队列c.同步函数串行队列d.异步函数串行队列e.同步函数主队列f.异步函数主队列 3.…

JavaScript 运算符优先级值表格

JavaScript 运算符优先级值 值 运算符 描述 实例 20 ( ) 表达式分组 (3 4) 19 . 成员 person.name 19 [] 成员 person["name"] 19 () 函数调用 myFunction() 19 new 创建 new Date() 17 后缀递增 i 17 -- 后缀递减 …

FastAPI(七十五)实战开发《在线课程学习系统》接口开发-- 创建课程

源码见&#xff1a;"fastapi_study_road-learning_system_online_courses: fastapi框架实战之--在线课程学习系统" 上次我们分享了&#xff0c;FastAPI&#xff08;七十四&#xff09;实战开发《在线课程学习系统》接口开发-- 删除留言 从本篇文章开始&#xff0c;…