网站的建设费用分为青岛做公司网站

web/2025/10/3 21:22:49/文章来源:
网站的建设费用分为,青岛做公司网站,如何注册一个建筑公司,长沙有什么好玩的水上乐园近似训练 近似训练#xff08;Approximate Training#xff09;是指在机器学习中使用近似的方法来训练模型#xff0c;以降低计算复杂度或提高训练效率。这种方法通常用于处理大规模数据集或复杂模型#xff0c;其中精确的训练算法可能过于耗时或计算资源不足。 近似训练…近似训练 近似训练Approximate Training是指在机器学习中使用近似的方法来训练模型以降低计算复杂度或提高训练效率。这种方法通常用于处理大规模数据集或复杂模型其中精确的训练算法可能过于耗时或计算资源不足。 近似训练的主要思想是通过在训练过程中引入一些近似技巧或近似算法以在准确性和效率之间取得平衡。以下是一些常见的近似训练方法 随机采样在训练过程中通过从数据集中随机采样一部分样本来训练模型而不是使用完整的数据集。这种方法可以提高训练速度但可能会引入一定的估计误差。 小批量训练将数据集划分为小批量mini-batch每次使用一个小批量的样本进行梯度计算和参数更新。相比于全批量训练小批量训练可以减少计算开销并在一定程度上保持模型的准确性。 参数量化将模型的参数进行量化或压缩以减少模型的存储空间和计算复杂度。这可以通过使用低精度表示如浮点数的低位表示或使用特殊的压缩算法来实现。 近似损失函数使用近似的损失函数来代替原始的损失函数。这种方法可以简化计算或优化过程并在某些情况下仍能保持模型的性能。 近似优化算法使用近似的优化算法来更新模型参数。这些算法通常通过减少每次迭代的计算量或降低计算复杂度来提高训练效率。 本章我们讲解的近似方法主要是为了解决跳元模型和连续词袋模型中softmax大量求和计算提出。 文章内容来自李沐大神的《动手学深度学习》并加以我的理解感兴趣可以去https://zh-v2.d2l.ai/查看完整书籍 文章目录 近似训练负采样层序Softmax 负采样 负采样修改了原目标函数。给定中心词 w c w_c wc​的上下文窗口任意上下文词 w o w_o wo​来自该上下文窗口的被认为是由下式建模概率的事件 P ( D 1 ∣ w c , w o ) σ ( u o T v c ) P(D1|w_c,w_o)\sigma(u_o^Tv_c) P(D1∣wc​,wo​)σ(uoT​vc​) 对于词典中索引为 i i i的任何词分别用 v i ∈ R d v_i\in R^d vi​∈Rd和 u i ∈ R d u_i\in R^d ui​∈Rd表示其用作中心词和上下文词时的两个向量。 其中 σ \sigma σ使用了sigmoid激活函数的定义 σ ( x ) 1 1 e x p ( − x ) \sigma(x)\frac{1}{1exp(-x)} σ(x)1exp(−x)1​ 让我们从最大化文本序列中所有这些事件的联合概率开始训练词嵌入。具体而言给定长度为 T T T的文本序列以 w ( t ) w^{(t)} w(t)表示时间步 t t t的词并使上下文窗口为 m m m考虑最大化联合概率 ∏ t 1 T ∏ − m ≤ j ≤ m , j ≠ 0 P ( D 1 ∣ w ( t ) , w ( t j ) ) \prod_{t1}^{T}\prod_{-m\leq j \leq m,j\neq 0}P(D1|w^{(t)},w^{(tj)}) t1∏T​−m≤j≤m,j0∏​P(D1∣w(t),w(tj)) 然而 上述式子只考虑那些正样本的事件。仅当所有词向量都等于无穷大时 式子中的联合概率才最大化为1。当然这样的结果毫无意义。为了使目标函数更有意义负采样添加从预定义分布中采样的负样本。 用 S S S表示上下文词 w o w_o wo​来自中心词 w c w_c wc​的上下文窗口的事件。对于这个涉及 w o w_o wo​的事件从预定义分布 P ( w ) P(w) P(w)中采样 K K K个不是来自这个上下文窗口噪声词。用 N k N_k Nk​表示噪声词 w k w_k wk​ k 1 , . . . , K k1,...,K k1,...,K不是来自 w c w_c wc​的上下文窗口的事件。假设正例和负例 S , N 1 , N 2 , . . . , N k S,N_1,N_2,...,N_k S,N1​,N2​,...,Nk​的这些事件是相互独立的。负采样将上式中的联合概率仅涉及正例重写为 ∏ t 1 T ∏ − m ≤ j ≤ m , j ≠ 0 P ( w ( t j ) ∣ w ( t ) ) \prod_{t1}^{T}\prod_{-m\leq j \leq m,j\neq 0}P(w^{(tj)}|w^{(t)}) t1∏T​−m≤j≤m,j0∏​P(w(tj)∣w(t)) 通过事件 S , N 1 , . . . , N k S,N_1,...,N_k S,N1​,...,Nk​近似条件概率 P ( w ( t j ) ∣ w ( t ) ) P ( D 1 ∣ w c , w o ) ∏ k 1 , w k P ( w ) K P ( D 0 ∣ w ( t ) , w k ) P(w^{(tj)}|w^{(t)})P(D1|w_c,w_o)\prod_{k1,w_k~P(w)}^{K}P(D0|w^{(t)},w_k) P(w(tj)∣w(t))P(D1∣wc​,wo​)k1,wk​ P(w)∏K​P(D0∣w(t),wk​) 在这个公式中 P ( w ( t j ) ∣ w ( t ) ) P(w^{(tj)}|w^{(t)}) P(w(tj)∣w(t)) 表示在给定中心词 w ( t ) w^{(t)} w(t) 的情况下目标词 w ( t j ) w^{(tj)} w(tj) 出现的概率。这个概率可以通过两个因素来计算正例概率 P ( D 1 ∣ w c , w o ) P(D1|w_c,w_o) P(D1∣wc​,wo​) 和负例概率的乘积。 正例概率 P ( D 1 ∣ w c , w o ) P(D1|w_c,w_o) P(D1∣wc​,wo​) 表示在给定中心词 w c w_c wc​ 和上下文词 w o w_o wo​ 的情况下目标词 w o w_o wo​ 是中心词 w c w_c wc​ 的上下文词的概率即它们在给定上下文中存在关联的概率。 负例概率的乘积部分表示在给定中心词 w ( t ) w^{(t)} w(t) 的情况下其他词 w k w_k wk​ 其中 k k k 的范围是从 1 到 K K K表示负例的数量不是中心词的上下文词的概率。这里使用了一个分布 P ( w ) P(w) P(w) 来表示词 w k w_k wk​ 的概率分布通常可以根据词的频率来定义分布。 因此公式中的乘积部分 ∏ k 1 , w k ∼ P ( w ) K P ( D 0 ∣ w ( t ) , w k ) \prod_{k1,w_k\sim P(w)}^{K} P(D0|w^{(t)},w_k) ∏k1,wk​∼P(w)K​P(D0∣w(t),wk​) 表示对于每一个负例词 w k w_k wk​在给定中心词 w ( t ) w^{(t)} w(t) 的情况下词 w k w_k wk​ 不是中心词的上下文词的概率。 分别用 i t i_t it​和 h k h_k hk​表示词 w ( t ) w^{(t)} w(t)和噪声词 w k w_k wk​在文本序列的时间步 t t t处的索引。上述式子中关于条件概率的对数损失为 我们可以看到现在每个训练步的梯度计算成本与词表大小无关而是线性依赖于 K K K。当将超参数 K K K设置为较小的值时在负采样的每个训练步处的梯度的计算成本较小。 层序Softmax 作为另一种近似训练方法层序Softmaxhierarchical softmax使用二叉树其中树的每个叶节点表示词表 V V V中的一个词。 用于近似训练的分层softmax其中树的每个叶节点表示词表中的一个词 用 L ( w ) L(w) L(w)表示二叉树中表示字 w w w的从根节点到叶节点的路径上的节点数包括两端。设 n ( w , j ) n(w,j) n(w,j)为该路径上的 j t h j^{th} jth节点其上下文字向量为 u n ( w , j ) u_{n(w,j)} un(w,j)​。例如 上图中的 L ( w 3 ) 4 L(w_3)4 L(w3​)4。分层softmax将上一节条件概率近似为 为了说明让我们计算图中给定词 w c w_c wc​生成词 w 3 w_3 w3​的条件概率。这需要 w 3 w_3 w3​的词向量 v c v_c vc​和从根到 w 3 w_3 w3​的路径 图中加粗的路径上的非叶节点向量之间的点积该路径依次向左、向右和向左遍历 由 σ ( x ) σ ( − x ) 1 \sigma(x)\sigma(-x)1 σ(x)σ(−x)1它认为基于任意词 w c w_c wc​生成词表 V V V中所有词的条件概率总和为1 ∑ w ∈ V P ( w ∣ w c ) 1 \sum_{w\in V}P(w|w_c)1 w∈V∑​P(w∣wc​)1 幸运的是由于二叉树结构 L ( w o ) − 1 L(w_o)-1 L(wo​)−1大约与 O ( l o g 2 ∣ V ∣ ) O(log_2|V|) O(log2​∣V∣)是一个数量级。当词表大小 V V V很大时与没有近似训练的相比使用分层softmax的每个训练步的计算代价显著降低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86422.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

平面设计师推荐网站施工企业科技创新规划

一、HashMap是什么,怎么用 1、HashMap是什么 HashMap 也是 Rust 标准库中提供的集合类型,但是又与动态数组不同,HashMap 中存储的是一一映射的 KV 键值对,并提供了平均时间复杂度为 O(1) 的查询方法。 2、HashMap怎么用 &…

罗湖高端网站设计常德市做网站联系电话

本文翻译自:Coco Test Engine – The New Era of Code Coverage Analysis 原文作者:Qt Group首席软件工程师Sbastien Fricker 审校:Felix Zhang 我们的Coco 7重大更新带来了一个长期以来备受期待的功能——测试数据生成(即Coco …

手机网站排行榜策划案推广

今天配置了一下SharePoint Search,怕忘,赶紧记下来。 我参考了国外的一篇文章:Search Configuration in SharePoint 2010 首先,要查看以下User Profile Service, User Profile Synchronization Service是否运行正常,然…

长春市住房建设局网站南京比较好的网络策划公司

一、介绍 MiniConda 是一个轻量级的 Conda 版本,它是 Conda 的精简版,专注于提供基本的环境管理功能。Conda 是一个流行的开源包管理系统和环境管理器,用于在不同的操作系统上安装、管理和运行软件包。 与完整版的 Anaconda 相比&#xff0c…

网络推广网站培训千锋教育学费一览表

shell && 和 || 的短路使用 && 和 || 在 shell 中分别表示 and 和  or,和其它语言类似,这两个操作有短路效应。也就是说,当判断式已经确定时,不再继续处理后续表达式。 && 在失败时中断, || …

歌曲伴奏在线制作网站网页设计基础知识点考试

基础篇 MySQL概述 数据库概述 数据库相关概念 主流的关系型数据库管理系统 MySQL数据库的安装与启动 下载:MySQL :: MySQL Community Downloads 安装步骤 MySQL―8.0.40超详细保姆级安装教程_mysql8.0.40安装教程-CSDN博客文章浏览阅读1k次。_mysql8.0.40安装教…

网站集约化建设工作讲话微信电脑版下载官网

1.网络字节序 TCP/IP协议规定,网络数据流采用大端字节序,即低地址高字节。为了使网络程序具有可移植性,使得同样的C代码在大端和小端计算机上编译后都能正常运行,可以调用以下库函数做网络字节序和主机字节序的转换。 #include&…

html5手机微网站模板网络营销推广网站收录哪些

<input> 无限制输入 type 限制输入 type 如下类型 type 后还可以跟一些属性: 如<input typetext maxlength 10> 限制文本的长度为10字节 list 可以用的时候再来查, list就是当一个建议值不够的时候添加到几个. <form> <input typ…

做网站要学哪些建站网站主题设置不能点

保存至本地网盘 链接&#xff1a;https://pan.quark.cn/s/f82a1fa7ed87 提取码&#xff1a;6UUw 2025年“华数杯”国际大学生数学建模竞赛比赛时间于2025年1月11日&#xff08;周六&#xff09;06:00开始&#xff0c;至1月15日&#xff08;周三&#xff09;09:00结束&#xff…

手机搭建本地网站广州佛山建立网站的公司

为了配合微软下一代桌面操作系统—Windows7的发布&#xff0c;微软.NET俱乐部联合ZDNET至顶网社区特地组织了“让社区激情随Win 7 一同绽放”—Windows 7 社区发布会。10月24日13点半&#xff0c;将在北京&#xff0c;微软亚洲研究院地下一层阶梯会议中心举行&#xff0c;欢迎当…

明珠信息港网站建设专家多语种网站建设方案

​目录 背影 摘要 LSTM的基本定义 LSTM实现的步骤 基于长短期神经网络LSTM的回归分析 MATALB代码:基于长短期神经网络的回归分析,基于LSTM的回归预测资源-CSDN文库 https://download.csdn.net/download/abc991835105/88184633 效果图 结果分析 展望 参考论文 背影 LSTM神经…

北京网站设计公司jq成都柚米科技15临沂天元建设集团

目录 一、图像的基础知识 二、NumPy模块 三、图像色彩变化 3.1 RGB图像的分通道显示 3.2 HSV图像的分通道显示 一、图像的基础知识 总结的笔记&#xff1a; """ 二值图: 每个像素取值 0或1,图像显示出来只有黑白色; 黑色:0 白色:1 灰度图: …

网站平台推广清博大数据舆情监测平台

写在前面 使用Task类来控制多线程的同步执行&#xff0c;可应用于多任务分发执行后&#xff0c;再做归并处理。Tas既拥有线程池的优点&#xff0c;同时也解决了使用ThreadPool不易控制的弊端&#xff1b;可以非常简便并可靠地实现多线程的顺序执行。 代码实现 public class …

做网站建设多少钱公众号小程序制作平台

聊聊spring-cloud的负载均衡 1. 选择合适的负载均衡算法2. 合理设置超时时间3. 缓存服务实例列表4. 使用断路器5. 使用缓存Spring Cloud负载均衡组件对比RibbonLoadBalancerWebClient对比 总结 在微服务架构中&#xff0c;负载均衡是非常重要的一个环节&#xff0c;可以有效地提…

临沂网站制作方案三元里网站建设

最近在学习webpack&#xff0c;边学边练习&#xff0c;下面是对一些应用到的属性、插件记录分享出来&#xff0c;也方便以后查找与复习&#xff0c;过程中碰到了一些坑&#xff0c;在注释中有说明&#xff1a; const path require(path) const webpack require("webpack…

医院网站建设策划案模板做量化投资网站

在做vue多选框的时候&#xff0c;禁止多选&#xff0c;当时想都没想直接在computed里面把row-selection 直接当成方法写在里面了&#xff0c;但是后来发现一些状态不能用&#xff0c;比如清楚多选&#xff0c;selectedRowKeys没有效果&#xff0c;这里记录一下 // 最开始的代码…

个人购物网站怎么备案什么值得买网站模板

文章目录 前言一、Kafka1、什么是消息队列offset 2、高性能topicpartition 3、高扩展broker 4、高可用replicas、leader、follower 5、持久化和过期策略6、消费者组7、Zookeeper8、架构图 二、安装Zookeeper三、安装Kafka四、Java中使用Kafka1、引入依赖2、生产者3、消费者4、运…

制作网站的策划方案某个产品营销推广方案

我的wxPython项目有一个框架,有多个嵌套的sizer.其中一个sizer包含一个wxStaticImage,其中一个位图是从文件中读取的.每次调整帧大小时,我都需要调整图像大小(增大/缩小),因此它适合它的sizer边界.(我想)我知道如何调整图像大小.我不知道的是如何&#xff1a;>如何获取图像容…

移动网站建设信息苏州知名高端网站建设

本篇来介绍计算机领域的信息安全以及加密相关基础知识&#xff0c;这些在嵌入式软件开发中也同样会用到。 1 信息安全 1.1 信息安全的基本要素 保密性&#xff1a;确保信息不被泄露给未授权的实体。包括最小授权原则、防暴露、信息加密、物理加密。完整性&#xff1a;保证数…

网站实现步骤及方法是为网站网站做推广

文章目录 前言1. Docker 部署 Trfɪk2. 本地访问traefik测试3. Linux 安装cpolar4. 配置Traefik公网访问地址5. 公网远程访问Traefik6. 固定Traefik公网地址 前言 Trfɪk 是一个云原生的新型的 HTTP 反向代理、负载均衡软件&#xff0c;能轻易的部署微服务。它支持多种后端 (D…