2015百度竞价单页面网站模板源码设计中国铁路保险网站

web/2025/9/28 14:03:05/文章来源:
2015百度竞价单页面网站模板源码设计,中国铁路保险网站,廊坊网站建设公司费用,wordpress无法保存文章目录 一.ChatGPT的发展历程 二.Attention is all you need 三.对于GPT-4的智能水平评估 四.大语言模型的技术演化 1.从符号主义到连接主义 2.特征工程 2.1数据探索 2.2数据清洗 2.3数据预处理 2.3.1无量纲化 2.3.1.1标准化 2.3.1.2区间缩放法 2.3.1.3标准化与归一…目录 一.ChatGPT的发展历程 二.Attention is all you need 三.对于GPT-4的智能水平评估 四.大语言模型的技术演化 1.从符号主义到连接主义 2.特征工程 2.1数据探索 2.2数据清洗 2.3数据预处理 2.3.1无量纲化 2.3.1.1标准化 2.3.1.2区间缩放法 2.3.1.3标准化与归一化的区别 2.3.2对定量特征二值化 2.3.3对定性特征哑编码 2.3.4处理缺失值 2.3.5数据变换 2.4特征选择、特征构造与特征提取 2.4.1特征选择 2.4.1.1Filter 2.4.1.2Wrapper 2.4.1.3Embedded 3.鲁棒性和泛化能力 3.1鲁棒性 3.2泛化能力 4.深度学习模型 4.1循环神经网络 4.2长短时记忆 4.3门控循环单元 5.小结(RNN架构的缺陷) 一.ChatGPT的发展历程 GPT 是基于 Transformer 架构的预训练语言模型。以下是 GPT 发展历程的重要时间节点   2015年创业家马斯克,美国创业孵化器Y Combinator 总裁阿尔特曼,以及全球在线支付平台PayPal的联合创始人泰尔等在旧金山创立的一家非营利的AI研究机构。2017,谷歌团队在Attention is all you need中首次提出Transformer模型,在语言处理(Natural Language Processing NLP),和计算机视觉(Computer Vision CV)等领域展现了出色的效果2018年OpenAI 在 Transformer 技术的基础上发布 GPT-1利用语料库中大量的文本信息获取更大的上下文数据进而实现了更好的文本表示。2019年OpenAI 发布 GPT-2能够从语料库中抽取更多的信息获得更加精确的文本表示。GPT-2也具备了强大的推理能力能够根据上文进行语境预测以此实现更复杂的语言模型。2020年OpenAI 发布 GPT-3旨在以更强大和更精确的方式推理和生成自然语言。GPT-3能够更好地处理长文本输入并能够进行更复杂的语言推理和生成。2021年OpenAI 发布 GPT-4与 GPT-3相比GPT-4在性能和功能上都有了进一步的提升。它能够更好地处理多样化的输入包括自然语言对话和文本生成。 二.Attention is all you need 众所周知谷歌团队在Attention is all you need中首次提出Transformer模型, 而Transformer模型与ChatGPT又有着密不可分的联系,所以我们不妨先来从这篇论文入手,看看Transformer模型出现的契机到底是什么? 先来看一篇大佬的文章https://blog.51cto.com/yunyaniu/2913904 我们不难发现该论文的重心是为了解决NLP中使用RNN不能并行计算 RNN/LSTM不能并行计算原因是存在序列依赖关系即t时刻的计算依赖t-1时刻的隐层计算结果其训练是迭代的是一个接一个字的来当前这个字过完RNN/LSTM单元才可以进下一个字。 Transformer可以并行的计算句子中不同的query因为每个query之间并不存在先后依赖关系。 三.对于GPT-4的智能水平评估 在2023年3月15日公布的GPT-4的演示视频中,GPT-4成功识别了一张气球照片并对如果绳子剪断会怎样做出来推断----气球将飞走, 这一事实表明,GPT-4已经掌握了对图像等多模态数据进行读取和综合推理的能力,GPT-4不仅能解读图片信息,还可以理解其深层含义,这种能力使人们深感GPT-4已经逐渐靠近AIGC领域,这也使人们不禁思考,未来人工智能是否会迈入Strong AI领域,甚至超越人类智能 因为GPT-4在训练过程中接触了大量数据,因此在特定任务中,往往难以分辨它是记住了任务内容,还是理解了任务内容,这是评估智能程度的关键因素 评估 GPT-4 的智能水平可以从以下几个方面考虑   1. 语言理解能力GPT-4 对各种主题的理解程度包括复杂的概念、语境和语义关系。2. 知识广度GPT-4 对广泛领域的知识的掌握程度。3. 生成能力GPT-4 生成连贯、有逻辑和有意义的文本的能力。4. 适应性GPT-4 在不同任务和领域中的应用能力。5. 与人类的比较将 GPT-4 的表现与人类在类似任务上的表现进行比较。   然而要全面评估 GPT-4 的智能水平是具有挑战性的因为智能是一个复杂且多维度的概念。此外GPT-4 是一个工具其智能水平还取决于使用它的方式和环境。 四.大语言模型的技术演化 1.从符号主义到连接主义 大语言模型的技术演化经历了从符号主义到连接主义的转变。符号主义方法主要关注基于规则和符号的语言处理而连接主义方法则更侧重于通过神经网络来学习语言的模式和规律。   在符号主义阶段语言模型通常是基于规则和语法的。这些模型试图通过定义语言的规则和结构来理解和生成自然语言。然而这种方法在处理复杂和多样的自然语言时面临困难因为语言的规则和结构往往是非常复杂和模糊的。   随着深度学习技术的发展连接主义方法逐渐成为主流。连接主义语言模型如神经网络通过学习大量的文本数据来自动发现语言的模式和规律。这些模型可以自动学习语言的特征和表示从而能够处理更加复杂和多样的自然语言任务。   连接主义方法的优势在于它能够从大量的数据中自动学习到语言的特征和模式而不需要手动定义规则和语法。这使得语言模型能够更好地适应不同的语言和任务并具有更强的泛化能力。   然而连接主义方法也面临一些挑战例如需要大量的训练数据、计算资源和时间。此外神经网络模型的可解释性相对较低这使得我们难以理解模型是如何做出决策和生成回答的。 机器学习和深度学习的出现引领了NLP技术数据驱动的转变 在机器学习时代,尽管可以针对特定子任务,基于训练数据在预设的函数空间内寻找最优映射,但这并未完全解决规则设计的问题 特征工程成为影响机器学习效果的重要因素 2.特征工程 数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限而已 特征工程是将原始数据转换为更有意义和有用的特征的过程这些特征可以被机器学习算法有效地使用。它在数据预处理阶段起着重要的作用旨在提高模型的性能和准确性。   以下是特征工程的一些关键步骤和技术   1. 数据理解首先需要对数据进行深入的理解和分析包括数据的分布、特征的类型、缺失值等。2. 特征选择从原始数据中选择最相关和最有信息量的特征。这可以通过统计方法、过滤法或基于模型的选择方法来完成。3. 特征提取通过变换或组合原始特征来创建新的特征。例如通过数学函数、主成分分析PCA或自编码器等技术。4. 特征缩放和规范化将特征的值进行标准化或规范化使它们在相同的范围内以便模型能够更好地处理数据。5. 特征构建根据领域知识和数据的特点构建新的特征。这可能涉及到对时间序列数据进行差分、计算统计量或创建交互特征等。6. 特征验证使用交叉验证或其他验证技术来评估不同特征组合的效果选择最优的特征集。   特征工程的目标是使数据更适合机器学习算法的处理并提高模型的预测能力。通过精心设计和选择特征可以减少噪声和冗余信息增强数据的表达能力从而提高模型的性能。 2.1数据探索 在数据探索过程主要考虑两个方面。 数据说明查看看原始数据以及数据说明文件对数据有一个整体的了解。 数据初步筛查通过人工查看的方式对数据本身做一个比较直观的了解然后对数据做初步的整理分类剔除没有必要的数据。根据数据的特征和目标确定后续的数据清洗方法。 2.2数据清洗 数据格式内容错误数据来源有多种有些是传感器采集然后算法提取的特征数据有些是采集的控制器的数据还有一些应用场合则是用户/访客产生的数据肯定存在格式和内容上不一致的情况所以在进行模型构建之前需要先进行数据的格式内容清洗操作。逻辑错误清洗主要是通过简单的逻辑推理发现数据中的问题数据防止分析结果走偏主要包含以下几个步骤 2.3数据预处理 数据相关分析数据相关性分析是为了剔除数据中相关程度高的特征成分对数据进行初步的降维为后续的模型训练做准备。 数据不平衡在实际应用中数据往往分布得非常不均匀也就是会出现“长尾现象”即绝大多数的数据在一个范围或属于一个类别而在另外一个范围或者另外一个类别 中只有很少的一部分数据。那么这个时候直接使用机器学习可能效果会不太少所以需要对数据进行重构。 2.3.1无量纲化 无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布标准化后其转换成标准正态分布。区间缩放法利用了边界值信息将特征的取值区间缩放到某个特点的范围例如[0, 1]等。 2.3.1.1标准化 无量纲化的标准化是一种常见的数据预处理技术用于将数据的各个特征进行尺度变换使其具有相同的均值和标准差。   标准化的具体步骤如下   1. 计算每个特征的均值。2. 计算每个特征的标准差。3. 对于每个特征将其进行标准化得到计算公式为。   通过标准化每个特征的均值变为0标准差变为1。这样做的好处是   1. 消除了不同特征之间的量纲差异使得不同特征在数值上具有可比性。2. 使得模型对特征的缩放不敏感因为标准化后所有特征都具有相同的范围。3. 有助于加速模型的训练特别是在使用基于梯度的优化算法时。 2.3.1.2区间缩放法 区间缩放法是一种常见的数据预处理方法用于将数据映射到特定的区间范围内。它的目的是将原始数据进行尺度变换以便更好地适应模型或数据分析的需求。   区间缩放法的一般步骤如下   1. 确定目标区间确定希望数据映射到的目标区间例如[0,1]或[-1,1]。2. 计算缩放因子根据目标区间和原始数据的范围计算缩放因子。缩放因子可以是简单的线性函数也可以是更复杂的函数。3. 应用缩放因子将缩放因子应用于原始数据得到缩放后的数据。   例如如果要将数据映射到[0,1]区间可以使用以下公式进行缩放 其中x是原始数据是缩放后的数据是原始数据的最小值是原始数据的最大值。   通过区间缩放法数据被限制在目标区间内这样可以使数据具有更好的可比性和可视化效果。它还可以帮助消除数据中的极端值或异常值的影响使模型更容易学习和处理数据。 2.3.1.3标准化与归一化的区别 标准化是依照特征矩阵的列处理数据其通过求z-score的方法将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据其目的在于样本向量在点乘运算或其他核函数计算相似性时拥有统一的标准也就是说都转化为“单位向量”。规则为l2的归一化公式如下 2.3.2对定量特征二值化 对定量特征进行二值化是将连续的数值特征转换为布尔值0 或 1的过程。这种方法常用于将连续特征离散化以便于模型的理解和处理。   以下是一些常见的定量特征二值化的方法   1. 阈值分割根据一个特定的阈值将定量特征的值划分为两个类别。例如大于阈值的数值标记为 1小于等于阈值的数值标记为 0。2. 中位数分割将定量特征的值与中位数进行比较大于中位数的标记为 1小于等于中位数的标记为 0。3. 等频分割将定量特征的数值范围等分成多个区间然后根据数值所在的区间进行二值化。   二值化的目的是将连续的特征转换为离散的特征以便于模型的学习和理解。它可以简化问题减少特征的维度并在一些情况下提高模型的性能。   然而二值化也可能会丢失一些信息因此在选择二值化方法时需要谨慎考虑。此外对于某些模型保留原始的定量特征可能更有意义因为它们可以捕捉到更细致的信息。 2.3.3对定性特征哑编码 哑编码是一种将定性特征如类别、标签等转换为数值特征的方法。它的目的是将非数值的特征转化为模型可以处理的数值形式。   对于一个有n个不同类别定性特征通常会使用哑编码将其转换为n个二进制特征。哑编码的基本思想是为每个类别创建一个新的特征并且对于该类别对应的样本该特征的值为1其他类别对应的特征值为0。   例如对于一个有三个类别的定性特征如颜色红色、蓝色、绿色可以使用哑编码将其转换为三个二进制特征   - 红色color_red 1, color_blue 0, color_green 0- 蓝色color_red 0, color_blue 1, color_green 0- 绿色color_red 0, color_blue 0, color_green 1   通过这种方式模型可以理解和处理定性特征并将其与其他数值特征一起进行训练和预测。   哑编码的好处是它保留了定性特征的类别信息并且可以避免将类别直接视为数值所带来的潜在问题如排序假设。此外哑编码还可以方便地进行特征交叉Feature Crossing从而捕捉不同类别之间的交互作用。 2.3.4处理缺失值 在数据分析中处理缺失值的常见方法有以下几种   - 均值插补Mean Imputation将缺失值用变量的均值来代替。适用于连续型变量但可能会导致数据集的均值偏移。- 中位数插补Median Imputation将缺失值用变量的中位数来代替。适用于连续型变量对于有偏分布的数据较为有效。- 众数插补Mode Imputation将缺失值用变量的众数来代替。适用于离散型变量。- 回归插补Regression Imputation通过建立回归模型来预测缺失值。适用于存在相关性的变量。- K近邻插补K-nearest neighbor Imputation根据与缺失值最接近的K个样本的值来插补。适用于存在相似性的样本。- 多重插补Multiple Imputation通过多次模拟来生成多个完整的数据集每个数据集都包含对缺失值的不同估计。   在实际应用中需要根据数据集的特点和分析需求来选择合适的缺失值处理方法。 2.3.5数据变换 数据变换是数据预处理中常用的技术它可以帮助改善数据的分布、降低数据的复杂性或增强数据的可解释性。以下是一些常见的数据变换方法   1. 标准化/正则化将数据映射到特定的范围内如[0,1]或[-1,1]。这可以消除不同特征的量纲差异使模型对特征的缩放不敏感。2. 对数变换对数值较大或呈指数增长的数据进行对数变换可以使数据更加平稳并且在一些情况下可以改善模型的性能。3. 平方根变换对于具有长尾分布的数据可以使用平方根变换来使数据更加正态分布。4. Box-Cox 变换Box-Cox 变换是一种广义的幂变换可以根据数据的特点选择最佳的幂参数使数据更接近正态分布。5. 离散化/二值化将连续数据转换为离散的类别或二进制值适用于一些分类问题或需要简化数据的情况。6. 主成分分析PCA通过线性变换将高维数据降维到较低的维度保留主要的信息。7. 数据扩充通过对现有数据进行随机变换、旋转、缩放等操作增加数据的多样性有助于提高模型的泛化能力。8. 时间序列操作对于时间序列数据可以进行差分、移动平均等操作以去除趋势或季节性因素。 常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。4个特征度为2的多项式转换公式如下 使用preproccessing库的PolynomialFeatures类对数据进行多项式转换的代码如下 from sklearn.preprocessing import PolynomialFeatures #多项式转换 #参数degree为度默认值为2 PolynomialFeatures().fit_transform(iris.data) 基于单变元函数的数据变换可以使用一个统一的方式完成使用preproccessing库的FunctionTransformer对数据进行对数函数转换的代码如下 from numpy import log1p from sklearn.preprocessing import FunctionTransformer#自定义转换函数为对数函数的数据变换 #第一个参数是单变元函数 FunctionTransformer(log1p).fit_transform(iris.data)   2.4特征选择、特征构造与特征提取 特征工程的后期方法根据应用领域不同使用的方法完全不一样。在互联网领域主要是应用特征选择的方法。在计算机视觉、语音信号处理自然语言处理主要是特征提取。 2.4.1特征选择 当数据预处理完成后我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说从两个方面考虑来选择特征 特征是否发散如果一个特征不发散例如方差接近于0也就是说样本在这个特征上基本上没有差异这个特征对于样本的区分并没有什么用。特征与目标的相关性这点比较显见与目标相关性高的特征应当优选选择。除方差法外本文介绍的其他方法均从相关性考虑。 根据特征选择的形式又可以将特征选择方法分为3种 Filter过滤法按照发散性或者相关性对各个特征进行评分设定阈值或者待选择阈值的个数选择特征。Wrapper包装法根据目标函数通常是预测效果评分每次选择若干特征或者排除若干特征。Embedded嵌入法先使用某些机器学习的算法和模型进行训练得到各个特征的权值系数根据系数从大到小选择特征。类似于Filter方法但是是通过训练来确定特征的优劣。 2.4.1.1Filter 方差选择法 方差选择法是一种用于特征选择的方法常用于机器学习和数据分析中它的基本思想是根据特征的方差来评估其对模型的重要性。   具体来说方差选择法认为具有较大方差的特征更有可能对模型的预测结果产生较大影响因此可以选择这些特征来构建模型,相反方差较小的特征可能对模型的预测能力贡献较小因此可以考虑忽略它们。 from sklearn.feature_selection import VarianceThreshold #方差选择法返回值为特征选择后的数据 #参数threshold为方差的阈值 VarianceThreshold(threshold3).fit_transform(iris.data) 相关系数法 相关系数法是一种统计分析方法用于衡量两个变量之间的线性关系强度。它通过计算两个变量之间的相关系数来评估它们之间的关联程度。   相关系数的取值范围通常在-1 到 1 之间其中-1 表示完全负相关1 表示完全正相关0 表示无相关性。相关系数的值越接近-1 或 1说明两个变量之间的关系越强值越接近 0则表示关系越弱。   相关系数法在数据分析、统计学和机器学习等领域都有广泛的应用。它可以帮助我们了解变量之间的关系发现数据中的模式和趋势以及进行预测和建模。 from sklearn.feature_selection import SelectKBest from scipy.stats import pearsonr#选择K个最好的特征返回选择特征后的数据 #第一个参数为计算评估特征是否好的函数该函数输入特征矩阵和目标向量输出二元组评分P值的数组数组第i项为第i个特征的评分和P值。在此定义为计算相关系数 #参数k为选择的特征个数 SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k2).fit_transform(iris.data, iris.target) 卡方检验 相关系数法是一种统计分析方法用于衡量两个变量之间的线性关系强度。它通过计算两个变量之间的相关系数来评估它们之间的关联程度。   相关系数的取值范围通常在-1 到 1 之间其中-1 表示完全负相关1 表示完全正相关0 表示无相关性。相关系数的值越接近-1 或 1说明两个变量之间的关系越强值越接近 0则表示关系越弱。   相关系数法在数据分析、统计学和机器学习等领域都有广泛的应用。它可以帮助我们了解变量之间的关系发现数据中的模式和趋势以及进行预测和建模。 from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2#选择K个最好的特征返回选择特征后的数据 SelectKBest(chi2, k2).fit_transform(iris.data, iris.target) 互信息法 相关系数法是一种统计分析方法用于衡量两个变量之间的线性关系强度。它通过计算两个变量之间的相关系数来评估它们之间的关联程度。   相关系数的取值范围通常在-1 到 1 之间其中-1 表示完全负相关1 表示完全正相关0 表示无相关性。相关系数的值越接近-1 或 1说明两个变量之间的关系越强值越接近 0则表示关系越弱。   相关系数法在数据分析、统计学和机器学习等领域都有广泛的应用。它可以帮助我们了解变量之间的关系发现数据中的模式和趋势以及进行预测和建模。 from sklearn.feature_selection import SelectKBest from minepy import MINE#由于MINE的设计不是函数式的定义mic方法将其为函数式的返回一个二元组二元组的第2项设置成固定的P值0.5 def mic(x, y):m MINE()m.compute_score(x, y)return (m.mic(), 0.5)#选择K个最好的特征返回特征选择后的数据 SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k2).fit_transform(iris.data, iris.target) 2.4.1.2Wrapper 递归特征消除法Recursive Feature EliminationRFE 是一种特征选择方法属于包装法也是向后选择法。它的主要思路是反复建立多种模型每一次根据系数的不挑出差的特征并去除挑出来的特征然后在剩余的特征上重复该过程直到遍历了所有的特征。   from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression#递归特征消除法返回特征选择后的数据 #参数estimator为基模型 #参数n_features_to_select为选择的特征个数 RFE(estimatorLogisticRegression(), n_features_to_select2).fit_transform(iris.data, iris.target) 2.4.1.3Embedded 基于惩罚项的特征选择法 是一种常见的特征选择方法通过L1正则项来选择特征。L1正则方法具有稀疏解的特性因此天然具备特征选择的特性。 使用带惩罚项的基模型除了筛选出特征外同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型来选择特征的代码如下 from sklearn.feature_selection import SelectFromModel from sklearn.linear_model import LogisticRegression #带L1惩罚项的逻辑回归作为基模型的特征选择 SelectFromModel(LogisticRegression(penaltyl1, C0.1)).fit_transform(iris.data, iris.target) 基于树模型的特征选择法 是指通过使用决策树或随机森林等基于树的模型根据特征在树中的重要性进行特征选择。这种方法在机器学习中比较常用因为树模型具有较强的能力和可解释性。   其中CARTClassification And Regression Tree等单树模型是完全可解释的因为可以很容易地通过观察最终决策树中的分割来遵循它们的预测逻辑。但是CART是使用每次形成一个分割的树的贪婪启发式方法进行训练模型的这种方法会产生许多缺点。   而基于树的集成学习器如随机森林和梯度增强如XGBoost通过集成大量单树模型的预测来改进CART的性能。这些模型在计算特征重要性时可能会存在一定的敏感性尤其对具有很多潜在分裂点的特征及特征中包含一些易形成偏倚问题的数据。   此外SHAP SHapley Additive exPlanations 是一种最新的方法它统一了许多早期的方法旨在解决集成树模型中的偏倚问题并使用博弈论方法来理解和解释每个特性是如何驱动最终预测的。 from sklearn.feature_selection import SelectFromModel from sklearn.ensemble import GradientBoostingClassifier#GBDT作为基模型的特征选择 SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target) 3.鲁棒性和泛化能力 预设函数空间往往在特定子任务的鲁棒性和泛化能力方面表现不佳 3.1鲁棒性 在统计学领域和机器学习领域对异常值也能保持稳定、可靠的性质称为鲁棒性。比如说计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下能否不死机、不崩溃就是该软件的鲁棒性。所谓“鲁棒性”是指控制系统在一定结构大小的参数摄动下维持某些性能的特性。有一个与鲁棒性很相似的概念叫模型的泛化能力。 鲁棒是Robust的音译也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力。比如说计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下能否不死机、不崩溃就是该软件的鲁棒性。所谓“鲁棒性”也是指控制系统在一定结构大小的参数摄动下维持其它某些性能的特性。根据对性能的不同定义可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。 鲁棒性包括稳定鲁棒性和品质鲁棒性。一个控制系统是否具有鲁棒性是它能否真正实际应用的关键。因此现代控制系统的设计已将鲁棒性作为一种最重要的设计指标。 3.2泛化能力 是指机器学习算法对新鲜样本的适应能力对具有同一规律的学习集以外的数据经过训练的网络也能给出合适的输出该能力称为泛化能力。 根据泛化能力好的网络设计的神经网络控制器的鲁棒性也会有所改善。泛化能力指对未知数据的预测能力。例如小样本。 4.深度学习模型 早期的NLP文本生成主要依赖传统的循环神经网络(RNN),长短时记忆(LSTM)网络或门控循环单元(GRU),这三种模型都基于循环结构 4.1循环神经网络 循环神经网络Recurrent Neural NetworkRNN是一种常见的神经网络结构它在处理序列数据时非常有用RNN 具有循环连接允许信息在网络中在不同时间步之间传递。   RNN 可以用于各种任务如自然语言处理中的文本生成、语音识别、时间序列预测等。通过学习序列中的模式和关系RNN 可以对下一个时间步的输出进行预测 然而传统的 RNN 可能会面临梯度消失或梯度爆炸等问题这会影响其性能和学习能力。为了解决这些问题研究人员提出了一些改进的 RNN 架构如长短时记忆网络Long Short-term MemoryLSTM和门控循环单元Gate Recurrent UnitGRU等。 4.2长短时记忆 长短时记忆网络Long Short-Term Memory是循环神经网络Recurrent Neural Network的变种结构主要用于情感分析机器翻译语音识别和图像识别等领域。   在传统的循环神经网络中算法是将序列按时间展开然后在每一时刻分别输入数据。而长短时记忆网络通过引入一种称为“记忆单元”的结构来克服传统循环神经网络的缺点。这种结构能够在长序列中保持信息的流动捕捉和理解长序列中的复杂依赖关系。   长短时记忆网络已经被广泛应用于许多序列学习任务如语音识别、机器翻译和时间序列分析等。 4.3门控循环单元 门控循环单元Gated Recurrent Unit简称GRU是一种循环神经网络RNN的变体旨在解决传统RNN中的长期依赖问题并提供一种更简化的门控机制。GRU是由Cho等人在2014年提出的类似于长短期记忆网络LSTM但减少了LSTM中的门控单元。   GRU的核心是更新门update gate和重置门reset gate它们控制了信息的流动和存储以捕捉长期依赖关系。与传统的RNN相比GRU能够更好地处理长序列数据并具备较强的记忆能力适用于需要捕捉长期依赖关系的任务如自然语言处理、语音识别、机器翻译等。 5.小结(RNN架构的缺陷) 因RNN存在记忆短暂问题,LSTM和GRU应运而生,但RNN架构仍面临多项挑战 并行计算能力不足,RNN需要按序列处理序列数据中的每个时间步,这限制了它在训练过程中充分利用GPU的并行计算能力长程依赖问题(长期依赖问题,长距离依赖问题)模型容量限制

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/83365.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国内做优秀的农业信息网站金属材料东莞网站建设

字符串类的charAt() 方法可返回指定位置的字符。 stringObject.charAt(index)从键盘输入获取了一个字符串,将其数据类型转换为字符型。 Scanner scan new Scanner(System.in); String str scan.next(); char ca str.charAt(0);示例: import java.u…

长春网站建设公司哪个好专业建站培训

树莓派2代的Model B采用Broadcom BCM2836 900MHz的四核SoC,1GB内存,是新一代开拓者,兼容1代B。相比之下,树莓派2的性能比1代提升6倍,内存翻了一番。Raspberry Pi 2不仅能跑全系列ARM GNU/Linux发行版,而且支…

ps网站首页效果图实例创意营销策划案例

C 实现 定义以下三个类; 狼类(Wolf):成员变量姓名:stringName,成员变量爪子锋利度:intShape,成员函数:voidPrintStateO,按照姓名、爪子锋利度格式输出两个成员变量的值。←人类(Human):成员变量姓名:stringName,成员变量智力:intIntell,成员函…

高埗做网站做h5的网站页面设计

终于搞定了Jmeter跨线程组之间传递参数,这样就不用每次发送请求B之前,都需要同时发送一下登录接口(因为同一个线程组下的请求是同时发送的),只需要发送一次登录请求,请求B直接用登录请求的参数即可,直到登录接口的参数…

网站微营销公司哪家好网站找谁做

Alibaba分布式事务组件Seata实战 事务 本地事务 对于操作单一数据库的场景下的事务,ACIO特性是数据库直接支持的 分布式事务 在分布式情况下,需要的操作资源分布在多个资源服务上,而应用需要保证对于多个资源服务器的数据操作要么全部成…

古德设计官网网站建设网站优化相关资讯文章

第一个罚球,戴维斯出手后,听到哐当医生,皮球掉了出来。我又紧张了。微信群了很多人开始发消息,说詹姆斯队又要输了。回到比赛。戴维斯当时没有任何微笑,我估计他内心也是紧张的,他有点埋怨哈登,…

企业网站接入微信支付千锋教育培训

码到三十五 : 个人主页 目录 一、引言二、享元设计模式的概念1. 对象状态的划分2. 共享机制 三、享元设计模式的组成四、享元设计模式的工作原理五、享元模式的使用六、享元设计模式的优点和适用场景结语 [参见]: Java设计模式:核心概述&…

咸阳做网站托管浏览器网址导航大全

文章目录 持久化配置慢查询命令及安全配置内存配置 持久化配置 慢查询 命令及安全配置 漏洞:Redis未授权访问配合SSH key文件利用分析-腾讯云开发者社区-腾讯云 (tencent.com) 漏洞出现的核心的原因有以下几点 Redis未设置密码利用了Redis的config set命令动态修…

河北建设厅网站登陆怎么找附件有什么做兼职的好的网站吗

PureFlash云原生存储 PureFlash是一个开源存储系统,它能为云计算和传统应用提供块存储服务。PureFlash最显著的优势是其高性能,每节点能提供超过100万IOPS随机写IO。 PureFlash可以以云原生的方式部署,并为云原生应用提供持久存储。 PureFl…

上海市建设质量协会网站怀化市优化办电话

前言 刚开始,以为做性能测试,就是做些脚本、参数化、关联,压起来之后,再扔出一个结果。 但实际上不止这些内容,还要加上性能分析,关注调优之后响应时间有多大的提升,TPS 有多大的提高&#xf…

建卖手机网站大连信息网

netbeans调试使用NetBeans的Java EE开发人员习惯于直接在NetBeans所选择的应用程序服务器中运行和调试其瘦战应用程序。 在开发打包为ber或镂空jars的微服务时,您期望使用相同的轻松方式进行运行和调试。 好消息是您可以。 在本文中,我将逐步介绍如何在N…

凡科可以做淘客网站吗网站关键词词库怎么做

背景 随着智能门禁等物联网产品的普及,越来越多的开发者对音视频互动体验提出了更高的要求。目前市面上大多一对一互动都是基于WebRTC,优点不再赘述,我们这里先说说可能需要面临的问题:WebRTC的服务器部署非常复杂,可…

做网站是什么行业黄页888

本文转载自:http://book.2cto.com/201211/7897.html 市面上的数据库数量成爆炸式增长,要在它们之间进行权衡是很困难的。幸运的是,它们之中的大多数数据库都能归在几个分类里。本节中,我会描述简单及复杂的键值存储、关系型数据库…

文章类网站重庆php网站建设

spring cloud- Gateway实战二:负载均衡 负载均衡简单了解一)、实操案例-自动负载均衡二)、实操案例-手动负载均衡1、手动负载均衡方式一2、手动负载均衡方式二负载均衡 简单了解 我们引入负载均衡,主要是为了 让网络流量能均匀的分发到多个服务器上,以此来提高系统性能、…

阿里云服务器建网站贵州省建设厅网站首页

分布式锁概念 为什么使用分布式锁 假设有这样一个场景,双十一抢iphone15ProMax手机场景,可以抢多台。操作数据库接口如下: void reduceInventory(Long id,int count) {//1.拿到数量信息Product product mapper.selectById(id);//2.修改数量…

yii2框架做的网站有哪些在wordpress中 怎么把主题删掉

Java进阶十—JDBC 一.说明 用Java语言操作Mysql,首先需要学习Mysql MySQL入门教程-CSDN博客 二.JDBC的由来以及定义 JDBC是什么? Java数据库连接(Java Database Connectivity)简称JDBCJDBC是Java操作各数据库的一种规范,是Java语言中用来…

网站制作品牌有哪些汉沽网站建设

求解最大子序列和 tag: 数据结构与算法 最大子序列和问题: 给定序列A1, A2,... AN, 求最大的子序列和。 例如 :   对于序列4, -3, 5, -2, -1, 2, 6, -2, 最大序列和为11(4 -3 5 - 2 - 1 2 …

网站多久备份一次wordpress 小众软件 主题

web速览 1. 前端开发 概述: 前端开发是构建网站用户界面的过程,主要关注网站的视觉效果和用户体验。又称为客户端 技术栈: HTML(超文本标记语言):用于创建网页的结构和内容。CSS(层叠样式表&a…

网站产品原型图给wordpress添加引导页

yolov5 部署到rk3588 教程来自 yolov5训练pt模型并转换为rknn模型,部署在RK3588开发板上——从训练到部署全过程_yolov5 rknn-CSDN博客 1.通过android studio 部署代码在rk3588板子上运行代码 项目来源 rknn-toolkit2/rknpu2/examples/rknn_yolov5_android_apk…

建立网站的技术女生学网站建设好学吗

图表,是指将既得数据用图形的方式表示出来。在前文中我们介绍过如何使用Java程序来为Excel文档创建图表的方法。本文将通过使用Java程序来演示如何创建PowerPoint图表及为图表添加趋势线。趋势线的运用能够显示数据的变化趋势,同时能够帮助预测数据的未来…