机器学习的三个基本要素

机器学习的基本要素包括模型、学习准则(策略)和优化算法三个部分。机器学习方法之间的不同,主要来自其模型、学习准则(策略)、优化算法的不同。

模型

机器学习首要考虑的问题是学习什么样的模型(Model)。在监督学习中,给定训练集,学习的目的是希望能够拟合一个函数 f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)来完成从输入特征向量 x {\bm x} x到输出标签的映射。这个需要拟合的函数 f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)称为模型,它由参数向量 θ {\bm \theta} θ决定。 θ {\bm \theta} θ称为模型参数向量, θ {\bm \theta} θ所在的空间称为参数空间(Parameter Space)。一般来说,模型有两种形式,一种形式是概率模型(条件概率分布),另一种形式是非概率模型(决策函数)。决策函数还可以再分为线性和非线性两种,对应的模型称为线性模型和非线性模型。在实际应用中,将根据具体的学习方法来决定采用概率模型还是非概率模型。

将训练得到的模型称为一个假设,从输入空间到输出空间的所有可能映射组成的集合称为假设空间(Hypothesis Space)。在监督学习中,模型是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入特征向量 x {\bm x} x的线性函数,那么模型的假设空间是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个,而机器学习的目的是从这个假设空间中选择出一个最好的预测模型,即在参数空间中选择一个最优的估计参数向量 θ ^ \hat{{\bm \theta}} θ^

学习准则(策略)

在明确了模型的假设空间之后,接下来需要考虑的是按照什么样的准则(策略)从假设空间中选择最优的模型,即学习准则或策略问题。

机器学习最后都归结为求解最优化问题,为了实现某一目标,需要构造出一个“目标函数”(Objective Function),然后让目标函数达到极大值或极小值,从而求得机器学习模型的参数。如何构造出一个合理的目标函数,是建立机器学习模型的关键,一旦目标函数确定,可以通过优化算法来求解。

对于监督学习中的分类问题与回归问题,机器学习本质上是给定一个训练样本集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T = \{({\bm x}_1, y_1), ({\bm x}_2, y_2), \ldots, ({\bm x}_N, y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)},尝试学习 x i → y i {\bm x}_i \rightarrow y_i xiyi的映射函数 f ( x i ; θ ) f({\bm x}_i; {\bm \theta}) f(xi;θ),其中 θ {\bm \theta} θ是模型的参数向量,使得给定一个输入样本数据 x {\bm x} x,即便这个 x {\bm x} x不在训练样本中,也能够为 x {\bm x} x预测出一个标签值 y ^ \hat{y} y^

  1. 损失函数

    (1)0-1 损失函数
    0-1 损失函数(0-1 Loss Function)是最直接地反映模型正确与否的损失函数,对于正确的预测,损失函数值为 0;对于错误的预测,损失函数值为 1。其数学表达式为:
    L ( y i , f ( x i ; θ ) ) = { 0 , f ( x i ; θ ) = y i 1 , f ( x i ; θ ) ≠ y i L(y_i, f({\bm x}_i; {\bm \theta})) = \begin{cases} 0, & f({\bm x}_i; {\bm \theta}) = y_i \\ 1, & f({\bm x}_i; {\bm \theta}) \neq y_i \end{cases} L(yi,f(xi;θ))={0,1,f(xi;θ)=yif(xi;θ)=yi

    可见,0-1 损失函数不考虑预测值与实际值的误差大小,只要预测错误,损失函数值均为 1。虽然 0-1 损失函数能够直观地反映模型的错误情况,但是它的数学性质并不是很好——不连续也不可导,因此在优化时很困难。通常,会选择其他相似的连续可导函数来替代它。

    (2)平方损失函数
    平方损失函数(Quadratic Loss Function)是模型输出的预测值与实际观测值之差的平方,其数学表达式为:
    L ( y i , f ( x i ; θ ) ) = [ y i − f ( x i ; θ ) ] 2 L(y_i, f({\bm x}_i; {\bm \theta})) = [y_i - f({\bm x}_i; {\bm \theta})]^2 L(yi,f(xi;θ))=[yif(xi;θ)]2

    从直觉上理解,平方损失函数只考虑预测值与实际观测值之间误差的大小,不考虑其正负。但由于经过平方运算,与实际观测值偏差较大的预测值会比偏差较小的预测值受到更严重的惩罚。平方损失函数具有良好的数学性质——连续、可微分且为凸函数,是机器学习回归任务中最常用的一种损失函数,也称为 L 2 L_2 L2损失函数。

当模型输出预测值与实际观测值之间的误差服从高斯分布的假设成立时,最小化均方误差损失函数与极大似然估计本质上是一致的,在此情形下(如回归任务),均方误差损失函数是最优的选择。

(3)绝对损失函数

绝对损失函数(Absolute Loss Function)是模型输出的预测值与实际观测值之差的绝对值,其数学表达式为:
L ( y i , f ( x i ; θ ) ) = ∣ y i − f ( x i ; θ ) ∣ L(y_i, f({\bm x}_i; {\bm \theta})) = |y_i - f({\bm x}_i; {\bm \theta})| L(yi,f(xi;θ))=yif(xi;θ)

绝对损失函数也称为 L 1 L_1 L1损失函数。与平方损失函数类似,绝对损失函数也只考虑预测值与实际观测值之间误差的大小,不考虑其正负。所不同的是,由于绝对损失与绝对误差之间是线性关系,平方损失与误差之间是平方关系,当误差非常大的时候,平方损失会远大于绝对损失。因此,当样本中出现一个误差非常大的离群样本(Outlier)时,平方损失会产生一个非常大的损失,对模型的训练会产生较大的影响。所以,与平方损失函数相比,绝对损失函数对于离群样本更加鲁棒,即不易受到离群样本的影响。

另一方面,当使用梯度下降算法时,平方损失函数的梯度为 [ y i − f ( x i ; θ ) ] [y_i - f({\bm x}_i; {\bm \theta})] [yif(xi;θ)],而绝对损失函数的梯度为 ± 1 \pm 1 ±1,即平方损失函数的梯度的幅度会随误差大小变化,而绝对损失函数的梯度的幅度则一直保持为 1,即便在绝对误差 ∣ y i − f ( x i ; θ ) ∣ |y_i - f({\bm x}_i; {\bm \theta})| yif(xi;θ)很小时,绝对损失函数的梯度的幅度也同样为 1,这实际上是非常不利于模型的训练的。当然,也可以通过在训练过程中动态调整学习率来缓解这个问题,但是总的来说,平方损失函数通常比绝对损失函数可以更快地收敛。

(4)对数损失函数

其定义为:
L ( y i , f ( x i ; θ ) ) = − log ⁡ P ( y i ∣ x i ) L(y_i, f({\bm x}_i; {\bm \theta})) = -\log P(y_i \mid {\bm x}_i) L(yi,f(xi;θ))=logP(yixi)

对数损失函数(Logarithmic Loss Function)或负对数似然损失函数(Negative Log Likelihood Loss Function)源于极大似然估计的思想——极大化对数似然函数,而通常习惯于最小化损失函数,因此将它转变为最小化负对数似然函数。取对数是为了方便计算极大似然估计,因为在极大似然估计中,直接求导比较困难,所以通常都是先取对数再求导寻找极值点。 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yixi)是指当前模型对于输入样本 x i {\bm x}_i xi的预测值为 y i y_i yi的概率,即预测正确的概率。因为对数函数是单调递增的,所以在公式中加上负号之后,表示预测正确的概率越高,其损失函数值越小,即最大化 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yixi)等价于最小化损失函数。对数损失函数通常用于逻辑斯谛回归(Logistic Regression)模型的推导中。

(5)交叉熵损失函数

交叉熵(Cross Entropy)是 Shannon 信息论中一个重要概念,用于衡量同一个随机变量中的两个不同概率分布的差异程度。假设一个样本集中有两个概率分布 p p p q q q,其中 p p p表示真实概率分布, q q q表示非真实概率分布。假如,按照真实概率分布 p p p来衡量表示一个样本所需要的编码长度的期望为:
H ( p ) = − ∑ i p i log ⁡ p i H(p) = -\sum_{i} p_i \log p_i H(p)=ipilogpi

但是,如果按照非真实概率分布 q q q来衡量表示服从真实概率分布 p p p的一个样本所需要的平均编码长度,则应该是:
H ( p , q ) = − ∑ i p i log ⁡ q i H(p, q) = -\sum_{i} p_i \log q_i H(p,q)=ipilogqi

此时将 H ( p , q ) H(p, q) H(p,q)称为交叉熵。

在机器学习中,交叉熵可作为损失函数。交叉熵损失函数(Cross-Entropy Loss Function)定义为:
L ( y i , f ( x i ; θ ) ) = − [ y i log ⁡ f ( x i ; θ ) + ( 1 − y i ) log ⁡ ( 1 − f ( x i ; θ ) ) ] L(y_i, f({\bm x}_i; {\bm \theta})) = -[y_i \log f({\bm x}_i; {\bm \theta}) + (1 - y_i) \log (1 - f({\bm x}_i; {\bm \theta}))] L(yi,f(xi;θ))=[yilogf(xi;θ)+(1yi)log(1f(xi;θ))]

(6)合页损失函数

对于一个二分类的问题,数据集的标签取值是 { + 1 , − 1 } \{+1, -1\} {+1,1},预测值是一个连续型实数值函数,那么合页损失函数(Hinge Loss Function)的定义为:
L ( y i , f ( x i ; θ ) ) = max ⁡ ( 0 , 1 − y i f ( x i ; θ ) ) L(y_i, f({\bm x}_i; {\bm \theta})) = \max(0, 1 - y_i f({\bm x}_i; {\bm \theta})) L(yi,f(xi;θ))=max(0,1yif(xi;θ))

在机器学习中,软间隔支持向量机(SVM)模型的原始最优化问题等价于最小化合页损失。只有当样本被正确分类且函数间隔大于 1 时,合页损失才等于 0;否则损失是 1 − y i f ( x i ; θ ) 1 - y_i f({\bm x}_i; {\bm \theta}) 1yif(xi;θ),只能大于 0。

除了上述几种损失函数外,还有其他针对特定任务的损失函数。总而言之,没有一个适合所有机器学习问题的损失函数,损失函数的设计是以能够更好地解决具体问题为目的的。针对特定问题选择损失函数涉及许多因素,例如所选机器学习模型的类型、是否易于计算导数以及训练样本集中离群样本所占比例等。

2. 期望风险

模型的输入 X {\bm X} X和输出 Y Y Y都可以看作是输入和输出联合空间的随机变量,服从联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y),称损失函数在该联合概率分布上的期望为 期望风险(Expected Risk),其数学表达式为:
R exp ⁡ ( θ ) = E ( X , Y ) ∼ P ( x , y ) [ L ( y , f ( x ; θ ) ) ] = ∫ L ( y , f ( x ; θ ) ) P ( x , y ) d x d y R_{\exp}({\bm \theta}) = E_{({\bm X}, Y) \sim P({\bm x}, y)}[L(y, f({\bm x}; {\bm \theta}))] = \int L(y, f({\bm x}; {\bm \theta})) P({\bm x}, y) \, {\rm d}{\bm x} {\rm d}y Rexp(θ)=E(X,Y)P(x,y)[L(y,f(x;θ))]=L(y,f(x;θ))P(x,y)dxdy

期望风险是损失函数的期望,用来度量平均意义下模型预测的性能好坏。

3. 经验风险

一个好的模型应当有较小的期望风险。机器学习的目标在于从假设空间中选取最优模型,而选取最优模型的准则是期望风险最小化。显然,要使期望风险 R exp ⁡ ( θ ) R_{\exp}({\bm \theta}) Rexp(θ)最小化,需要知道联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y),在模式分类问题中,即必须已知先验概率和条件概率密度。但是,在实际的机器学习问题中,无法得知真实的联合概率分布函数,因此也没有办法直接计算期望风险。事实上,如果知道数据的联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y),可以直接利用贝叶斯公式求得条件概率 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yixi),也没必要学习模型了。

然而,从另一个方面来看,可以利用训练样本集中的 N N N个观测样本近似地求出经验风险。给定一个训练样本数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x i , y i ) , ⋯ , ( x N , y N ) } , T = \{({\bm x}_1, y_1), ({\bm x}_2, y_2), \cdots, ({\bm x}_i, y_i), \cdots, ({\bm x}_N, y_N)\}, T={(x1,y1),(x2,y2),,(xi,yi),,(xN,yN)}

很容易计算出模型的经验风险(Empirical Risk)或经验损失(Empirical Loss),即根据训练样本集的平均损失。

R emp ( θ ) = 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) R_{\text{emp}}({\bm \theta}) = \frac{1}{N} \sum_{i=1}^{N} L(y_i, f({\bm x}_i; {\bm \theta})) Remp(θ)=N1i=1NL(yi,f(xi;θ))

由于 R emp ( θ ) R_{\text{emp}}({\bm \theta}) Remp(θ)是用已知训练样本(即经验数据)定义的,因此称为经验风险。在假设空间、损失函数以及训练样本集确定的情况下,经验风险可以确定。根据大数定律,当训练样本集中的样本数量 N N N趋向于无穷大时,经验风险收敛于期望风险。这样,可用经验风险 R emp ( θ ) R_{\text{emp}}({\bm \theta}) Remp(θ)来逼近期望风险 R exp ⁡ ( θ ) R_{\exp}({\bm \theta}) Rexp(θ)。使得经验风险最小的模型是最优的模型,这是经验风险最小化(Empirical Risk Minimization, ERM)准则。按照经验风险最小化准则,求解模型的最优参数估计是求解如下的最优化问题:

θ ^ = arg ⁡ min ⁡ θ R emp ( θ ) = arg ⁡ min ⁡ θ 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) \hat{{\bm \theta}} = \arg \min_{{\bm \theta}} R_{\text{emp}}({\bm \theta}) = \arg \min_{{\bm \theta}} \frac{1}{N} \sum_{i=1}^{N} L(y_i, f({\bm x}_i; {\bm \theta})) θ^=argθminRemp(θ)=argθminN1i=1NL(yi,f(xi;θ))

4. 结构风险

当训练集中的样本数量足够大时,经验风险最小化(ERM)准则能保证有很好的效果,在现实中被广泛采用。例如,极大似然估计(Maximum Likelihood Estimation)是经验风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。然而,通常情况下,由于训练样本集中的样本数量是有限的,而且训练集中的样本数据包含了各种噪声,因此实际所用的训练集不能很好地反映样本数据的真实分布。在这种情况下,如果利用经验风险最小化准则,则会导致模型产生“过拟合”(Overfitting)现象。

导致“过拟合”发生的因素有很多,最主要的原因是训练样本数量不足以及模型过于复杂。为了解决这一问题,需要引入结构风险函数,即对经验风险函数进行矫正,即在经验风险上加上表示模型复杂度的正则(Regularization)项或惩罚(Penalty)项。在假设空间、损失函数以及训练样本集确定的情况下,结构风险函数定义为:
R str ( θ ) = 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) + λ φ ( θ ) R_{\text{str}}({\bm \theta}) = \frac{1}{N} \sum_{i=1}^N L(y_i, f({\bm x}_i; {\bm \theta})) + \lambda \varphi ({\bm \theta}) Rstr(θ)=N1i=1NL(yi,f(xi;θ))+λφ(θ)

式中, λ ( λ > 0 ) \lambda (\lambda > 0) λ(λ>0)为正则化系数,也称惩罚因子,用以权衡经验风险和模型复杂度; φ ( θ ) \varphi ({\bm \theta}) φ(θ)代表模型函数的复杂度,是定义在假设空间上的泛函,简单来说是函数的函数。模型函数的复杂度越高, φ ( θ ) \varphi ({\bm \theta}) φ(θ)也越大。一般使用模型参数向量 θ {\bm \theta} θ ℓ 2 \ell_2 2范数或 ℓ 1 \ell_1 1范数来近似模型的复杂度。通过设置正则化系数 λ \lambda λ,来权衡经验风险和正则项,减小参数规模,达到模型简化的目的,从而使模型具有更好的泛化能力。因此,结构风险函数强制使模型的复杂度不应过高,这种学习准则(策略)称为结构风险最小化(Structural Risk Minimization, SRM)准则。正则化可以看成结构风险最小化的实现,是为了防止过拟合而提出来的策略。

结构风险小意味着经验风险小、模型复杂度低。结构风险小的模型通常对训练样本以及新的测试样本都有较好的预测性能。结构风险最小化的策略认为结构风险最小的模型是最优的模型。所以按照结构风险最小化准则,求解模型的最优参数估计是求解如下的最优化问题:
θ ^ = arg ⁡ min ⁡ θ R str ( θ ) = arg ⁡ min ⁡ θ [ 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) + λ R ( θ ) ] \hat{{\bm \theta}} = \arg \min_{{\bm \theta}} R_{\text{str}}({\bm \theta}) = \arg \min_{{\bm \theta}} \left[ \frac{1}{N} \sum_{i=1}^N L(y_i, f({\bm x}_i; {\bm \theta})) + \lambda R({\bm \theta}) \right] θ^=argθminRstr(θ)=argθmin[N1i=1NL(yi,f(xi;θ))+λR(θ)]

优化算法

在获得了训练样本集、确定了假设空间以及选定了合适的学习准则之后,要根据准则(策略)从假设空间中选择最优模型,需要考虑用什么样的计算方法来求解模型参数估计。

机器学习模型的训练和学习的过程,实际上是求解最优化问题的过程。如果最优化问题存在显式的解析解,则这个最优化问题比较简单,可以求出它的闭式解。但是,如果不存在解析解,则需要通过数值计算的方法来不断逼近。在机器学习中,很多优化函数是凸函数,因此,如何高效地寻找到全局最优解,是一个值得研究的问题。

目前,常用的优化算法有梯度下降法(Gradient Descent, GD)、随机梯度下降法(Stochastic Gradient Descent, SGD)、批量梯度下降法(Mini-Batch Gradient Descent, MBGD)、牛顿法、拟牛顿法、坐标下降法等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896901.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

集成方案 | Docusign 能与哪些应用程序集成?

如何实现 Docusign 与多种系统平台之间的高效集成? 在企业跨境签约场景中,员工常常需要在电子签系统与办公应用(如钉钉、企业微信)、CRM、ERP 等系统之间来回切换,手动上传合同、下载签署文件并同步数据。这种繁琐的操…

2025华为OD机试真题目录【E卷+A卷+B卷+C卷+D卷】持续收录中...

摘要 本专栏提供2025最新最全的华为OD机试真题库(EABCD卷),包括100分和200分题型。题目包含题目描述、输入描述、用例、备注和解题思路、多种语言解法(Java/JS/Py/C/C)。希望小伙伴们认真学习、顺利通过。 声明 本专…

广域互联网关键技术详解(GRE/LSTP/IPsec/NAT/SAC/SPR)

《广域互联网关键技术详解》属于博主的“广域网”专栏,若想成为HCIE,对于广域网相关的知识需要非常了解,更多关于广域网的内容博主会更新在“广域网”专栏里,请持续关注! 一.前言 广域互联技术纷杂多样,不…

AF3 _correct_post_merged_feats函数解读

AlphaFold3 msa_pairing 模块的 _correct_post_merged_feats 函数用于对合并后的特征进行修正,确保它们符合预期的格式和要求。这包括可能的对特征值进行调整或进一步的格式化,确保合并后的 FeatureDict 适合于后续模型的输入。 主要作用是: 在多链蛋白质 MSA(多序列比对)…

Docker 学习(三)——数据管理

容器中的管理数据主要有两种方式: 数据卷 (Data Volumes): 容器内数据直接映射到本地主机环境; 数据 卷容器( Data Volume Containers): 使用特定容器维护数据卷 1.数据卷 数据卷…

基于SSM+Vue+uniapp的考研交流(带商城)小程序+LW示例参考

系列文章目录 1.基于SSM的洗衣房管理系统原生微信小程序LW参考示例 2.基于SpringBoot的宠物摄影网站管理系统LW参考示例 3.基于SpringBootVue的企业人事管理系统LW参考示例 4.基于SSM的高校实验室管理系统LW参考示例 5.基于SpringBoot的二手数码回收系统原生微信小程序LW参考示…

2025-03-04 学习记录--C/C++-PTA 练习5-3 字符金字塔

合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。💪🏻 一、题目描述 ⭐️ 二、解题步骤 ⭐️ 第1步、把字符和一个空格看作整体,即"G_"; 第2步、外…

DeepSeek集成到VScode工具,让编程更高效

DeepSeek与VScode的强强联合,为编程效率树立了新标杆。 DeepSeek,一款卓越的代码搜索引擎,以其精准的索引和高速的检索能力,助力开发者在浩瀚的代码海洋中迅速定位关键信息。 集成至VScode后,开发者无需离开熟悉的编辑…

前端-css(预编译器sass)

1.sass(scss->sass第三代) Sass3 -> Scss(Sassy CSS),SCSS(Sassy CSS) 是 CSS 语法的扩展. 2.scss注释 Sass 支持标准的 CSS 多行注释 /* */,以及单行注释 //,前者会 被完整输出到编译后的 CSS 文件中,而后者则不会 3.scss定义变量 …

【计算机网络入门】初学计算机网络(十一)重要

目录 1. CIDR无分类编址 1.1 CIDR的子网划分 1.1.1 定长子网划分 1.1.2 变长子网划分 2. 路由聚合 2.1 最长前缀匹配原则 3. 网络地址转换NAT 3.1 端口号 3.2 IP地址不够用? 3.3 公网IP和内网IP 3.4 NAT作用 4. ARP协议 4.1 如何利用IP地址找到MAC地址…

Android 获取jks的SHA1值:java.io.IOException: Invalid keystore format

命令生成 keytool -list -v -keystore 全路径.jks -alias 别名 -storepass 密码 -keypass 密码 1、遇到 的问题: 通过快捷键 ‘win r’ 启动的小黑框运行上面的命令会出现下面这个错误keytool 错误: java.io.IOException: Invalid keystore format 2、解决问题 …

掌握 ElasticSearch 聚合查询:Aggregations 入门与实战

掌握 ElasticSearch 聚合查询:Aggregations 入门与实战 一、引言 (Introduction)二、数据准备 (Data Preparation)2.1 创建索引 (Create Index)2.2 批量导入数据 (Bulk Import Data) 三、聚合查询基础 (Aggregation Basics)3.1 什么是聚合查询?(What are…

Microsoft.Office.Interop.Excel 的简单操作

Microsoft.Office.Interop.Excel 的简单操作 1、安装 Microsoft.Office.Interop.Excel2、声明引用 Microsoft.Office.Interop.Excel3、简单的新建 EXCEL 操作代码4、将 DataGridView 表数据写到 EXCEL 操作代码5、将 EXCEL 表数据读取到 C# 数据表 DataTable 操作代码 1、安装 …

LLM 对话框组件 | 字节青训营前端开发项目

系统介绍 LLM对话框项目系统介绍 一、项目概述 选题背景随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著进展,其中对话系统(Dialog System)作为NLP的重要应用方向,正逐渐渗透到人们的日常生活中。从智能客服到语音助手,从智能家居到在线教育,对话系统以…

k8s命名空间和资源配额

在现代的云计算环境中,容器化技术已成为主流。而 Kubernetes(简称 k8s)作为一项开源的容器编排系统,广泛应用于各类场景。本文将详细介绍关于 k8s 中的命名空间和资源配额,帮助你更好地理解和管理你的集群资源。 k8s …

从统计学视角看机器学习的训练与推理

从统计学视角看机器学习的训练与推理 目录 引言:统计学与机器学习的奇妙缘分训练与推理:你得先学会“看数据”再“用数据”最大似然估计(MLE):从直觉到数学证明 3.1 伯努利分布的MLE3.2 单变量高斯分布的MLE3.3 多元…

AI赋能企业协作4-NL2Sql技术路线

1.1 对话即服务的一点思考 在数智化转型的过程中,基于即时通信(IM)的协作平台正悄然成为企业智能化转型的“新基建”。协作平台天然具备高频交互、实时协同和场景化落地的特性,仿佛是为对话式AI量身定制的试验场——员工在熟悉的聊…

批量提取 Word 文档中的页面

如何将 Word 文档中的页面提取出来形成一个新的文档呢?比如将 Word 文档中的第一页提取出来、将 Word 文档中的最后一页提取出来、再或者将 Word 文档中的中间几页提取出来等等。人工的处理肯定非常的麻烦,需要新建 Word 文档,然后将内容复制…

Sqlserver安全篇之_启用TLS即配置SQL Server 数据库引擎以加密连接

官方文档 https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/configure-sql-server-encryption?viewsql-server-ver16 https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/manage-certificates?viewsql-server-ver15&pre…

多镜头视频生成、机器人抓取、扩散模型个性化 | Big Model weekly第58期

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot 本文介绍了一种名为GLM-4-Voice的智能且类人化的端到端语音聊天机器人。它支持中文和英文,能够进行实时语音对话&a…