LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)

首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率

这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可以这么考虑

比如有n个x,xi对应yi=1的概率是pi,yi=0的概率是1-pi,当参数θ取什么值最合适呢,可以考虑

n个x中对应k个1,和(n-k)个0(这里k个取1的样本是确定的,这里就假设前k个是1,后边的是0.平时训练模型拿到的样本也是确定的,如果不确定还要排列组合)

则(p1*p2*...*pk)*(1-pk+1)*(1-pk+2)*...*(1-pn)最大时,θ是最合适的。联合概率最大嘛,就是总体猜的最准,就是尽可能使机器学习中所有样本预测到对应分类得概率整体最大化。

其实上边的算式就是极大似然估计的算式:

对应到LR中:

总之就是因为LR是概率模型,对概率模型估计参数用极大似然,原理上边说了

 

然后为什么用logloss作为cost function呢

主要的原因就是因为似然函数的本质和损失函数本质的关系

对数似然函数:

 可以看到对数似然函数和交叉熵函数在二分类的情况下形式是几乎一样的,可以说最小化交叉熵的本质就是对数似然函数的最大化。

对数似然函数的本质就是衡量在某个参数下,整体的估计和真实情况一样的概率,越大代表越相近

而损失函数的本质就是衡量预测值和真实值之间的差距,越大代表越不相近。

他们两个是相反的一个关系,至于损失函数的惩罚程度,可以用参数修正,我们这里不考虑。

所以在对数似然前边加一个负号代表相反,这样就把对数似然转化成了一个损失函数,然后把y取0和1的情况分开(写成分段函数),就是:

 

 意义就是:当y=1时,h=1时没有损失,h越趋近0损失越大

当y=0时,h=0没有损失,h越趋近1损失越大。

转载于:https://www.cnblogs.com/hum0ro/p/10243115.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484379.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LSTM之父撰文,纪念这位图灵奖遗珠、“AI理论之父”

原文:1931: Kurt Gdel, founder of theoretical computer science, shows limits of math, logic, computing, and artificial intelligence作者:Jrgen Schmidhuber (知名 AI 学者,LSTM 之父)译者:刘媛媛摘…

Maven简述以及配置使用

目前的技术存在的问题(引入Maven的重要性) 一个项目就是一个工程; 如果项目非常庞大,就不再适合使用package来划分模块;最好是每一个模块对应一个工程,利于分工协作; 借助于Maven可以将一个项目…

python-朴素贝叶斯分类器

朴素贝叶斯分类器 朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。对于给定数据,首先基于特征的条件独立性假设,学习输入输出的联合概率分布, 然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率…

依图科技终止上市审核:冲击科创板「AI第一股」失败

来源:机器之心AI 创业公司在国内市场 IPO 真就这么困难?7 月 2 日晚上交所消息,决定终止对依图科技首次公开发行存托凭证并在科创板上市的审核。依图的上市申请是于 2020 年 11 月 4 日被上交所依法受理的,其股票预计采用 CDR&…

神经网络-前向传播

前向传播神经网络搭建 1.tensorflow库搭建神经网络 参数:线上的权重W,用变量表示,随机给初值。相关介绍 tf.truncated_normal():去掉过大偏离点的正太分布tf.random_normal()正太分布tf.random_uniform():平均分布tf.zeros:全零数组&#x…

对汉诺塔递归算法的理解(图解,附完整代码实现)

前情提要: 首先说一下汉诺塔游戏的规则:如下图所示,有三个柱子A,B,C,我们要做的是把A柱的所有圆盘,全部转移到C柱上,转移时遵循的规则如下: 1、每次只能移动一个圆盘 2、所有的大圆盘必须在小圆盘的下面 过…

再会迪杰斯特拉(Dijkstra)

迪杰斯特拉算法 算法说明 迪杰斯特拉算法用来求解某一个起点到以其他所有点为终点的最短路径长度; 算法思路-贪心算法 以下图为例 指定一个节点(即起点),例如计算“A”到其他节点的最短路径;引入两个集合(S,U&…

数字孪生等前沿技术,将如何解码未来交通?

来源:物联网智库目前,国内在交通领域的技术创新层出不穷,交通出行领域已经成为创新科技聚集和爆发的领域。众多新科技的出现,正在给我们描绘出一幅未来交通的蓝图。在面向未来的诸多关于智慧交通的前沿应用和解决方案中&#xff0…

神经网络-反向传播

反向传播 反向传播---->训练参数,在所有参数上使用梯度下降。使NN模型在训练数据上的损失函数最小。损失函数(loss):预测值(y)与已知答案(y_)的差距。均方误差MSE:, …

第七章 二叉搜索树(b3)BST:删除

转载于:https://www.cnblogs.com/ZHONGZHENHUA/p/10247191.html

2021天梯赛题解

2021程序设计天梯赛在4月24日举办,本文是天梯赛的部分题解,有的问题在当时也没有得到满分,由于学校开启了天梯赛的重现比赛,再写一写。 注意:本文答案不是标准答案,每道题收获的分数写在了相应位置&#x…

python-scrapy爬虫框架

scrapy爬虫框架 1.Scrapy爬虫框架 scrapy 不是一个函数功能库,而是一个爬虫框架。scrapy爬虫框架: 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。.简单说爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。scrapy爬虫框架共包含…

如何正确地运用人工智能模型?

来源:内容摘自《模型思维:简化世界的人工智能模型(全彩)》模型,是客观事物的简化表示!历史上,每一个伟大模型的提出,都极大地推动了科学和社会的发展,比如历史上出现的3个…

讲解Linux数据库安装

学习了linux这门课之后,就开始实践过程了,这样比较记得牢固,学以致用。 有了基本的命令,就可以试着安装数据库了。 企业环境需要安装VMWare ESXi虚拟机,然后再在里面新建虚拟机。 镜像vmware-viclient-all-5.1.0-10641…

神经网络-损失函数:

神经网络中的损失函数: 1.神经网络的复杂度:多用神经网络的层数和神经网络的参数的个数表示。 2.层数隐藏层的层数1个输出层,总参数总的权重w与总的偏置项b。 3.自定义损失函数: 通过每个需要预测的结果y与标准答案y_比较&…

张钹院士:制约人工智能发展的最大困难是什么?

出品:新基建访谈采访:张楠整理:广胜脑科学被誉为自然科学研究的“终极疆域”,脑科学的发展不仅直接关系人类对于意识诞生机制的探索,也对推动当前 AI 技术发展具有重要意义。对于脑科学目前的发展现状、面临的难题、与…

linux提权辅助工具(二):linux-exploit-suggester-2.pl

来自:https://github.com/jondonas/linux-exploit-suggester-2/blob/master/linux-exploit-suggester-2.pl #!/usr/bin/perl use strict; use warnings; use Getopt::Std;our $VERSION 1.1;my %opts; getopt( k,h, \%opts ); usage() if exists $opts{h};my ( $kho…

swap交换算法

交换算法(swap) void swap(int x,int y)void swap(int *px,int *py)#define swap(x,y,t) ((t)(x),(x)(y),(y)(x))void swap(int &x,int &y)template<class T> void swap(T&x,T&y) #include<iostream> using namespace std; void swap(int &x…