机器学习笔记(了解)

1、概念

机器学习,就是通过历史数据找出一定的规律,并使用这些规律对将来不确定的场景进行决策。

机器学习VS数据分析

数据分析,是人为的从历史交易数据中找规律,从而决策。
机器学习,是机器使用算法,从历史行为数据中找规律,从而决策。

交易数据是少量的,行为数据是海量的。

数据分析的准确性,主要取决于分析的这个专家的能力高低。
机器学习的准确性,主要取决于历史数据。

专家再厉害,他的判断也会带有片面性和个人主观性。

所以由数据分析到机器学习,其实就是用数据代替专家的过程。

机器学习VS统计学

统计学,海量数据抽样分析,得到结论,反向校验,优化结论。
机器学习,海量数据全量分析,得到结论。

统计学,最早是因为数据量太大,没法全量处理,才不得已用了抽样的方法。
当有了机器学习,这个问题其实也算被解决了。

离线机器学习VS在线机器学习

大部分机器学习,都是离线的,比如攒一天的数据,每天凌晨批量机器学习一次。
特殊业务场景,需要在线实时机器学习。不断的通过新数据去刺激模型,电商的推荐一般都是实时的。比如猜你喜欢,总能在你搜索完一个商品后,在后续的浏览中就把你刚刚搜索过的类似商品推荐给你。

2、机器学习的应用

购物分析(关联规则算法)

经典案例:美国的啤酒和纸尿裤,总是同时被购买。商家进行对应的捆绑营销,提高销售额。

精准营销(聚类算法)

将人精确的分为不同的类,每类进行不同的营销。

垃圾邮件的识别(朴素贝叶斯算法)

识别垃圾邮件

信用卡欺诈(决策树算法)

信贷风险识别(还款能力不足和骗贷)

互联网广告(ctr预估算法,线性逻辑回归)

对用户的点击率进行预估,比如搜索,对于展示的每一条结果,都会评价一个用户点击的概率,然后按照这个概率的大小进行排列展示,让最有可能点的排在最前面。

推荐系统(协同过滤算法)

电商的推荐系统,猜你喜欢。通过推荐一些用户可能买的东西,提高销量。

自然语言处理

情感分析,通过一个人的评论,分析出这个人的可能性格,从而归类。
实体识别,提取一篇文章的主干信息,比如人名地名等,从而尝试确定一个实体。
等等。。。

图像识别(深度学习)

人脸识别,还有支付宝那个扫一扫就知道是什么植物的功能

其他

语音识别
自动驾驶
视频识别
手势控制
智慧机器人
等等。。。

3、常用算法分类

3.1、按监督分类

y=f(x)

有监督学习:明确指出数据属于哪些标签,再去学习,最终得到模型。

分类算法
回归算法

无监督学习:提前不知道要训练成什么样子

聚类算法

半监督学习:也叫强化学习,一开始训练效果不好,随着时间慢慢强化模型

3.2、按模型分类

生成模型(万事好商量)

使用生成模型,最终你给一个入参,模型会给你不同结果的概率。

判别模型(非黑即白)

判别模型,最终模型会给你一个函数,你给他入参,他就给你出参。

4、机器学习解决问题的套路

4.1、确定目标

1、根据业务需求,确定目标
2、收集历史数据
3、做特征工程(数据预处理,清理,整合),提取出特征

最终的模型,能达到多大的效果,绝大部分因素取决于特征工程做的好不好。所以特征工程是最重要的一步

4.2、训练模型

1、定义模型:定义好一个公式,各个参数需要训练得出
2、定义损失函数:定义最终结果的偏差的大小,最终能量化的知道预测结果和真实结果的差值
3、优化算法:损失函数取最小

4.3、模型评估

1、交叉验证
2、效果评估

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/499759.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习笔记(常见算法)

C4.5 属于决策树算法,既可以解决分类问题,也可以解决回归问题,属于有监督算法。 现在基本不用这个算法了。 K-Means 属于聚类算法,属于无监督算法 SVM(*) 支持向量机。 曾经一度认为是分类效果最好的算…

赶紧看一下mysql8.0版本的新特性,你的数据库是不是该升级了

这里写目录标题前言mysql8.0的新特性1、账户安全2、优化器索引2.1、隐藏索引(invisible)2.2、降序索引2.3、函数索引3、SQL语句增强4、新增数据分析函数5、InnoDB增强5.1、优化了一些元数据文件5.2、将系统表mysql和数据字典表,全部改为InnoD…

ThreadLocal不仅要应付面试,更要真的理解,真的会用

前言 记得我几年前第一次面试的时候,就是被问了这个,记得面试官直接就让我说说ThreadLocal的实现原理以及平时有没有见过哪些地方用到了。 我当时初入职场,还是一个大菜鸟,所以直接就被干蒙了,至今还记忆犹新。 闲来…

秒杀业务的基础点

秒杀的是一个很常见的业务了。就是在某个时刻,让大量用户抢购少量的优惠的商品,从而达到商品曝光和电商网站的曝光,增大用户流量,从而提升整体销售额。 比如今年疫情下,各大电商网站,就针对口罩开展了秒杀…

随想,产品思维和开发思维

有时候,产品思维和开发思维,由于出发点的不同,会产生较大的分歧。 作为一个开发,不仅要有自己的思维,也要了解产品的思维,这样才能在和产品的撕逼的战斗中所向披靡,百战百胜。 举个例子&#x…

Base64编码的原理与常用实现

这篇主要是为了后面好介绍加密算法,做的铺垫。 这个是基础,什么是一个程序员的涵养,这些基础就是涵养。 平时可能用不到,但必须得会。 如果连这个原理都说不上来,就别玩王者荣耀绝地求生英雄联盟和平精英了&#xff0c…

MD5算法原理与常用实现

目录定义MD5特点常见应用场景1、校验文件的完整性2、存储用户密码原理1、填补信息2、拿到初始值3、真正的计算MD5为什么不可逆java实现和使用定义 MD全称Message-Digest,即信息摘要,所以MD家族的算法也叫信息摘要算法 MD家族有MD2、MD3、MD4、MD5&#…

SHA算法原理与常用实现

看本文前,最好先看看之前的这一篇关于MD5算法的介绍。 MD5算法原理与常用实现 本文目录定义MD5和SHA-1的碰撞问题常见应用场景1、类似MD5的应用场景2、比特币3、https签名算法会用到SHA-256算法原理1、填补信息2、拿到初始值3、真正的计算java实现和使用定义 SHA算…

MAC算法原理与常用实现

看本文前,最好先看看之前的对于MD5算法和SHA算法的介绍。 本文目录定义常见应用场景1、linux客户端:SecureCRT2、Google身份验证器3、银联pos机终端原理java实现和使用定义 MAC(Message Authentication Codes),是一种…

对称加密算法原理与常用实现

目录定义常用对称加密算法DES3DESAESPEB常用对称加密算法的java实现DES实现3DES实现AES实现PEB实现定义 原文通过加密秘钥生成密文,密文通过解密秘钥得到原文。 对于加密秘钥和解密秘钥是相同的算法,就叫对称加密算法。 常用对称加密算法 DES Data E…

面试 HTTP ,99% 的面试官都爱问这些问题

HTTP 和 HTTPS 的区别HTTP 是一种 超文本传输协议(Hypertext Transfer Protocol),HTTP 是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范HTTP 主要内容分为三部分,超文本(Hypertext)、传输…

非对称加密算法 --- RSA签名算法

目录RSA原理RSA应用场景RSA加密场景RSA签名场景RSA加解密和签名算法的java实现RSA原理 通过一定的规则,生成公钥和私钥,公钥和私钥总是成对出现。 公钥可以公开出去,任何人都可以知道。 私钥只有自己知道。 RSA算法能保证,公钥加…

@JsonFormat失效解决

先说结论 JsonFormat失效,换成JSONField就好了 问题经过和原理 JsonFormat作为Date类型的属性值,返回前端格式化处理,很方便。 比如: JsonFormat(pattern "yyyy/MM/dd HH:mm:ss")private Date updateTime;返回给前端…

如何在摆摊经济中脱颖而出

最近,摆摊经济开始火了起来,于是各路诸侯纷纷举起大旗开始摆摊。我周围也不乏有亲朋好友蠢蠢欲动,有的甚至已经初有规模。但这波摆摊风是否真的可行,对谁可行,有哪些风口,有哪些坑,我们慢慢分析…

java 实现 生成短链接服务

java实现短链接转换服务 类似上图这种短信,对应的就是一个短链接。 看到原理也不难,于是先写个最简易版的玩玩,以后有需求了再补充吧 下面是一个简易版的短链接生成代码 搭个spring-boot服务,复制这两个controller,就…

[转载] --- Fastjson1.2.68版及以下全版本远程代码执行漏洞通告

再这样&#xff0c;真的要放弃fastjson了 【安全通告】Fastjson <1.2.68全版本远程代码执行漏洞通告 尊敬的腾讯云用户&#xff0c;您好&#xff01;近日&#xff0c;腾讯云安全运营中心监测到&#xff0c;Fastjson <1.2.68版本存在远程代码执行漏洞&#xff0c;漏洞被利…

[记录] --- safari浏览器对于yyyy-MM的坑

问题 后端给前端返回的带格式的日期类型时&#xff0c;很多时候都是yyyy-MM-dd格式的&#xff0c;在一般浏览器中都没问题&#xff0c;但safari浏览器就会出问题。 解决&#xff1a; 换成yyyy/MM/dd格式

数据库选型经验汇总

数据库选型 下面这些都是免费开源的。 暂且不考虑数据量&#xff0c;大致的选型方案。 一般分析型数据库&#xff0c;都是可以支持GB到TB级别。 上面的分类都不是一定的&#xff0c;只是大体上的推荐。具体还得结合实际场景调整。 数据处理大致可以分成两大类&#xff1a; 联…

excel导出经验

excel导出经验&#xff0c;供参考 数据量&#xff1a;1万以下 直接导出&#xff0c;正常在5秒内 数据量&#xff1a;1万-10万 直接导出&#xff0c;正常在10秒内 数据量&#xff1a;超过10万&#xff0c;建议多文件导出。 可使用多线程查询&#xff0c;比如一个线程查1万…

LeetCode删除排序数组中的重复项(Java实现)

原题&#xff1a; 给定一个排序数组&#xff0c;你需要在 原地 删除重复出现的元素&#xff0c;使得每个元素只出现一次&#xff0c;返回移除后数组的新长度。 不要使用额外的数组空间&#xff0c;你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 示例 1: …