你有没有遇到过这样的情况:看统计学教材,第一页就写着"随机变量X服从某某分布"。
你立马懵了——变量我懂,随机我也懂,但"随机变量"是个啥玩意儿?为什么还要用X、Y这些字母表示?
得先纠正一个认知误区:很多人以为"随机变量"是个高深的数学概念,其实它就是把生活中的不确定性用数字记录下来而已。
我们倒着来理解。
先忘掉"变量"两个字
什么是"随机"?
就是结果不确定、不可预测。
明天会不会下雨?随机
抛硬币是正面还是反面?随机
这些事情在发生之前,你无法100%确定结果。
那为什么要加"变量"两个字?
因为我们想用数字来描述这些不确定的结果。
比如:
抛硬币:正面=1,反面=0
明天降雨量:0毫米、10毫米、50毫米……
等外卖时间:15分钟、30分钟、45分钟……
遇到红灯数:0个、1个、2个……
把不确定的事情结果对应到数字,这个"数字"就是随机变量。
说人话就是:随机变量=会变化的数字,而且变成啥不确定。
生活中到处都是随机变量
举几个超接地气的例子,你就明白了。
例子1:早高峰的地铁
你每天早上坐地铁上班,每次挤地铁都是一次"随机试验"。
随机变量X=你今天车厢里能数出来有多少人
周一早上8点:X=180人(要命的挤)
周三早上9点:X=50人(舒服)
周五早上8:30:X=120人(还行)
每天的X都不一样,这就是"变"。在你上车之前,X是多少你不知道,这就是"随机"。
例子2:你的体重
随机变量Z=你明早起床时的体重(公斤)
虽然不会天天大幅波动,但确实每天都有微小变化:
周一:Z=65.2kg
周二:Z=64.8kg(昨晚没吃晚饭)
周三:Z=66.1kg(昨晚火锅)
在你没称之前,Z是多少?不确定。这也是随机变量。
看到没?凡是"结果是数字,但不确定会是多少"的东西,都可以看成随机变量。
随机变量的两个亲兄弟
随机变量有两种类型,区别超简单。
类型1:离散型随机变量
特点:结果只能是特定的几个数,中间没有其他值。
例子:
抛硬币结果:只能是0或1,不可能是0.5
掷骰子点数:只能是1、2、3、4、5、6
判断标准:能不能"数"出来?能数的就是离散型。
类型2:连续型随机变量
特点:结果可以是某个范围内的任意数值。
例子:
你的身高:可能是170.2cm,也可能是170.21cm,还可能是170.215cm……
等公交的时间:可以是3.5分钟,也可以是3.53分钟
判断标准:需要"测量"才能得到的,一般是连续型。
两者区别口诀:
能数的,离散。
能量的,连续。
为什么要用X、Y这些字母?
很多人看到X、Y就头疼,觉得这是在故意搞复杂。
其实不是。用字母是为了方便讨论还没发生的事。
不用字母,你得这么说:
"我想研究明天上班路上遇到红灯的次数,这个次数可能是0、可能是1、可能是2……"
每次都这么说?累不累?
用字母,就清爽多了:
"设X为遇到红灯的次数"
然后你就可以讨论:
X=0的概率是多少?(一路绿灯)
X=5的概率是多少?(运气太差)
X平均是多少?(期望值)
X就是一个代号,代表"那个还不确定、但可以用数字表示的结果"。
就像你给你家狗起个名字叫"旺财",以后就不用每次都说"我家那只黄色的、会摇尾巴的、四条腿的动物"了。
随机变量最重要的两个问题
当你确定了一个随机变量,比如X=今天等外卖的时间,你最关心什么?
问题1:X会是多少?(可能的取值)
外卖时间可能是:
15分钟
30分钟
……
这是X的取值范围。
问题2:每个值出现的概率是多少?(概率分布)
X=15分钟,概率20%(离得近,人不多)
X=30分钟,概率50%(最常见)
X=45分钟,概率20%(有点慢)
这就是X的概率分布——告诉你每个可能结果(将来)出现的可能性有多大。
随机变量=取值+概率分布
取值告诉你"可能是啥",概率分布告诉你"各是多少可能"。
随机变量能干啥?
说了这么多,你可能要问:懂了随机变量有啥用?
用途1:量化风险
假如你要投资,两个项目:
项目A:收益是随机变量X,可能赚10万(50%),可能亏5万(50%)
项目B:收益是随机变量Y,可能赚3万(70%),可能亏1万(30%)
通过随机变量,你可以算期望值、算风险,做决策。
用途2:优化决策
外卖平台想知道:派几个骑手最合适?
需要研究随机变量"每小时订单量"的分布。如果高峰期平均50单,派40个骑手肯定不够,派100个又浪费。
用途3:预测未来
天气预报说"明天最高温度X=30°C,误差±2°C"。
这里X是随机变量,因为具体是28°C、29°C还是32°C,现在不确定。但通过概率分布,你知道大概率在28-32°C之间,可以决定穿什么衣服。
说到底,随机变量就是这么回事
回到最开始,随机变量是啥?
就是用数字来表示那些不确定的事情。
不确定的事儿太多了,但我们想用数字来研究它。
于是给这个"会变的数字"起个名字,叫随机变量。
用X、Y、Z这些字母表示,方便讨论。
核心就三点:
①随机变量是数字——必须能用数字表达。
②这个数字会变——每次结果可能不同。
③变成啥不确定——在发生之前不知道具体值。
只要是"结果是数字+不确定",就是随机变量。
下次再看到"设随机变量X……",它就是在说:"咱们来研究某个不确定的事情,先给它起个代号叫X"。
就这么简单。
转自:https://mp.weixin.qq.com/s/Cc9xpRMVGcoIxvAQpOmHLA