《深入浅出统计学》读书笔记
之前读过《概率论导论》,但是当时由于是纯粹的数学导论,比较艰涩难懂。这次在《深入浅出统计学》找到了对应的意义,于是就准备再次记录一下。
-
泊松分布在概率论中对其定义就是一个公式,现在在统计学中他得到了具体的范围意义:
泊松分布包括以下条件:- 单独事件在给定区间内随机、独立地发生,给定区间可以是时间或空间,例如可以是一个星期,也可以是一英里。
- 已知该区间内的事件平均发生次数(或者叫做发生率),且为有限数值。该事件平均发生次数通常用希腊字母 表示。
让我们用X表示给定区间内的事件发生次数,例如一个星期内的损坏次数。如果X符合泊松分布,且每个区间内平均发生次,或者说发生率为 。【重点:一段时间内,概率固定】
物理意义的存在可以方便我们理解它的均值和方差,如果这件事的发生概率为,则它的均值就是,然后它的期望也是,过程可以看的泰勒展开,正好带入公式消除了。
方差则用,也可以计算出来。
那么,我们似乎可以这么认为: 一个时间或某个区间内一件经常发生的事情很可能发生,也很可能不发生。正好对应期望和方差的数学意义。
如果两件事是相互独立的,那么他们的泊松分布期望和方差也是相加的,这就意味着两件不确定的概率互相叠加。 -
泊松变量和二项随机变量近似,但是当时导论只是证明了近似,而没有告诉我们具体何种情况相近:如果大规模事件出现小概率事件的次数,可以参照二项式进行快速计算。【重点:次数多,概率小】
这里给出了具体意义,当近似等于1且n很大时候,二项分布的期望和方差两者近似相等,那么和泊松分布近似。则,如果n大于50,且p小于等于0.1时候。为典型近似。即大规模发生小概率事件,当然也有些要求np的值大于等于10才可以近似。
使用泊松变量的好处是你不需要区计算时间发生的排列组合,直接可以计算出概率,算是一个较为便捷的速算。 -
连续分布:当数据不是离散得时候,我们选择使用概率密度来表现,它使用面积来表达概率,以概率密度公式来表达,它很多时候表达得是一个数值范围内事件概率。正态分布是连续数据得理想模型,我们可以通过将非标准正态数据变为标准正态数据,然后通过速查表来进行查找对应概率。【重点:数据连续】
这里在现实生活中可以进行一个速算,正态分布得x轴就是目标参数,y轴则是一些样本量,简单应用,附近得体重在80公斤得样本量在5个,那么大概率下一个同样类型得样本在80公斤得概率无限接近50%,在目前得样本苏剧观察得来得。
二项分布,泊松分布,正态分布其实可以互相替换,当二项分布在形态上和正态分布相似,我们可以近似使用正态分布来节约计算。记得进行连续性修正。
阶总结
三者都有自己对应得场景得,对应离散和连续,概率高低,次数多寡等。由于是概率估算,很多时候比如固定概率得大规模时间,你可以使用二项替代泊松,如果二项和正态分布形状很相似得话,用正态分布近似代替二项分布,如果X~B(n, p),np > 5, nq > 5,则可以用X~N(np, npq)近似代替X。
这三个算是最基础得概率模型,我们可以根据实际遇见得情况进行选择,然后对其进行数学变换,计算对应得期望和方差,期望可以判断价值,而方差则代表每次结果得差异化。这对一些实际应用很有帮助。