概率论导论-思维导图

数据概率导论

基础知识

  • 集合

    1. 集合运算:并,交,补

    2. 集合代数:德摩尔定律即补集的并集等于原集的交集反之亦然

  • 概率模型

    1. 样本空间:空间内结果相斥

    2. 概率率:1.非负性,2.可加性,3.归一化

      • 概率律性质

        • 若$A\subset B,则P(A) \leq P(B) $

        • P(AB)=P(A)+P(B)P(AB)P(A \cup B )=P(A)+P(B)-P(A\cap B)

        • P(AB)P(A)+P(B)P(A\cup B)\leq P(A)+P(B)

        • P(ABC)=P(A)+P(AcB)+P(AcBcC)P(A \cup B \cup C)=P(A)+P(A^c \cap B)+P(A^c\cap B^c \cap C)[1]

    3. 序贯模型:针对有序事件

    4. 离散模型:样本空间内由有限个可能的结果组成:P(s1,s2,,sn)=P(s1)+P(s2)++P(sn)P({s_1,s_2,\dotsb,s_n})=P(s_1)+P(s_2)+\dotsb+P(s_n)[2]

    5. 连续模型:试验的样本空间为连续集合

    6. 贝特斯悖论:对于同一事件不同的模型导致结论不确定。例:三门问题。

    7. 条件概率:P(AB)=事件AB的试验结果数事件B发生的试验结果数=P(AB)P(B)P(A|B)=\frac{事件A\cap B的试验结果数}{事件B发生的试验结果数}=\frac{P(A\cap B)}{P(B)}是一个概率律. [3]

      • 乘法规则:P(i=1nAi)=P(A1)P(A2A1)P(A3A1A2)P(Ani=1n1Ai)P( \cap _{i=1}^nA_i)=P(A_1)P(A_2|A_1)P(A_3|A_1\cap A_2)\dotsb P(A_n|\cap_{i=1}^{n-1}A_i)
    8. 全概率定理:P(B)=i=1nP(AnB)P(B)= \sum_{i=1}^n P(A_n \cap B)20220606101748

      • 与条件概率的差异

        • 全概率是通过样本空间事件AiA_i和目标事件B相交概率反算出B事件的概率

        • 条件概率为事件A在事件A和B共同发生的前提下的概率

      • 贝叶斯准则:A1,A2,,AnA_1,A_2,\dotsb,A_n为互补相容的事件,且形成样本空间的所有分割

        • 不是很重要的推导过程P(AiB)=P(AiB)P(B)=P(Ai)P(BAi)P(A1)P(BA1)++P(An)P(BAn)P(A_i|B)=\frac{P(A_i\cap B)}{P(B)}=\frac{P(A_i){P(B|A_i)} }{P(A_1)P(B|A_1)+\dotsb +P(A_n)P(B|A_n) }

        • P(AB)P(A|B)P(BA)P(B|A)联系到一起,且可以进行因果推理。[4]

    9. 独立性:P(AB)=P(A)    P(AB)=P(A)P(B)P(A|B)=P(A)\iff P(A\cap B)=P(A)P(B)其中P(B)>0P(B)>0

      • 条件独立:P(ABC)=P(AC)P(BC)    P(ABC)=P(AC)P(A\cap B|C)=P(A|C)P(B|C)\iff P(A|B\cap C)=P(A|C) [5]
    10. 一组事件独立:任意两两事件且所有事件相互独立

      • 独立试验序列:重复的相互独立的试验

      • 如果结果只有两种可能称为:伯努利试验序列:p(k)=(nk)pk(1p)nkp(k)={n\choose{k} }p^k(1-p)^{n-k}

        • 其中(nk){n\choose{k} }为二项式系数n!k!(nk)!\frac{n!}{k!(n-k)!},为nnkk组合数[6]
      • 计数法

        • r阶段的结果:n1n2nrn_1n_2\dotsb n_r

        • n选k排列:n!(nk)!\frac{n!}{(n-k)!}

        • n选k组合:二项式系数(nk)=n!k!(nk)!{n\choose{k} }=\frac{n!}{k!(n-k)!}

        • 分割:(nn1)(nn1n2)(nn1nr1nr){n \choose{n_1} }{n-n_1 \choose{n_2} }\dotsb { {n-n_1-\dotsb -n_{r-1} } \choose{n_r} }


离散模型:值域为有限个集合

  • 分布列:用pXp_X表示随机变量XX的分布:pX(x)=P({X=x})p_X(x)=P(\{X=x\})

    • 伯努利随机变量:pX(k)={p,k=11p,k=0.p_X(k)=\begin{cases} p,若k=1, \\ 1-p,若k=0. \end{cases}

    • 二项随机变量:

      pX(k)=P(X=k)=(nk)pk(1p)nk,k=0,1,,np_X(k)=P(X=k)={n \choose{k} }p^k(1-p)^{n-k}, k=0,1,\dotsb,n

    • 几何随机变量:pX(k)=(1p)k1p,k=1,2,3,p_X(k)=(1-p)^{k-1}p,k=1,2,3,\dotsb

    • 泊松随机变量:

      pX(k)=eλλkk!,k=0,1,2,3,p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!},k=0,1,2,3\dotsb,

    • 随机变量的函数:

      pY(y)={xg(x)=y}pX(x)p_Y(y)=\sum_{ \{x|g(x)=y\} }p_X(x)

  • 离散分布列之间关系

    • 伯努利随机是n=1n=1二项随机变量,二项随机变量是为在nn次的kk次成功,而几何随机这是一种累计直至第kk次成功,泊松随机变量更具有现实意义,在n很大,p很小即大规模发生事件下的小概率发生事件应用[7]
  • 多个随机变量的联合分布列:

    • 联合分布并没有严格区分离散模型和连续模型,只是因为模型不一样导致计算过程不一样。

    • pX,Y=P(X=x,Y=y)p_{X,Y}=P(X=x,Y=y),其中pX,Yp_{X,Y}称之为联合分布,将pX(x)=ypX,Y(x,y),  pY(y)=xpX,Y(x,y).p_X(x)=\sum_y{p}_{X,Y}(x,y),\quad\;p_Y(y)=\sum_x{p}_{X,Y}(x,y).为边缘分布。

  • 条件:正如第一章,所有概率都会有条件和独立的问题存在。这是全概率准则的基础。

    • 单一事件的随机变量:pXA(x)=P(X=xA)=P({X=x}A)P(A)p_{X|A}(x)={\rm P}(X=x|A)=\frac{ {\rm P}(\{X=x\}\cap{A})}{ {\rm P}(A)}

    • 给定另一个随机变量值的条件下的随机变量:$$

    • 给定另一个随机变量值的条件下的随机变量:pXY(xy)=P(X=xY=y)p_{X|Y}(x|y)={\rm P}(X=x|Y=y)公式pX,Y(x,y)=pY(y)pXY(xy)p_{X,Y}(x,y)=p_Y(y)p_{X|Y}(x|y),或利用pX,Y(x,y)=pX(x)pYX(yx)p_{X,Y}(x,y)=p_X(x)p_{Y|X}(y|x)

  • 独立性

    • 定义:P(X=xA)=P(X=x)P(A)=pX(x)P(A)对一切x成立{\rm P}(X=x 且 A)={\rm P}(X=x){\rm P}(A)=p_X(x){\rm P}(A) 对一切 x 成立,如果P(A)>0P(A)>0,则P(X=xA)=pXA(x)=pX(x)对一切x成立.{\rm P}(X=x 且 A)=p_{X|A}(x)=p_X(x) 对一切 x 成立.
  • 条件独立:

    • 随机变量之间的相互独立性与随机变量和随机事件的相互独立性的概念是完全相同的.[8]

一般随机变量:连续随机变量

  • 连续随机变量和概率密度函数(PDF):

P(XB)=bf(x)dxP(X\in B)=\displaystyle\int_b{f(x)}{dx}我们称f(x)f(x)为X的概率密度函数,

  • 端点无用:P(X=a)=aaf(x)dx=0P(X=a)=\displaystyle\int_a^a{f(x)}{dx}=0,所以区间端点的概率计算无用:P(aXb)=P(a<Xb)=P(aX<b)=P(a<X<b)P(a\leq X\leq b)=P(a < X\leq b)=P(a\leq X < b)=P(a < X < b)

  • 关于PDF性质的小结:[9]

    1. XX 的PDF(概率密度函数)为 fX(x)f_X(x) .fX(x)0f_X(x)\geq 0对一切 x 成立.且可以大于1

    2. fX(x)dx=1\int^\infty_{-\infty}f_X(x)\text{d}x=1

    3. 设 δ 是一个充分小的正数, 则 P([x,x+δ])fX(x)δ\text{P}([x,x+\delta])\approx f_X(x)\cdot\delta.其中P([x,x+δ])\text{P}([x,x+\delta])满足概率律,所以fX(x)f_X(x)是可以大于1的

    4. 对任何实数轴上的子集BBP(XB)=BfX(x)dx{\rm P}(X\in{B})=\displaystyle\int_{B}{f}_X(x)dx.

  • 常见分布列

    1. 均匀随机变量:即f(X)f(X)[a,b][a,b]上均匀分布

    2. 指数随机变量:$f_X(x)=\begin{cases}

    \lambda e^{-\lambda x},若x\geq 0 \

    0 ,其他\end{cases}$

    1. 正态随机变量:fX(x)=12πσe(xμ)2/(2σ2),f_X(x)=\frac1{\sqrt{2\pi}\sigma}{\rm e}^{-(x-\mu)^2/(2\sigma^2)},

      • 线性变换之下,随机变量的正态性保持不变,体现在方差和期望[^12]

      • 正态随机变量 Y 的期望μ\mu为0, 方差σ2\sigma^2为1,则 Y 称为标准正态随机变量

      • 结合上述性质,可以将非标准快速转换为标准,再利用标准正态速查表进行快速计算正态分布的结果


期望,均值,方差

  1. 期望:

    • 期望:我们把px×xpx\times x称之为期望值M=E[X]M=E[X]

    • 离散期望值为M=m1k1+m2k2++mnknkM=\frac {m_1k_1+m_2k_2+\dots+m_nk_n}{k},这是期望值得原本定义,在这边假定了kk值很大,将kikpi\frac {k_i}{k} \approx p_i,最后得出E[X]=xxpX(x)E[X]=\sum_x xp_X(x)

    • 连续随机期望依据定义:E[X]=xfX(x)dx.{\rm E}[X]=\int_{-\infty}^{\infty}xf_X(x){d}x.

    • 通常我们会将其看作分布列的重心

    • 期望规则

      • 随机变量Y=aX+bY=aX+b,则E[Y]=aE[X]+b,var[Y]=a2var(X)E[Y]=aE[X]+b,var[Y]=a^2var(X)[10]

      • var(X)=E[X2](E[X])2var(X)=E[X^2]-(E[X])^2 [11]

    • 条件期望:根据定义E[XA]=xxpXA(x){\rm E}[X|A]=\sum_xxp_{X|A}(x)

  2. 方差

    • 方差:记作var[X]var[X],var[X]=E[(XE[X])2]var[X]=E[(X-E[X])^2]

    • 标准差:σX=var(X).\sigma_X=\sqrt{\text{var}(X)}.

    • 连续随机方差:var(X)=E[(XE[X])2]=+(xE[X])2fX(x)dx\text{var}(X)=E[(X-E[X])^2]=\int_{-\infty}^{+\infty}(x-E[X])^2f_X(x)dx

    • 两者都是衡量XX在期望周围的分散程度,方差衡量标准为平方米,而标准差为米。

  3. 常用的随机变量的均值和方差

    • 伯努利随机变量:E[X]=1p+0(1p)=p\\E[X]=1\cdot{p}+0\cdot(1-p)=p\\,E[X2]=12p+02(1p)=p{\rm E}[X^2]=1^2\cdot{p}+0^2\cdot(1-p)=p\\,var(X)=E[X2](E[X])2=pp2=p(1p)\text{var}(X)={\rm E}[X^2]-({\rm E}[X])^2=p-p^2=p(1-p)

    • 离散均匀随机变量E[X]=a+b2,var[X]=(ba)(ba+2)12\\E[X]=\frac{a+b}{2},\\var[X]=\frac{(b-a)(b-a+2)}{12}

    • 二项分布式:E[X]=np\\E[X]=np,var(X)=i=1nvar(Xi)=np(1p)\\\text{var}(X)=\sum_{i=1}^n\text{var}(X_i)=np(1-p)

    • 泊松随机变量:E[X]=λE[X]=\lambda,var(X)=E[Y2](E[Y])2=λ(λ+1)λ2=λvar(X)=E[Y^2]-(E[Y])^2=\lambda(\lambda+1)-\lambda^2=\lambda

    • 几何变量:E[X]=1p{\rm E}[X]=\frac 1 p

    var(X)=E[X2](E[X])2=2p21p1p2=1pp2.\\\text{var}(X)={\rm E}[X^2]-({\rm E}[X])^2=\frac2{p^2}-\frac1p-\frac1{p^2}=\frac{1-p}{p^2}.


    • 均匀随机变量:

      E[X]=a+b2E[X]=\frac{a+b}{2}\\,var(X)=E[X2](E[X])2=a2+ab+b23(a+b)24=(ba)212.\text{var}(X)={\rm E}[X^2]-({\rm E}[X])^2=\frac{a^2+ab+b^2}3-\frac{(a+b)^2}4=\frac{(b-a)^2}{12}.

    • 指数随机变量:E[X]=1λvar(X)=1λ2{\rm E}[X]=\frac1\lambda\quad\text{var}(X)=\frac1{\lambda^2}

    • 正态分布:E[X]=μ,var(X)=σ2.{\rm E}[X]=\mu,\quad\text{var}(X)=\sigma^2.

极限理论

  1. 大数定律:所以当 nn\to\infty时,MnM_n 的方差趋于0.也就是说,MnM_n 的分布大部分就必然与均值 μ\mu特别接近.这种现象就是大数定律的内容,即随机变量序列 MnM_n,从大样本意义上看,收敛于 $X_i $的均值 μ\mu .按通常的解释,当样本量很大的时候,从 X 抽取的样本平均值就是 E[X] ,大数定律就为此提供了一个数学理论基础.

  2. 中心极限定理:用 SnS_n 减去 nμn\mu ,可以得到零均值随机变量序列 S_n-n\mu ,然后再除以σn\sigma\sqrt{n},就得到随机变量序列Zn=Snnμσn.Z_n=\frac{S_n-n\mu}{\sigma\sqrt{n} }.易证明E[Zn]=0,   var(Zn)=1.{\rm E}[Z_n]=0, \ \ \ \text{var}(Z_n)=1.因为ZnZ_n的均值和方差不依赖于样本容量 n ,所以它的分布既不发散,也不收敛于一点.中心极限定理 就研究ZnZ_n的分布的渐近性质,并且得出结论:当nn充分大的时候,ZnZ_n的分布就接近标准正态分布.

  3. 马尔可夫不等式:P(Xa)E[X]a{\rm P}(X\geq a)\leq \frac{ {\rm E}[X]}{a}

  4. 切比雪夫不等式:随机变量 X 的均值为 μ\mu,方差为σ2\sigma^2,则对任意 cc%3e0 ,P(Xμc)σ2c2{\rm P}(|X-\mu|\geq c)\leq \frac{\sigma^2}{c^2}

  5. 通过上述四个理论,大数定理和中心极限提供了数学理论基础,而马尔可夫不等式和切比雪夫不等式则计算出来一定的概率上限。


\begin{align*}\text{var}(X)&=\sum_x\left(x-{\rm E}[X]\right)^2p_X(x)\\&=\sum_x\left(x^2-2x{\rm E}[X]+({\rm E}[X])^2\right)p_X(x)\\&=\sum_xx^2p_X(x)-2{\rm E}[X]\sum_xxp_X(x)+({\rm E}[X])^2\sum_xp_X(x)\\&={\rm E}[X^2]-2({\rm E}[X])^2+({\rm E}[X])^2\\&={\rm E}[X^2]-({\rm E}[X])^2.\end{align*}

[^12]线性变换之下随机变量的正态性保持不变:设 X 是正态随机变量, 其均值为μ\mu, 方差为σ2\sigma^2 .若 a0a\not=0bb 为两个常数, 则随机变量Y=aX+bY=aX+b仍然是正态随机变量, 其均值和方差由下式给出:E[Y]=aμ+b,var(Y)=a2σ2.{\rm E}[Y]=a\mu+b,\quad\text{var}(Y)=a^2\sigma^2.


  1. 概率律的所有性质都在后续有应用,基于不同的模型。 ↩︎

  2. 古典模型:P(A)=含事件A的结果数nP(A)=\frac{含事件A的结果数}{n} ↩︎

  3. 条件概率也满足概率律的所有性质:P(ACBC)P(AC)+P(BC)P(A|C\cup B|C)\leq P(A|C)+P(B|C) ↩︎

  4. 试着使用现实意义进行描述贝叶斯准则:通过事目标件B在特定条件下的发生概率,来反推出事件B在无条件或者特定样本空间下的概率。即在通过结果来反推出发生原因的概率。 ↩︎

  5. 继续不是很重要的推导过程,中间用到条件概率的乘法法则:P(ABC)=P(ABC)P(C)=P(C)P(BC)P(ABC)P(C)=P(BC)P(ABC)    P(BC)P(ABC)=P(AC)P(BC)    P(ABC)=P(AC)P(A\cap B|C)=\frac{P(A\cap B \cap C)}{P(C)}=\frac{P(C)P(B|C)P(A|B\cap C)}{P(C)}=P(B|C)P(A|B \cap C) \iff P(B|C)P(A|B \cap C)=P(A|C)P(B|C) \iff P(A|B\cap C)=P(A|C) ↩︎

  6. 组合数即意味着含有次序 ↩︎

  7. 试图证明泊松变量和二项随机变量的逼近:设n,p0n\to \infty,p\to 0, 且np=λnp= \lambda将二项随机变量:$$\begin{align*}\frac{n!}{k!(n-k)!}pk(1-p){n-k}\end{align*}n=\frac{\lambda}{p}得到只剩下得到只剩下\lambda的式子,求极限。总结下对应意义就是在试验次数的式子,求极限。总结下对应意义就是在试验次数n很大的情况下,很大的情况下,p很小,则无限接近二项随机变量。现实意义就是:如果大规模事件出现小概率事件的次数很小,则无限接近二项随机变量。现实意义就是:如果大规模事件出现小概率事件的次数k$,可以参照二项式进行快速计算。 ↩︎

  8. 随机变量 X 和 Y 称为相互独立 的随机变量, 若它们满足pX,Y(x,y)=pX(x)pY(y)p_{X,Y}(x,y)=p_X(x)p_Y(y)对一切 x 和 y 成立.这等价于对于任意 x 和 y , 随机事件 X=xX=xY=yY=y相互独立. 最后,由公式 pX,Y(x,y)=pXY(xy)pY(y)p_{X,Y}(x,y)=p_{X|Y}(x|y)p_Y(y)可知随机变量 XXYY 的相互独立性的条件等价于:pXY(xy)=pX(x)p_{X|Y}(x|y)=p_X(x) 对一切 x 和一切满足pY(y)>0p_Y(y)>0 的 y 成立.直观上, Y 和 X 的独立性意味着 Y 的取值不会提供 X 取值的信息.在给定事件 A 的条件下(P(A)必须大于0)({\rm P}(A) 必须大于0!)也可以定义两个随机变量的条件独立性.在给定事件 A 的条件下,所有的事件的概率都换成关于条件 A 的条件概率. 例如, 我们称随机变量 X 和YY在给定正概率事件 AA的条件下是条件独立的 ↩︎

  9. 满足概率律 ↩︎

  10. 试着使用重心理论去理解,图像的增大和缩小会影响其重心,和XX与重心的距离,但是左移右移不影响两者距离,只影响重心位置。 ↩︎

  11. 依旧不是很重要的证明过程:直接使用定义法: ↩︎