概率论笔记
随机事件及其概率
考试要求
- 了解样本空间 (基本事件空间) 的概念,理解随机事件的概念,掌握事件的关系及运算。
- 理解概率、条件概率的概念,掌握概率的基本性质,会计算古典型概率和几何型概率,掌握概率的加法公式、减法公式、乘法公式、全概率公式以及贝叶斯 (Bayes) 公式。
- 理解事件独立性的概念,掌握用事件独立性进行概率计算;理解独立重复试验的概念,掌握计算有关事件概率的方法。
flowchart LR;
cf(条件概率公式)-->|变形|mf(乘法公式)-->|相加|tf(全概率公式)
bf(Bayes 公式)
tf-->bf
cf-->bf
mf-->bf
click cf href "https://devexzh.github.io/2023/Note_Of_Probability_And_Statistics/#条件概率公式"
click mf href "https://devexzh.github.io/2023/Note_Of_Probability_And_Statistics/#乘法公式"
click tf href "https://devexzh.github.io/2023/Note_Of_Probability_And_Statistics/#全概率公式"
样本空间与随机事件
随机试验的基本概念
名词 | 释义 |
---|---|
确定性现象 | 结果呈确定性的现象 |
随机现象 | 在个别试验中呈现不确定性,在大量重复实验中表现出统计规律性的现象 |
随机试验 | 对随机现象的实现或对其观察 (e.g. 投币观察向上的面) |
随机试验的特点
- 相同条件下可重复
- 试验结果明确可知,且一般不止一个
- 试验前不能确定哪个结果出现
名词 | 释义 |
---|---|
样本空间 | 将随机试验 \(E\) 所有可能的结果组成的集合称为 \(E\) 的样本空间 (Sample Space) |
样本点 | 样本空间的元素即为样本点 |
随机事件 | \(E\) 的样本空间的子集为 \(E\) 的随机事件 |
事件的关系
关系 | 记号 |
---|---|
\(A\) 发生必定导致 \(B\) 发生 | \(A\subset B\) |
同一事件 | \(A=B\) |
\(A,\,B\) 至少一个发生 | \(A\cup B\) 或 \(A+B\) |
\(A,\,B\) 都发生 | \(A\cap B\) 或 \(AB\) |
\(A\) 不发生 | \(\bar{A}\) |
\(A\) 发生但 \(B\) 不发生 | \(A-B=A\bar{B}=A-AB\) |
概率
频率 | 概率 | |
---|---|---|
定义 | 事件发生的频数与试验总数之间的比值 | 事件发生的可能性大小 |
概率的基本性质:
- 非负性:任一事件 \(A\),\(P(A)\geq 0\)
- 规范性:必然事件 \(S\Rightarrow P(S)=1\)(反之不对)
- 可列可加性:设 \(A_1,\,A_2,\,\cdots,\,A_n\) 两两互不相容,则必有 \(P\left(A_1\cup A_2\cup\cdots \cup A_n\right)=P(A_1)+P(A_2)+\cdots+P(A_n)\)
重要性质:
- \(P(\emptyset)=0\):不可能事件的概率为 0,反之不对
- 若 \(A\subset B\),则 \(P(A)\leq P(B)\)(当且仅当 \(A=B\) 时等号成立)
- 特别地,\(ABC\subset AB\)
- \(P\left(A\cup
B\right)=P(A)+P(B)-P(AB)\)
- 推广:\(P\left(A\cup B\cup C\right)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)\)
- 容斥原理:所有奇数个事件积的概率减去所有偶数个事件积的概率
条件概率公式
【例】将一枚硬币抛掷两次,观察其出现正反面的情况。设事件 \(A\) 为 “至少有一次是 \(H\)”,事件 \(B\) 为 “两次掷出同一面”,求事件 \(A\) 已经发生的条件下事件 \(B\) 发生的概率。
【解】\(\begin{array}{l}S=\left\{HH,\,HT,\,TH,\,TT\right\}\\A=\left\{HH,\,HT,\,TH\right\}\\B=\left\{HH,\,TT\right\}\\AB=\left\{HH\right\}\end{array}\Rightarrow\begin{array}{l}P(A)=\frac34\\P(B)=\frac24\\P(AB)=\frac14\end{array}\),事件
\(A\) 发生且 \(B\) 发生,只有 \(HH\) 符合要求;而由于是 \(A\) 已经发生,故事件 \(A\) 已经发生的条件下事件 \(B\) 发生的概率就是集合 \(A\) 中 \(HH\) 发生的概率,即 \(\frac13\)。易发现 \(P(B|A)=\frac{P(BA)}{P(A)}\)。
设事件 \(A\) 的概率 \(P(A)\gt 0\),则在事件 \(A\) 发生的情况下,事件 \(B\) 发生的条件概率 (Conditional Probability) 记为 \(P(B|A)\),且 \(\displaystyle P(B|A)=\frac{P(BA)}{P(A)}\)
乘法公式
根据条件概率公式即可推得乘法公式 (The Multiplication Rule for Conditional Probabilities):\(P(AB)=P(A)\cdot P(B|A)\)
推广:\(P(ABCD)=P(A)\cdot P(B|A)\cdot P(C|AB)\cdot P(D|ABC)\)
全概率公式
样本空间的划分:设样本空间 \(S\),\(B_1,\,B_2,\,\cdots,\,B_n\) 是一组事件,若:
- \(B_iB_j=\emptyset\quad(i\neq j,\;i,\,j\in[1,\,n])\)
- \(\displaystyle\bigcup^n_{i=1}B_i=S\)
则 \(B_1,\,B_2,\,\cdots,\,B_n\) 为 \(S\) 的一个划分 (partition)。
设 \(E\) 的样本空间为 \(S\),\(A\) 是 \(E\) 的一个事件,\(B_1,\,B_2,\,\cdots,\,B_n\) 为 \(S\) 的一个划分,且 \(P(B_i)\gt 0\quad (i=1,\,2,\,\cdots,\,n)\),则: \[P(A)=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+\cdots+P(B_n)P(A|B_n)\]
【证明】\(A=A\cap S=A\cap\left(B_1\cup B_2\cup\cdots\cup B_n\right)=AB_1\cup AB_2\cup\cdots\cup AB_n\),因为 \(B_i\) 和 \(B_j\) 互不相容,故 \(AB_i\) 和 \(AB_j\) 也互不相容(\(AB_i\subset B_i\))。根据互斥事件的可列可加性,故 \(\newcommand\b[1]{\left(#1\right)}P\b{A}=P\b{AB_1\cup AB_2\cup\cdots\cup AB_n}=\) \(\newcommand\b[1]{\left(#1\right)}P\b{AB_1}+P\b{AB_2}+\cdots+P\b{AB_n}\) \(=\newcommand\b[1]{\left(#1\right)}P\b{B_1}P\b{A|B_1}+P\b{B_2}P\b{A|B_2}+\cdots+P\b{B_n}P\b{A|B_n}\)。
\(Bayes\) 公式
设试验 \(E\) 的样本空间 \(S\),\(A\) 是 \(E\) 的一个事件,\(B_1,\,B_2,\,\cdots,\,B_n\) 为 \(S\) 的一个划分,且 \(P(A)\gt 0\),\(P(B_i)\gt 0\quad (i=1,\,2,\,\cdots,\,n)\),则: \[P\left(B_i|A\right)=\frac{P\left(B_i\right)\cdot P\left(A|B_i\right)}{\displaystyle\sum^n_{j=1}P\left(B_j\right)\cdot P\left(A|B_j\right)}\]
【推导】\(P\left(B_i|A\right)\xlongequal{条件概率公式}\frac{P\left(B_iA\right)}{P\left(A\right)}\xlongequal[全概率公式]{乘法公式}\frac{P\left(B_i\right)\cdot P\left(A|B_i\right)}{\sum^n_{j=1}P\left(B_j\right)\cdot P\left(A|B_j\right)}\)
事件的关系
事件的独立性
〔定义〕 设 \(A,\,B\) 为两事件,若满足 \(P(AB)=P(A)\cdot P(B)\),则称 \(A,\,B\) 相互独立。
随机变量及其分布
flowchart TB;
title(随机变量及其分布) --- rv(随机变量) & drv(离散型随机变量及其分布律) & pf(随机变量的分布函数) & crv(连续型随机变量及其概率密度) & dist(随机变量的函数的分布)
随机变量 (Random Variable, r.v.):随机试验 \(E\) 的样本空间 \(S={e},\,X=X(e)\) (\(e\) 为样本点)是定义在 \(S\) 上的实值单值函数,则称 \(X=X(e)\) 是随机变量(每个样本点 \(e\) 都对应了一个实数 \(X\))
离散型随机变量及其分布
离散型随机变量的取值是有限多个或者可列无穷多个的随机变量
分布 | 背景 | 分布律 | 记号 |
---|---|---|---|
0-1 Distribution | 描述一次 Bernoulli 试验中发生的概率 | \(P\left\{X=1\right\}=p\)\(P\left\{X=0\right\}=1-p\) | \(X\sim B(1,\,p)\) |
Binomial Distribution | 描述 \(n\) 重 Bernoulli 试验中发生 \(k\) 次的概率 | \(P\left\{X=k\right\}=C^k_np^k\left(1-p\right)^{n-k}\) | \(X\sim B(n,\,p)\) |
Geometric Distribution | Bernoulli 试验第 \(k\) 次才发生 | \(P\left\{X=k\right\}=\left(1-p\right)^{k-1}p\) | \(X\sim G(p)\) |
Poisson Distribution | 近似求解二项分布 | \(P\left\{X=k\right\}=\frac{\lambda^k}{k!}e^{-\lambda}\) | \(X\sim P(\lambda)\) |
Hypergeometric Distribution | \(N\) 件产品中有 \(M\) 件不合格品,从中随机抽 \(n\) 件,其中有 \(k\) 件不合格的概率 | \(P\left\{X=k\right\}=\displaystyle\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}\) | \(X\sim H(N,\,M,\,n)\) |
- Poisson Limit Theorem: \(n\) 很大,\(p\) 很小时,Poisson 分布可用于近似求解二项分布,参数 \(\lambda=np\)
随机变量的分布函数
〔定义〕 设 \(X\) 是随机变量,\(x\) 是任意实数,则 \[F\left(x\right)=P\left\{X\leq x\right\},\quad -\infty\lt x\lt +\infty\] 是 \(X\) 的分布函数。
性质
- \(0\leq F\left(x\right)\leq 1\)
- 单调不减性:对于 \(\forall x_1\lt x_2\),有 \(F\left(x_1\right)\leq F\left(x_2\right)\)
- 规范性:\(F\left(-\infty\right)=0,\quad F\left(+\infty\right)=1\)
- 右连续性:\(\displaystyle\lim_{x\to x_0^+}F\left(x\right)=F\left(x_0\right)\)
连续型随机变量及其分布
flowchart LR;
pdf(概率密度函数<br/><i>p.d.f</i>)-->|变上限积分|cdf(分布函数<br/><i>c.d.f</i>)
〔定义〕 设随机变量 \(X\) 的累积分布函数 (Cumulative Distribution Function, c.d.f) 为 \(F(x)\),若存在连续、可积的函数 \(f(x)\) 使得任意 \(x\) 都有 \[P\left\{X\leq x\right\}=F\left(x\right)=\int_{-\infty}^x{f\left(t\right)dt}\] 则 \(f(x)\) 为随机变量 \(X\) 的概率密度函数 (Probability Density Function, p.d.f)。
分布
均匀分布 | 指数分布 | 正态分布 | |
---|---|---|---|
英文 | Uniform Distribution | Exponential Distribution | Normal Distribution |
概率密度函数 \(f\left(x\right)\) | \(\left\{\begin{array}{cl}\dfrac{1}{b-a}&a\lt x\lt b\\0&\mathrm{otherwise}\end{array}\right.\) | \(\left\{\begin{array}{cl}\lambda e^{-\lambda x}&x\gt 0\\0&x\leq 0\end{array}\right.\) | \(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(x-\mu\right)^2}{2\sigma^2}}\) |
记号 | \(X\sim U(a,\,b)\) | \(X\sim E(\lambda)\) | \(X\sim N\left(\mu,\,\sigma^2\right)\) |
指数分布的无记忆性
若 \(s\gt 0,\,t\gt 0\),则 \(P\left\{x\gt s+t\vert x\gt s\right\}=P\left\{x\gt t\right\}\)
正态分布的性质
📓 当 \(\mu=0,\,\sigma=1\) 时,为标准正态分布 \(\varphi\left(x\right)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\)
- 在 \(x=\mu\) 时,正态分布的概率密度函数取到最大值:\(f\left(x\right)_{\mathrm{max}}=f\left(\mu\right)=\frac{1}{\sqrt{2\pi}\sigma}\)
- 标准正态分布函数的对称性:\(\Phi\left(x\right)+\Phi\left(-x\right)=1\)
- 在计算中常常可以通过凑正态分布计算 \(\displaystyle\int_{-\infty}^{+\infty}e^{-\frac{t^2}{2}}dt=\sqrt{\pi}\)
多维随机变量及其分布
flowchart TB;
title(多维随机变量及其分布) --- trv(二维随机变量) & mdist(边缘分布) & cdist(条件分布) & indeptrv(相互独立的随机变量) & trvdist(两个随机变量的函数的分布)
边缘分布
边缘密度函数 \[\begin{array}{}\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f(x,\,y)dy\\[12pt] \displaystyle f_Y(y)=\int_{-\infty}^{+\infty}f(x,\,y)dx\end{array}\]
条件密度函数:联合密度函数比边缘密度函数 \[f_{Y|X}\left(y|x\right)=\dfrac{f(x,\,y)}{f_X(x)}\]
二维随机变量 \((X,\,Y)\) 的联合概率密度函数 \(f(x,\,y)\)、联合分布函数 \(F(x,\,y)\)。则边缘分布函数为: \[F_X(x)=F(x,\,+\infty)=\int_{-\infty}^{x}f_X(x)dx=\int_{-\infty}^{x}\int_{-\infty}^{+\infty}{f(x,\,y)dy}dx\] \[F_Y(y)=F(+\infty,\,y)=\int_{-\infty}^{y}f_Y(y)dy=\int_{-\infty}^{y}\int_{-\infty}^{+\infty}{f(x,\,y)dx}dy\]
判断两个随机变量是否独立:两个边缘概率密度相乘是否等于联合概率密度
二维随机变量的分布
分布函数法
\(Z=g(X,\,Y)\)
\[F_z(z)=P\{Z\leq z\}=P\{g(X,\,Y)\leq z\}=\iint\limits_{g(x,\,Y)\leq z}{f(x,\,y)dxdy}=0\]
\(U=\max\{X,\,Y\}\) 与 \(V=\min\{X,\,Y\}\) 的分布
- \(F_U(x)\xlongequal{X,\,Y\,独立}F_X(x)F_Y(x)\xlongequal{X,\,Y\,同分布}F_X^2(x)\)
- \(F_V(x)\xlongequal{X,\,Y\,独立}{1-\left(1-F_X(x)\right)\left(1-F_Y(x)\right)}\xlongequal{X,\,Y\,同分布}1-\left(1-F_X(x)\right)^2\)
若 \(X\sim N(\mu_1,\,\sigma^2_1),\;Y\sim N(\mu_2,\,\sigma^2_2)\) 则 \[aX+bY+c\sim N(a\mu_1+b\mu_2+c,\,a^2\sigma^2_1+b^2\sigma^2_2)\]
若 \(X\sim E(\lambda_1),\;Y\sim E(\lambda_2)\) 则 \[\min\left\{X,\,Y\right\}\sim E(\lambda_1+\lambda_2)\]
随机变量的数字特征
数学期望
\[E(X)=\int_{-\infty}^{+\infty}xf(x)dx\]
数学期望的性质
- \(E\left(c\right)=c\)
- \(E\left(aX\right)=aE\left(X\right)\)
- \(E\left(X+Y\right)=E\left(X\right)+E\left(Y\right)\)
- 若 \(X,\,Y\) 独立,则 \(E\left(XY\right)=E\left(X\right)E\left(Y\right)\)
- \(X\geq c\Rightarrow E\left(X\right)\geq c\)
方差
\[D(X)=E\left(X-EX\right)^2=E(X^2)-E^2(X)\]
方差的性质
- \(D\left(c\right)=0\)
- \(D\left(aX\right)=a^2D\left(X\right)\)
- 若 \(X,\,Y\) 独立,则 \(D\left(X\pm Y\right)=D\left(X\right)+D\left(Y\right)\)
常见分布的期望与方差
分布 | 期望 | 方差 |
---|---|---|
Binomial Distribution 二项分布 |
\(np\) | \(np(1-p)\) |
Poisson Distribution 泊松分布 |
\(\lambda\) | \(\lambda\) |
Geometric Distribution 几何分布 |
\(\dfrac{1}{p}\) | \(\dfrac{1-p}{p^2}\) |
Hypergeometric Distribution 超几何分布 |
\(n\cdot\dfrac{M}{N}\) | |
Uniform Distribution 均匀分布 |
\(\dfrac{a+b}{2}\) | \(\dfrac{(b-a)^2}{12}\) |
Exponential Distribution 指数分布 |
\(\dfrac{1}{\lambda}\) | \(\dfrac{1}{\lambda^2}\) |
Normal Distribution 正态分布 |
\(\mu\) | \(\sigma^2\) |
协方差
\[\begin{align*}\mathrm{Cov}\left(X,\,Y\right)&=E\left[\left(X-EX\right)\left(Y-EY\right)\right]\\ \mathrm{Cov}\left(X,\,X\right)&=E\left(X-EX\right)^2=DX\end{align*}\]
计算:\(\mathrm{Cov}\left(X,\,Y\right)=E(XY)-EX\cdot EY=\rho_{XY}\sqrt{DX}\sqrt{DY}\)
协方差的性质
- \(\mathrm{Cov}\left(X,\,c\right)=0\)
- \(\mathrm{Cov}\left(X,\,Y\right)=\mathrm{Cov}\left(Y,\,X\right)\)
- \(\mathrm{Cov}\left(aX,\,bY\right)=ab\,\mathrm{Cov}\left(X,\,Y\right)\)
- \(\mathrm{Cov}\left(X_1+X_2,\,Y\right)=\mathrm{Cov}\left(X_1,\,Y\right)+\mathrm{Cov}\left(X_2,\,Y\right)\)
- \(D(X,\,Y)=D(X)+D(Y)+2\,\mathrm{Cov}\left(X,\,Y\right)\)
相关系数
\[\rho_{XY}=\mathrm{Cov}\left(\dfrac{X-EX}{\sqrt{DX}},\,\dfrac{Y-EY}{\sqrt{DY}}\right)=\dfrac{\mathrm{Cov}\left(X,\,Y\right)}{\sqrt{DX}\sqrt{DY}}\]
相关系数反映了随机变量之间的线性关系
\(\rho_{XY}=0\) 则 \(X,\,Y\) 不相关
- \(\mathrm{Cov}\left(X,\,Y\right)=0\)
- \(D(X\pm Y)=DX+DY\)
- \(E(XY)=EX\cdot EY\)
\(\left|\rho_{XY}\right|=1\) 则 \(P\left\{Y=aX+b,\,a\neq 0\right\}=1\)
- \(a\gt 0,\;\rho_{XY}=1\)
- \(a\lt 0,\;\rho_{XY}=-1\)
大数定律与中心极限定理
依概率收敛 设 \(X_1,\,X_2,\,\cdots,\,X_n,\,\cdots\) 是相互独立的一列随机变量,\(X\) 是一个随机变量,若对任意正数 \(\varepsilon\),有 \(\displaystyle\lim_{n\to\infty}P\left(\left|X_n-X\right|\lt\varepsilon\right)=1\),则称 \(X_1,\,X_2,\,\cdots,\,X_n,\,\cdots\)依概率收敛于 \(X\),通常记作 \(X_n\xrightarrow{P}X\)。
📓 人话:做的次数足够大的时候,\(X_n\) 和 \(X\) 无限接近
大数定律 Law of Large Numbers
本质:算术平均依概率收敛于统计平均 \(\frac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{P}E\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)\)
中心极限定理 Central Limit Theorem
本质:\(n\) 个独立同分布的随机变量之和近似服从正态分布。
Chebyshev 不等式 \[P\left\{\left|X-E(X)\right|\geq\varepsilon\right\}\leq\frac{D(X)}{\varepsilon^2}\]
估计
常用统计量
概念 | 表达式 |
---|---|
样本均值 | \(\displaystyle\bar{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i\) |
样本方差 | \(\displaystyle S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2\) |
样本的 \(k\) 阶原点矩 | \(\displaystyle A_k=\dfrac{1}{n}\sum_{i=1}^{n}X_i^k\) |
样本的 \(k\) 阶中心矩 | \(\displaystyle B_k=\dfrac{1}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^k\) |
样本均值与样本方差的性质
总体 \(X\) 数字特征 \(E(X)=\mu,\;D(X)=\sigma^2\),若 \(X_1,\,X_2,\,\cdots,\,X_n\) 是取自总体 \(X\) 的一个样本,则
- \(E(\bar{X})=E(X)=\mu,\;D(\bar{X})=\dfrac{D(X)}{n}=\dfrac{\sigma^2}{n}\)
- \(E(S^2)=D(X)=\sigma^2\)
三个抽样分布
\(\chi^2\) 分布
设总体 \(X\sim N(0,\,1)\),\(X_1,\,X_2,\,\cdots,\,X_n\) 为样本,则统计量 \[\chi^2=X_1+X_2+\cdots+X_n\] 服从的分布成为 \(\chi^2\) 分布,记为 \(\chi^2\sim\chi^2(n)\),其中 \(n\) 称为自由度
期望 | 方差 |
---|---|
\(n\) | \(2n\) |
\(t\) 分布
设 \(X\sim N(0,\,1),\;Y\sim\chi^2(n)\),且 \(X\) 与 \(Y\) 相互独立,则随机变量 \(T=\cfrac{X}{\sqrt{\cfrac{Y}{n}}}\sim t(n)\),服从于自由度为 \(n\) 的 \(t\) 分布。
\(F\) 分布
设 \(X\sim\chi^2(n_1),\,Y\sim\chi^2(n_2)\),且 \(X\) 与 \(Y\) 相互独立,则统计量 \(F=\cfrac{\cfrac{X}{n_1}}{\cfrac{Y}{n_2}}\) 服从 \(F(n_1,\,n_2)\) 分布。
性质: 1. \(F\sim F\left(n_1,\,n_2\right)\Rightarrow\dfrac{1}{F}\sim F\left(n_2,\,n_1\right)\) 2. \(T\sim t(n)\Rightarrow T^2\sim F\left(1,\,n\right)\Rightarrow \dfrac{1}{T^2}\sim F\left(n,\,1\right)\)
分位点
单正态总体下样本均值与样本方差的分布
矩估计
矩估计 (Moment Estimation)
最大似然估计
最大似然估计 (Maximum Likelihood Estimation, MLE)
写出含参数的 MLE 函数 \(L(\theta)=\displaystyle\prod_{i=1}^n P\left(x_i;\,n\right)\),其中 \(\theta\) 为参数
等式两边取对数 \(\ln L(\theta)=\displaystyle\sum_{i=1}^n\ln P\left(x_i;\,n\right)\)
对参数求导 \(\dfrac{d}{d\theta}\ln L(\theta)\)
寻找最大似然估计量(值)
- 驻点存在且唯一:驻点
- 驻点不存在:边界点
置信区间
置信区间 (Confidence Interval)