概率论笔记

随机事件及其概率


考试要求

  1. 了解样本空间 (基本事件空间) 的概念,理解随机事件的概念,掌握事件的关系及运算。
  2. 理解概率、条件概率的概念,掌握概率的基本性质,会计算古典型概率和几何型概率,掌握概率的加法公式、减法公式、乘法公式、全概率公式以及贝叶斯 (Bayes) 公式。
  3. 理解事件独立性的概念,掌握用事件独立性进行概率计算;理解独立重复试验的概念,掌握计算有关事件概率的方法。

flowchart LR;
  cf(条件概率公式)-->|变形|mf(乘法公式)-->|相加|tf(全概率公式)
  bf(Bayes 公式)
  tf-->bf
  cf-->bf
  mf-->bf
  click cf href "https://devexzh.github.io/2023/Note_Of_Probability_And_Statistics/#条件概率公式"
  click mf href "https://devexzh.github.io/2023/Note_Of_Probability_And_Statistics/#乘法公式"
  click tf href "https://devexzh.github.io/2023/Note_Of_Probability_And_Statistics/#全概率公式"

样本空间与随机事件

随机试验的基本概念
名词 释义
确定性现象 结果呈确定性的现象
随机现象 在个别试验中呈现不确定性,在大量重复实验中表现出统计规律性的现象
随机试验 对随机现象的实现或对其观察 (e.g. 投币观察向上的面)

随机试验的特点

  1. 相同条件下可重复
  2. 试验结果明确可知,且一般不止一个
  3. 试验前不能确定哪个结果出现
名词 释义
样本空间 将随机试验 \(E\) 所有可能的结果组成的集合称为 \(E\) 的样本空间 (Sample Space)
样本点 样本空间的元素即为样本点
随机事件 \(E\) 的样本空间的子集为 \(E\) 的随机事件

事件的关系

关系 记号
\(A\) 发生必定导致 \(B\) 发生 \(A\subset B\)
同一事件 \(A=B\)
\(A,\,B\) 至少一个发生 \(A\cup B\)\(A+B\)
\(A,\,B\) 都发生 \(A\cap B\)\(AB\)
\(A\) 不发生 \(\bar{A}\)
\(A\) 发生但 \(B\) 不发生 \(A-B=A\bar{B}=A-AB\)

概率

频率 概率
定义 事件发生的频数与试验总数之间的比值 事件发生的可能性大小

概率的基本性质:

  1. 非负性:任一事件 \(A\)\(P(A)\geq 0\)
  2. 规范性:必然事件 \(S\Rightarrow P(S)=1\)(反之不对)
  3. 可列可加性:设 \(A_1,\,A_2,\,\cdots,\,A_n\) 两两互不相容,则必有 \(P\left(A_1\cup A_2\cup\cdots \cup A_n\right)=P(A_1)+P(A_2)+\cdots+P(A_n)\)

重要性质:

  1. \(P(\emptyset)=0\):不可能事件的概率为 0,反之不对
  2. \(A\subset B\),则 \(P(A)\leq P(B)\)(当且仅当 \(A=B\) 时等号成立)
    • 特别地,\(ABC\subset AB\)
  3. \(P\left(A\cup B\right)=P(A)+P(B)-P(AB)\)
    • 推广:\(P\left(A\cup B\cup C\right)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)\)
    • 容斥原理:所有奇数个事件积的概率减去所有偶数个事件积的概率

条件概率公式

【例】将一枚硬币抛掷两次,观察其出现正反面的情况。设事件 \(A\) 为 “至少有一次是 \(H\)”,事件 \(B\) 为 “两次掷出同一面”,求事件 \(A\) 已经发生的条件下事件 \(B\) 发生的概率。
【解】\(\begin{array}{l}S=\left\{HH,\,HT,\,TH,\,TT\right\}\\A=\left\{HH,\,HT,\,TH\right\}\\B=\left\{HH,\,TT\right\}\\AB=\left\{HH\right\}\end{array}\Rightarrow\begin{array}{l}P(A)=\frac34\\P(B)=\frac24\\P(AB)=\frac14\end{array}\),事件 \(A\) 发生且 \(B\) 发生,只有 \(HH\) 符合要求;而由于是 \(A\) 已经发生,故事件 \(A\) 已经发生的条件下事件 \(B\) 发生的概率就是集合 \(A\)\(HH\) 发生的概率,即 \(\frac13\)。易发现 \(P(B|A)=\frac{P(BA)}{P(A)}\)

设事件 \(A\) 的概率 \(P(A)\gt 0\),则在事件 \(A\) 发生的情况下,事件 \(B\) 发生的条件概率 (Conditional Probability) 记为 \(P(B|A)\),且 \(\displaystyle P(B|A)=\frac{P(BA)}{P(A)}\)

乘法公式

根据条件概率公式即可推得乘法公式 (The Multiplication Rule for Conditional Probabilities):\(P(AB)=P(A)\cdot P(B|A)\)

推广:\(P(ABCD)=P(A)\cdot P(B|A)\cdot P(C|AB)\cdot P(D|ABC)\)

全概率公式

样本空间的划分:设样本空间 \(S\)\(B_1,\,B_2,\,\cdots,\,B_n\) 是一组事件,若:

  1. \(B_iB_j=\emptyset\quad(i\neq j,\;i,\,j\in[1,\,n])\)
  2. \(\displaystyle\bigcup^n_{i=1}B_i=S\)

\(B_1,\,B_2,\,\cdots,\,B_n\)\(S\) 的一个划分 (partition)。

\(E\) 的样本空间为 \(S\)\(A\)\(E\) 的一个事件,\(B_1,\,B_2,\,\cdots,\,B_n\)\(S\) 的一个划分,且 \(P(B_i)\gt 0\quad (i=1,\,2,\,\cdots,\,n)\),则: \[P(A)=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+\cdots+P(B_n)P(A|B_n)\]

【证明】\(A=A\cap S=A\cap\left(B_1\cup B_2\cup\cdots\cup B_n\right)=AB_1\cup AB_2\cup\cdots\cup AB_n\),因为 \(B_i\)\(B_j\) 互不相容,故 \(AB_i\)\(AB_j\) 也互不相容(\(AB_i\subset B_i\))。根据互斥事件的可列可加性,故 \(\newcommand\b[1]{\left(#1\right)}P\b{A}=P\b{AB_1\cup AB_2\cup\cdots\cup AB_n}=\) \(\newcommand\b[1]{\left(#1\right)}P\b{AB_1}+P\b{AB_2}+\cdots+P\b{AB_n}\) \(=\newcommand\b[1]{\left(#1\right)}P\b{B_1}P\b{A|B_1}+P\b{B_2}P\b{A|B_2}+\cdots+P\b{B_n}P\b{A|B_n}\)

\(Bayes\) 公式

设试验 \(E\) 的样本空间 \(S\)\(A\)\(E\) 的一个事件,\(B_1,\,B_2,\,\cdots,\,B_n\)\(S\) 的一个划分,且 \(P(A)\gt 0\)\(P(B_i)\gt 0\quad (i=1,\,2,\,\cdots,\,n)\),则: \[P\left(B_i|A\right)=\frac{P\left(B_i\right)\cdot P\left(A|B_i\right)}{\displaystyle\sum^n_{j=1}P\left(B_j\right)\cdot P\left(A|B_j\right)}\]

【推导】\(P\left(B_i|A\right)\xlongequal{条件概率公式}\frac{P\left(B_iA\right)}{P\left(A\right)}\xlongequal[全概率公式]{乘法公式}\frac{P\left(B_i\right)\cdot P\left(A|B_i\right)}{\sum^n_{j=1}P\left(B_j\right)\cdot P\left(A|B_j\right)}\)

事件的关系

事件的独立性

〔定义〕\(A,\,B\) 为两事件,若满足 \(P(AB)=P(A)\cdot P(B)\),则称 \(A,\,B\) 相互独立。


随机变量及其分布

flowchart TB;
title(随机变量及其分布) --- rv(随机变量) & drv(离散型随机变量及其分布律) & pf(随机变量的分布函数) & crv(连续型随机变量及其概率密度) & dist(随机变量的函数的分布)

随机变量 (Random Variable, r.v.):随机试验 \(E\) 的样本空间 \(S={e},\,X=X(e)\)\(e\) 为样本点)是定义在 \(S\) 上的实值单值函数,则称 \(X=X(e)\) 是随机变量(每个样本点 \(e\) 都对应了一个实数 \(X\)

离散型随机变量及其分布

离散型随机变量的取值是有限多个或者可列无穷多个的随机变量

分布 背景 分布律 记号
0-1 Distribution 描述一次 Bernoulli 试验中发生的概率 \(P\left\{X=1\right\}=p\)\(P\left\{X=0\right\}=1-p\) \(X\sim B(1,\,p)\)
Binomial Distribution 描述 \(n\) 重 Bernoulli 试验中发生 \(k\) 次的概率 \(P\left\{X=k\right\}=C^k_np^k\left(1-p\right)^{n-k}\) \(X\sim B(n,\,p)\)
Geometric Distribution Bernoulli 试验第 \(k\) 次才发生 \(P\left\{X=k\right\}=\left(1-p\right)^{k-1}p\) \(X\sim G(p)\)
Poisson Distribution 近似求解二项分布 \(P\left\{X=k\right\}=\frac{\lambda^k}{k!}e^{-\lambda}\) \(X\sim P(\lambda)\)
Hypergeometric Distribution \(N\) 件产品中有 \(M\) 件不合格品,从中随机抽 \(n\) 件,其中有 \(k\) 件不合格的概率 \(P\left\{X=k\right\}=\displaystyle\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}\) \(X\sim H(N,\,M,\,n)\)
  • Poisson Limit Theorem: \(n\) 很大,\(p\) 很小时,Poisson 分布可用于近似求解二项分布,参数 \(\lambda=np\)

随机变量的分布函数

〔定义〕\(X\) 是随机变量,\(x\) 是任意实数,则 \[F\left(x\right)=P\left\{X\leq x\right\},\quad -\infty\lt x\lt +\infty\]\(X\) 的分布函数。

性质

  1. \(0\leq F\left(x\right)\leq 1\)
  2. 单调不减性:对于 \(\forall x_1\lt x_2\),有 \(F\left(x_1\right)\leq F\left(x_2\right)\)
  3. 规范性:\(F\left(-\infty\right)=0,\quad F\left(+\infty\right)=1\)
  4. 右连续性:\(\displaystyle\lim_{x\to x_0^+}F\left(x\right)=F\left(x_0\right)\)

连续型随机变量及其分布

flowchart LR;
  pdf(概率密度函数<br/><i>p.d.f</i>)-->|变上限积分|cdf(分布函数<br/><i>c.d.f</i>)

〔定义〕 设随机变量 \(X\) 的累积分布函数 (Cumulative Distribution Function, c.d.f) 为 \(F(x)\),若存在连续、可积的函数 \(f(x)\) 使得任意 \(x\) 都有 \[P\left\{X\leq x\right\}=F\left(x\right)=\int_{-\infty}^x{f\left(t\right)dt}\]\(f(x)\) 为随机变量 \(X\) 的概率密度函数 (Probability Density Function, p.d.f)。

分布

均匀分布 指数分布 正态分布
英文 Uniform Distribution Exponential Distribution Normal Distribution
概率密度函数 \(f\left(x\right)\) \(\left\{\begin{array}{cl}\dfrac{1}{b-a}&a\lt x\lt b\\0&\mathrm{otherwise}\end{array}\right.\) \(\left\{\begin{array}{cl}\lambda e^{-\lambda x}&x\gt 0\\0&x\leq 0\end{array}\right.\) \(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(x-\mu\right)^2}{2\sigma^2}}\)
记号 \(X\sim U(a,\,b)\) \(X\sim E(\lambda)\) \(X\sim N\left(\mu,\,\sigma^2\right)\)

指数分布的无记忆性

\(s\gt 0,\,t\gt 0\),则 \(P\left\{x\gt s+t\vert x\gt s\right\}=P\left\{x\gt t\right\}\)

正态分布的性质

📓\(\mu=0,\,\sigma=1\) 时,为标准正态分布 \(\varphi\left(x\right)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\)

  1. \(x=\mu\) 时,正态分布的概率密度函数取到最大值:\(f\left(x\right)_{\mathrm{max}}=f\left(\mu\right)=\frac{1}{\sqrt{2\pi}\sigma}\)
  2. 标准正态分布函数的对称性:\(\Phi\left(x\right)+\Phi\left(-x\right)=1\)
  3. 在计算中常常可以通过凑正态分布计算 \(\displaystyle\int_{-\infty}^{+\infty}e^{-\frac{t^2}{2}}dt=\sqrt{\pi}\)

多维随机变量及其分布

flowchart TB;
title(多维随机变量及其分布) --- trv(二维随机变量) & mdist(边缘分布) & cdist(条件分布) & indeptrv(相互独立的随机变量) & trvdist(两个随机变量的函数的分布)

边缘分布

边缘密度函数 \[\begin{array}{}\displaystyle f_X(x)=\int_{-\infty}^{+\infty}f(x,\,y)dy\\[12pt] \displaystyle f_Y(y)=\int_{-\infty}^{+\infty}f(x,\,y)dx\end{array}\]

条件密度函数:联合密度函数比边缘密度函数 \[f_{Y|X}\left(y|x\right)=\dfrac{f(x,\,y)}{f_X(x)}\]

二维随机变量 \((X,\,Y)\) 的联合概率密度函数 \(f(x,\,y)\)、联合分布函数 \(F(x,\,y)\)。则边缘分布函数为: \[F_X(x)=F(x,\,+\infty)=\int_{-\infty}^{x}f_X(x)dx=\int_{-\infty}^{x}\int_{-\infty}^{+\infty}{f(x,\,y)dy}dx\] \[F_Y(y)=F(+\infty,\,y)=\int_{-\infty}^{y}f_Y(y)dy=\int_{-\infty}^{y}\int_{-\infty}^{+\infty}{f(x,\,y)dx}dy\]

判断两个随机变量是否独立:两个边缘概率密度相乘是否等于联合概率密度

二维随机变量的分布

  1. 分布函数法

    \(Z=g(X,\,Y)\)

    \[F_z(z)=P\{Z\leq z\}=P\{g(X,\,Y)\leq z\}=\iint\limits_{g(x,\,Y)\leq z}{f(x,\,y)dxdy}=0\]

  2. \(U=\max\{X,\,Y\}\)\(V=\min\{X,\,Y\}\) 的分布

    1. \(F_U(x)\xlongequal{X,\,Y\,独立}F_X(x)F_Y(x)\xlongequal{X,\,Y\,同分布}F_X^2(x)\)
    2. \(F_V(x)\xlongequal{X,\,Y\,独立}{1-\left(1-F_X(x)\right)\left(1-F_Y(x)\right)}\xlongequal{X,\,Y\,同分布}1-\left(1-F_X(x)\right)^2\)

\(X\sim N(\mu_1,\,\sigma^2_1),\;Y\sim N(\mu_2,\,\sigma^2_2)\)\[aX+bY+c\sim N(a\mu_1+b\mu_2+c,\,a^2\sigma^2_1+b^2\sigma^2_2)\]

\(X\sim E(\lambda_1),\;Y\sim E(\lambda_2)\)\[\min\left\{X,\,Y\right\}\sim E(\lambda_1+\lambda_2)\]

随机变量的数字特征

数学期望

\[E(X)=\int_{-\infty}^{+\infty}xf(x)dx\]

数学期望的性质

  1. \(E\left(c\right)=c\)
  2. \(E\left(aX\right)=aE\left(X\right)\)
  3. \(E\left(X+Y\right)=E\left(X\right)+E\left(Y\right)\)
  4. \(X,\,Y\) 独立,则 \(E\left(XY\right)=E\left(X\right)E\left(Y\right)\)
  5. \(X\geq c\Rightarrow E\left(X\right)\geq c\)

方差

\[D(X)=E\left(X-EX\right)^2=E(X^2)-E^2(X)\]

方差的性质

  1. \(D\left(c\right)=0\)
  2. \(D\left(aX\right)=a^2D\left(X\right)\)
  3. \(X,\,Y\) 独立,则 \(D\left(X\pm Y\right)=D\left(X\right)+D\left(Y\right)\)

常见分布的期望与方差

分布 期望 方差
Binomial Distribution
二项分布
\(np\) \(np(1-p)\)
Poisson Distribution
泊松分布
\(\lambda\) \(\lambda\)
Geometric Distribution
几何分布
\(\dfrac{1}{p}\) \(\dfrac{1-p}{p^2}\)
Hypergeometric Distribution
超几何分布
\(n\cdot\dfrac{M}{N}\)
Uniform Distribution
均匀分布
\(\dfrac{a+b}{2}\) \(\dfrac{(b-a)^2}{12}\)
Exponential Distribution
指数分布
\(\dfrac{1}{\lambda}\) \(\dfrac{1}{\lambda^2}\)
Normal Distribution
正态分布
\(\mu\) \(\sigma^2\)

协方差

\[\begin{align*}\mathrm{Cov}\left(X,\,Y\right)&=E\left[\left(X-EX\right)\left(Y-EY\right)\right]\\ \mathrm{Cov}\left(X,\,X\right)&=E\left(X-EX\right)^2=DX\end{align*}\]

计算:\(\mathrm{Cov}\left(X,\,Y\right)=E(XY)-EX\cdot EY=\rho_{XY}\sqrt{DX}\sqrt{DY}\)

协方差的性质

  1. \(\mathrm{Cov}\left(X,\,c\right)=0\)
  2. \(\mathrm{Cov}\left(X,\,Y\right)=\mathrm{Cov}\left(Y,\,X\right)\)
  3. \(\mathrm{Cov}\left(aX,\,bY\right)=ab\,\mathrm{Cov}\left(X,\,Y\right)\)
  4. \(\mathrm{Cov}\left(X_1+X_2,\,Y\right)=\mathrm{Cov}\left(X_1,\,Y\right)+\mathrm{Cov}\left(X_2,\,Y\right)\)
  5. \(D(X,\,Y)=D(X)+D(Y)+2\,\mathrm{Cov}\left(X,\,Y\right)\)

相关系数

\[\rho_{XY}=\mathrm{Cov}\left(\dfrac{X-EX}{\sqrt{DX}},\,\dfrac{Y-EY}{\sqrt{DY}}\right)=\dfrac{\mathrm{Cov}\left(X,\,Y\right)}{\sqrt{DX}\sqrt{DY}}\]

相关系数反映了随机变量之间的线性关系

  1. \(\rho_{XY}=0\)\(X,\,Y\) 不相关

    • \(\mathrm{Cov}\left(X,\,Y\right)=0\)
    • \(D(X\pm Y)=DX+DY\)
    • \(E(XY)=EX\cdot EY\)
  2. \(\left|\rho_{XY}\right|=1\)\(P\left\{Y=aX+b,\,a\neq 0\right\}=1\)

    • \(a\gt 0,\;\rho_{XY}=1\)
    • \(a\lt 0,\;\rho_{XY}=-1\)

大数定律与中心极限定理

依概率收敛  设 \(X_1,\,X_2,\,\cdots,\,X_n,\,\cdots\) 是相互独立的一列随机变量,\(X\) 是一个随机变量,若对任意正数 \(\varepsilon\),有 \(\displaystyle\lim_{n\to\infty}P\left(\left|X_n-X\right|\lt\varepsilon\right)=1\),则称 \(X_1,\,X_2,\,\cdots,\,X_n,\,\cdots\)依概率收敛于 \(X\),通常记作 \(X_n\xrightarrow{P}X\)

📓 人话:做的次数足够大的时候,\(X_n\)\(X\) 无限接近

大数定律 Law of Large Numbers

本质:算术平均依概率收敛于统计平均 \(\frac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{P}E\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)\)

中心极限定理 Central Limit Theorem

本质:\(n\) 个独立同分布的随机变量之和近似服从正态分布。

Chebyshev 不等式 \[P\left\{\left|X-E(X)\right|\geq\varepsilon\right\}\leq\frac{D(X)}{\varepsilon^2}\]

估计

常用统计量

概念 表达式
样本均值 \(\displaystyle\bar{X}=\dfrac{1}{n}\sum_{i=1}^{n}X_i\)
样本方差 \(\displaystyle S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^2\)
样本的 \(k\) 阶原点矩 \(\displaystyle A_k=\dfrac{1}{n}\sum_{i=1}^{n}X_i^k\)
样本的 \(k\) 阶中心矩 \(\displaystyle B_k=\dfrac{1}{n}\sum_{i=1}^{n}\left(X_i-\bar{X}\right)^k\)

样本均值与样本方差的性质

总体 \(X\) 数字特征 \(E(X)=\mu,\;D(X)=\sigma^2\),若 \(X_1,\,X_2,\,\cdots,\,X_n\) 是取自总体 \(X\) 的一个样本,则

  1. \(E(\bar{X})=E(X)=\mu,\;D(\bar{X})=\dfrac{D(X)}{n}=\dfrac{\sigma^2}{n}\)
  2. \(E(S^2)=D(X)=\sigma^2\)

三个抽样分布

\(\chi^2\) 分布

设总体 \(X\sim N(0,\,1)\)\(X_1,\,X_2,\,\cdots,\,X_n\) 为样本,则统计量 \[\chi^2=X_1+X_2+\cdots+X_n\] 服从的分布成为 \(\chi^2\) 分布,记为 \(\chi^2\sim\chi^2(n)\),其中 \(n\) 称为自由度

期望 方差
\(n\) \(2n\)

\(t\) 分布

\(X\sim N(0,\,1),\;Y\sim\chi^2(n)\),且 \(X\)\(Y\) 相互独立,则随机变量 \(T=\cfrac{X}{\sqrt{\cfrac{Y}{n}}}\sim t(n)\),服从于自由度为 \(n\)\(t\) 分布。

\(F\) 分布

\(X\sim\chi^2(n_1),\,Y\sim\chi^2(n_2)\),且 \(X\)\(Y\) 相互独立,则统计量 \(F=\cfrac{\cfrac{X}{n_1}}{\cfrac{Y}{n_2}}\) 服从 \(F(n_1,\,n_2)\) 分布。

性质: 1. \(F\sim F\left(n_1,\,n_2\right)\Rightarrow\dfrac{1}{F}\sim F\left(n_2,\,n_1\right)\) 2. \(T\sim t(n)\Rightarrow T^2\sim F\left(1,\,n\right)\Rightarrow \dfrac{1}{T^2}\sim F\left(n,\,1\right)\)

分位点

单正态总体下样本均值与样本方差的分布

矩估计

矩估计 (Moment Estimation)

最大似然估计

最大似然估计 (Maximum Likelihood Estimation, MLE)

  1. 写出含参数的 MLE 函数 \(L(\theta)=\displaystyle\prod_{i=1}^n P\left(x_i;\,n\right)\),其中 \(\theta\) 为参数

  2. 等式两边取对数 \(\ln L(\theta)=\displaystyle\sum_{i=1}^n\ln P\left(x_i;\,n\right)\)

  3. 对参数求导 \(\dfrac{d}{d\theta}\ln L(\theta)\)

  4. 寻找最大似然估计量(值)

    • 驻点存在且唯一:驻点
    • 驻点不存在:边界点

置信区间

置信区间 (Confidence Interval)

假设检验

线性回归


概率论笔记
https://devexzh.github.io/2023/Note_Of_Probability_And_Statistics/
作者
Ryker Zhu
发布于
2023年4月16日
许可协议