Note20 Continuous Probability Distribution

笔记
本节我们又学习了三个分布，针对Continuous RV
- uniform 的 continuous r.v
- Exponential
- Normal
continuous uniform probability distribution
- 此前我们讨论的discrete RV 都聚焦于Countable的集合，我们希望向 Real-number 进行讨论
- 考虑这样一个 fair 指针转盘，指针停在转盘位置的随机变量取自 $[0,l]$ 其中 $l$ 是转盘的周长，如果我们还是以离散视角看，假设指针只能停在 m 个位置，这样我们可以得到一个 discrete 的概率空间且是uniform的$\frac{1}{m}$，似乎当 $m \to \infty$ 时，每个概率点的概率都是0，如果这样讨论将会没有意义，因此我们需要定义新的方法 --- 区间的概率与其长度成正比
- 请注意，区间是样本空间Ω的子集，因此是事件。所以与离散概率不同，在离散概率中我们为样本空间中的点分配概率，而在连续概率中，我们为某些基本事件（在这种情况下是区间）分配概率
Continuous RV
- 与上面的Continuous一样，我们需要重新定义RV即也是采用区间定义，这就需要介绍概率密度函数的概念（有时简称为“密度”或“p.d.f.”）
- (概率密度函数)。一个实值随机变量X的概率密度函数（p.d.f.）是一个满足以下条件的函数f：R → R：
  - f是非负的：对于所有x∈R，f(x)≥0。
  - f 的总积分为 1：$∫_{−∞}^{∞} f(x)dx = 1$
- 然后，X 的概率分布由以下给出
  - $P[a \le X \le b] = ∫_a^bf(x)dx$ for all a < b
Cumulative Distribution Function 累积分布函数(c.d.f)
- c.d.f 是这样的 $F(x) = P[X ≤ x] = ∫_{-\infty}^{x}f(z)dz.$
- 因此 p.d.f 可以表示为$f(x) = \frac{dF(x)}{dx}$
Continuous 的 E 和 Var
- $E = ∫_{−∞}^{∞} xf(x)dx$
- $Var = ∫_{−∞}^{∞} x^2f(x)dx - (∫_{−∞}^{∞} xf(x)dx)^2$
Joint Distribution
- 联合密度函数。两个随机变量X和Y的联合密度函数是一个函数f：$R^2 → R$，满足：
  - f是非负的：对于所有x，y属于实数，f(x, y) ≥ 0。
  - f的全积分为1：$∫_{-\infty}^{\infty}∫_{-\infty}^{\infty} f(x, y)dx dy = 1$
- 然后，X和Y的联合分布由以下给出：
  - $P[a \le X \le b, c \le Y \le d] = ∫_c^d∫_a^bf(x,y)dxdy$ for all a < b and c < d
Independence
- （连续R.V.的独立性）。两个连续随机变量X，Y是独立的，如果对于所有a ≤ b和c ≤ d，事件a ≤ X ≤ b和c ≤ Y ≤ d都是独立的：
  - $P[a \le X \le b, c \le Y \le d]=P[a \le X \le b]\cdot P[c \le Y \le d]$
Exponential Distribution 指数分布
- 指数分布是几何分布的连续版本
- 我们经常不是处理离散事件或离散时间，而是处理连续时间：例如，如果我们正在等待一个苹果从树上掉下来，它可以在任何时候掉下来，而不一定是在离散时钟的滴答声中。这种情况自然可以用指数分布来建模，定义如下：
  - 对于λ > 0，一个具有概率密度函数的连续随机变量X $$ f(x)= \begin{cases} \lambda e^{-\lambda x}& \text{ if } x \ge 0 \ 0 & \text{ if } others \end{cases} $$
  - 称为参数为λ的指数随机变量，我们记作X ∼ Exp(λ)。
- E 和 Var --- 积分学好就好算
  - $E = \frac{1}{\lambda}$
  - $Var = \frac{1}{\lambda^2}$
- 作为几何分布的连续时间模拟
  - 依据上述的式子，我们等待事件发生超过时间t的概率是$e^{−λt}$，这是一个以λ为速率的指数衰减
Normal Distribution 正态分布(高斯分布)
- 对于任何µ属于实数集R和σ大于0，连续随机变量X具有概率密度函数:
  - $f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{\frac{-(x-\mu)^2}{2\sigma^2}}$
- 称为具有参数 µ 和 σ² 的正态随机变量，我们记作 X ∼ N(µ,σ²). 标准正态分布是指 $\mu=0,\sigma^2=1$
- 正态分布的平移、放缩性质
  - 如果X服从$N(µ,σ^2)$，那么$Y = (X−µ)/\sigma$服从N(0,1)。等价地，如果Y服从N(0,1)，那么X = σY + µ服从$N(µ,σ^2)$ ---- 任何正态分布都可以通过标准正态分布平移和缩放得到
  - 推论 --- $X \sim N(\mu,\sigma^2), 则Y=aX+b \sim N(a\mu+b, a^2\sigma^2)$
- E 和 Var
  - $E = \mu$
  - $Var = \sigma^2$
- 正态分布贯穿于自然科学和社会科学，因为它是大批独立观察同一随机变量（如伯克利蚊子的重量或物理实验中的观测误差）所得到的汇总数据的标准模型。众所周知，这类数据倾向于围绕其平均值在“钟形”曲线上聚集，随着观察数量的增加，这种对应关系变得更加准确。这种现象的理论解释是==中心极限定理==
- sum of independent normal distribution RV
  - 设X ∼ N(0,1)和Y ∼ N(0,1)为独立的正态分布随机变量，且a,b ∈ R为常数。则Z = aX + bY ∼ N(0, a² + b²)
  - 推论 ---- 设X服从$N(µ_X,σ_X^2)$分布，Y服从$N(µ_Y,σ_Y^2)$分布，且X和Y相互独立。那么对于任意的常数a,b∈R，随机变量Z=aX+bY服从正态分布，其均值$µ=aµ_X+bµ_Y$，方差$σ^2=a^2σ_X^2+b^2σ_Y^2$。
Central Limit Theorem
- (中心极限定理)。设X1,X2,...是一列独立同分布的随机变量，具有共同的有限期望E[Xi] = µ和有限的方差$Var(Xi) = σ^2$。令$Sn = \sum^n_{i=1} Xi$。那么，当n → ∞时，$\frac{S_n-n\mu}{\sigma\sqrt{n}} \le c$ 的分布收敛于N(0,1)。换句话说，对于任何常数c ∈ R，
  - $P[\frac{S_n-n\mu}{\sigma\sqrt{n}} \le c] \to \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{c}e^{-x^2/x}dx$ 当 $n \to \infty$
Buffon’s Needle 很有趣的逼近 $\pi$ 的方法