Note19 Geometric and Poisson Distributions

笔记
首先回顾 Probability distribution 本质上是描述随机变量的可能取值及其概率的二元对集合。
而我们一般写的不同分布的表达式本质上就是在算随机变量不同取值下的概率通式，以此表示集合
因此，当我们考察一个随机变量 X 符合何种分布时，不妨写出 \(P[X=i]\) 的式子一定能马上知道是什么分布或者看该事件与我们的典例事件是否是一致的也可以判断。泊松分布相对比较特殊，额外来看
我们目前学的分布也就五种
- Bernoulli
- Binomial
- Hypergeometric
- geometric
- poisson
Geometric Distribution
- A random variable X for which \(P[X=i]=(1-p)^{i-1}p\) is said to have the geometric distribution with parameter p. This is abbreviated as X ∼ Geometric(p)
  - 常见的随机变量 --- 恰好第 i 次投硬币正面朝上(前i-1次均背面朝上)
- Tail sum formula 尾部加和公式
  - 如果一个随机变量的可能取值均取自自然数集，那么 \(E(X) = \sum_{i=1}^{\infty}P[X \ge i]\)
  - proof 比较简单，可以直接看note
- 由尾部求和公式我们计算图分布的期望 E
  - \(P[X \ge i]=(1-p)^{i-1}\)
  - 已知 \(0 < p < 1\) ，等比数列求和，\(E(X)=\sum_{i=1}^{\infty}(1-p)^{i-1} =\frac{1}{p}\)
- 由期望来求方差 Var
  - 我们需要用到 E 的线形特征和 LOTUS规律\(E[f(X)] = \sum_{x}f(x)P [X = x].\)
  - 甚至我们需要通过对 E 等式两边求导得到进一步的结论，即对p两边求导\(\sum_{i=1}^{\infty}(1-p)^{i-2}(i-1)(-1) = -\frac{1}{p^2}\)
  - 再求一次导 ---- \(\sum_{i=1}^{\infty}(i-1)(i-2)(1-p)^{i-3}= \sum_{i=2}^{\infty}i(i-1)(1-p)^{i-2} = \frac{2}{p^3}\)
  - 依据LOTUS ---- \(E(X(X-1))=\sum_{i=1}^{\infty}i(i-1)(1-p)^{i-1}p=\frac{2(1-p)}{p^2}\)
  - 依据E的线形特征 --- \(Var(X) = E(X^2)-E(X)^2 = E(X(X-1))+E(X)-E(X)^2 =\frac{1-p}{p^2}\)
- Application --- The Coupon Collector’s Problem 谷物收集问题(抽池子问题)
  - 问题描述 ---- 假设我们正在尝试收集一套n张不同的棒球卡。我们通过购买谷物盒来获得这些卡片：每个盒子包含一张卡片，这张卡片是n张卡片中的任意一张，概率均等。我们需要购买多少个盒子才能收集到至少每张卡片的副本？
  - 设 Sn 表示收集所有 n 张卡片所需的购买盒数，则 Sn = X1+...+Xn，Xi是在尝试获得第i张新卡时还需购买的盒子数量(前提是已经有i-1张新卡了)
  - 获得第一张新卡时，我们只要买了box就一定能获得第一张新卡，于是P[X1=1] = 1，因此 \(E(X1)=1\)
  - 考虑 X2，即获得第二张新卡时还购买的盒子数量，获得旧的概率是 \(\frac{1}{n}\)，新的概率是 \(\frac{n-1}{n}\)，再买第一个盒子就获得第二张新卡(相当于投一次就是head)依次类推符合图分布因此 \(E(X2)=\frac{n}{n-1}\)
  - 同理可推 Xi，\(E(Xi)=\frac{n}{n-i+1}\)
  - 因此 \(E(Sn)= \sum_{i=1}^{n}E(Xi)= n\sum_{i=1}^{n}\frac{1}{i} \approx n(lnn+\gamma_E)\) --- 欧拉常数
Poisson Distribution --- 泊松分布
- A random variable X for which \(P[X=i]=\frac{\lambda^i}{i!}e^{-\lambda}\) for i =0,1,2,.... is said to have the Poisson distribution with parameter λ
- 通过 \(e^x\) 的泰勒展开或者说级数展开可以证明这个随机变量定义是合理的
- 泊松分布也是所谓“罕见事件”的非常广泛接受的模型，例如误接的电话、放射性辐射、染色体交叉、疾病病例数、每小时出生数等。
- 此模型适用于在连续区域（时间或空间）中，发生事件可以假设为随机发生且具有某种恒定密度的情况，使得不同子区域中的事件是独立的。然后可以证明，在单位面积区域中发生事件的次数应服从参数为λ的泊松分布。
  - Example，假设我们写文章时，每页平均有1个错别字。我们可以用λ=1的泊松随机变量X来模拟这种情况。因此，一页有5个错别字的概率是 \(P[X=5]=\frac{1^5}{5!}e^{-1} \approx \frac{1}{326}\)
- 泊松分布的E 与 Var
  - \(E=\lambda\)
    - proof 还是使用级数展开比较简单证明
  - \(Var = \lambda\)
    - proof 也是借助 E 求得的结果通过两边同时求导再通过LOTUS+线形性质来得到 Var，也比较简单证明
- 两个独立的泊松分布随机变量的加和
  - 设X服从参数为λ的泊松分布，Y服从参数为µ的泊松分布，且X和Y相互独立。那么，X+Y服从参数为λ+µ的泊松分布
  - 证明就采用独立性和Joint Distribution方法证明比较简单
  - 同时可以推广为 n 个相互独立的泊松分布加和
- 泊松分布是二项分布的极限
  - 我们考虑这样一个场景，X 表示 1 min钟内中国人发起通话的人数量，我们把 1 min 分成 n 段小时间，每段小时间发起通话的概率为 p (重要假设，小时间发起通话的人数大于1的概率忽略不计，不同小时间发起通话独立)
  - X ～ Bin(n,p)
  - 那么假设每分钟的平均呼叫次数为 \(\lambda\)，则 \(np=\lambda\) 即 \(p=\frac{\lambda}{n}\)
    - \(P[X=i]=C_n^i (\frac{\lambda}{n})^i(1-\frac{\lambda}{n})^{n-i}\) 当 n 趋近无穷 \(P[X=i]=\frac{\lambda^i}{i!}e^{-\lambda}\) --- 极限学好了就很好证明