Contents
  1. 1. 1. 指数分布族(Exponential Family)
    1. 1.0.1. 指数分布族的定义
    2. 1.0.2. 指数分布族以及它们的特征
  • 2. 2. 指数分布簇推导
    1. 2.1. 2.1 伯努利分布的推导
    2. 2.2. 2.2 高斯分布的推导
  • 3. 3. 广义线性模型(Generalized Linear Model)
  • 4. 4. 多分类算法(Softmax Regression)
  • 5. Referecen
  • 1. 指数分布族(Exponential Family)

    指数分布族的定义

    若一类概率分布可以写成如下形式,那么它就属于指数分布族:
    $$P(y;\eta) = b(y)exp(\eta^TT(y)-a(\eta))$$

    • $\eta$: 自然参数,通常是一个实数
    • T(y): 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)
    • a($\eta$) 被称为 log partition function

    对于给定的 a,b,T 三个函数,上式定义了一个以 $\eta$ 为参数的概率分布集合,即改变 $\eta$ 可以得到不同的概率分布,例如高斯分布和伯努利分布。

    指数分布族以及它们的特征

    • 正态分布(高斯分布)——总体噪音(由中心极限定理得)
    • 伯努利分布——逻辑回归(对01问题建模)
    • 多项式分布——K种结果的事情进行建模
    • 泊松分布——对计数过程进行建模(一个样本中放射性衰变的数目,网站的访客数目,商店的顾客数目)
    • 伽马分布,指数分布——正数的分布,对间隔进行建模(在公交车站等车的时间)
    • β分布,Dirichlet分布——对小数进行分布,对概率分布进行建模
    • Wishart分布——协方差的分布

    2. 指数分布簇推导

    高斯分布(Gaussian)和伯努利(Bernoulli)分布都可以推导为指数分布族。

    2.1 伯努利分布的推导

    伯努利分布的概率公式为:$P(y=1;\phi)=\phi; P(y=0;\phi)=1-\phi;$

    公式可经如下变换:
    $$P(y;\phi)=\phi^y(1-\phi)^y$$
    $$=exp(log(\phi^y(1-\phi)^y))=exp(ylog(\phi)+ (1-y)log(1-\phi))$$
    $$=exp(log(\frac\phi{1-\phi})y + log(1-\phi))$$

    对应的指数分布族的参数为:
    $T(y) = y$
    $b(y) = 1$
    $\eta = log(\frac\phi{1-\phi}) => \phi=\frac1{1+e^{-n}}$
    $a(\eta) = -log(1-\phi) = log(1+e^n)$

    2.2 高斯分布的推导

    在线性回归中,$\sigma$ 对于模型参数 $\theta$ 的选择没有影响,为了推导方便我们令 $\sigma = 1$。
    则有:
    $$P(y;\mu)=\frac{1}{\sqrt{2\pi}}exp(-\frac12(y-\mu)^2)$$
    $$=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2) * exp({\mu}y-\frac{1}{2}\mu^2)$$

    对应的指数分布族的参数为:
    $T(y) = y$
    $b(y) = \frac{1}{\sqrt{2\pi}}exp(-\frac12y^2)$
    $\eta = \mu$
    $a(\eta) = \frac{{\mu}^2}2 = \frac{{\eta}^2}2$

    3. 广义线性模型(Generalized Linear Model)

    想用 广义线性模型对一般问题进行建模首先需要明确几个 假设:

    1. $y | x;θ \sim ExponentialFamily(\eta)$ y的条件概率属于指数分布族;
    2. 给定 x 广义线性模型的目标是求解 T(y) | x, 不过由于 很多情况下 T(y) = y 所以我们的目标变成了 y | x , 也即 我们希望拟合函数为 h(x) = E[y|x] (这个条件在线性回归和逻辑回归中都满足, 例如在逻辑回归中 $hθ(x) = p(y = 1|x;\theta) = 0 \cdot p(y = 0|x; \theta) + 1 \cdot p(y = 1|x; \theta) = E[y|x;\theta])$
    3. 自然参数 $\eta$ 与 x 是线性关系:$\eta=\theta^Tx$ ($\eta 为向量时 \eta_{i} = \theta_{i}^Tx$)

    有了如上假设,就可以进行建模和求解了。

    对于伯努利分布,可以推导出:

    这也就是逻辑回归中 sigmod 函数的由来。

    4. 多分类算法(Softmax Regression)

    y有多个可能的分类:{1, 2, …, k}

    =======具体的公式略=======

    最后求借寻找最佳参数时,跟最小二乘和逻辑回归的解法类似,可以用梯度下降法或者牛顿迭代法。

    Referecen

    广义线性模型(Generalized Linear Model)

    Contents
    1. 1. 1. 指数分布族(Exponential Family)
      1. 1.0.1. 指数分布族的定义
      2. 1.0.2. 指数分布族以及它们的特征
  • 2. 2. 指数分布簇推导
    1. 2.1. 2.1 伯努利分布的推导
    2. 2.2. 2.2 高斯分布的推导
  • 3. 3. 广义线性模型(Generalized Linear Model)
  • 4. 4. 多分类算法(Softmax Regression)
  • 5. Referecen