0%

Stanford Machine Learning - 5 广义线性模型

指数分布族(Exponential Family)

指数分布族的定义

若一类概率分布可以写成如下形式,那么它就属于指数分布族:

  • $\eta$: 自然参数,通常是一个实数
  • T(y): 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)
  • a($\eta$) 被称为 log partition function

对于给定的 a,b,T 三个函数,上式定义了一个以 $\eta$ 为参数的概率分布集合,即改变 $\eta$ 可以得到不同的概率分布,例如高斯分布和伯努利分布。

指数分布族以及它们的特征

  • 正态分布(高斯分布)——总体噪音(由中心极限定理得)
  • 伯努利分布——逻辑回归(对01问题建模)
  • 多项式分布——K种结果的事情进行建模
  • 泊松分布——对计数过程进行建模(一个样本中放射性衰变的数目,网站的访客数目,商店的顾客数目)
  • 伽马分布,指数分布——正数的分布,对间隔进行建模(在公交车站等车的时间)
  • β分布,Dirichlet分布——对小数进行分布,对概率分布进行建模
  • Wishart分布——协方差的分布

指数分布簇推导

高斯分布(Gaussian)和伯努利(Bernoulli)分布都可以推导为指数分布族。

伯努利分布的推导

伯努利分布的概率公式为:$P(y=1;\phi)=\phi; P(y=0;\phi)=1-\phi;$

公式可经如下变换:

对应的指数分布族的参数为:
$T(y) = y$
$b(y) = 1$
$\eta = log(\frac\phi{1-\phi}) => \phi=\frac1{1+e^{-n}}$
$a(\eta) = -log(1-\phi) = log(1+e^n)$

高斯分布的推导

在线性回归中,$\sigma$ 对于模型参数 $\theta$ 的选择没有影响,为了推导方便我们令 $\sigma = 1$。
则有:

对应的指数分布族的参数为:
$T(y) = y$
$b(y) = \frac{1}{\sqrt{2\pi}}exp(-\frac12y^2)$
$\eta = \mu$
$a(\eta) = \frac{ {\mu}^2}2 = \frac{ {\eta}^2}2$

广义线性模型(Generalized Linear Model)

想用 广义线性模型对一般问题进行建模首先需要明确几个 假设:

  1. $y | x;θ \sim ExponentialFamily(\eta)$ y的条件概率属于指数分布族;
  2. 给定 x 广义线性模型的目标是求解 T(y) | x, 不过由于 很多情况下 T(y) = y 所以我们的目标变成了 y | x , 也即 我们希望拟合函数为 h(x) = E[y|x] (这个条件在线性回归和逻辑回归中都满足, 例如在逻辑回归中 $hθ(x) = p(y = 1|x;\theta) = 0 \cdot p(y = 0|x; \theta) + 1 \cdot p(y = 1|x; \theta) = E[y|x;\theta])$
  3. 自然参数 $\eta$ 与 x 是线性关系:$\eta=\theta^Tx$ ($\eta 为向量时 \eta_{i} = \theta_{i}^Tx$)

有了如上假设,就可以进行建模和求解了。

对于伯努利分布,可以推导出:

这也就是逻辑回归中 sigmod 函数的由来。

多分类算法(Softmax Regression)

y有多个可能的分类:{1, 2, …, k}

=======具体的公式略=======

最后求借寻找最佳参数时,跟最小二乘和逻辑回归的解法类似,可以用梯度下降法或者牛顿迭代法。

Referecen

广义线性模型(Generalized Linear Model)

觉得不错,就打赏一下吧