Skip to content

Chapter 10 贝叶斯分类器


一、贝叶斯决策论

疾旋鼬看到一个西瓜,色泽青绿、根蒂蜷缩、敲声浊响。它想:这个瓜是好瓜的概率有多大?如果好瓜概率 > 坏瓜概率,就买。

贝叶斯决策论:在概率框架下做决策。

给定 \(N\) 个类别,将第 \(i\) 类误分为第 \(j\) 类的损失为 \(\lambda_{ij}\),将样本 \(x\) 分到第 \(i\) 类的条件风险

\[R(c_i \mid x) = \sum_{j=1}^N \lambda_{ij} P(c_j \mid x)\]

贝叶斯最优分类器\(h^*(x) = \arg\min_c R(c \mid x)\)。其总体风险称为贝叶斯风险——学习性能的理论上限

对 0/1 损失,最小化风险等价于最大化后验概率:\(h^*(x) = \arg\max_c P(c \mid x)\)

判别式 vs. 生成式

  • 判别式:直接对 \(P(c \mid x)\) 建模(决策树、SVM、对率回归)
  • 生成式:先对 \(P(x, c)\) 建模,再由贝叶斯定理获得 \(P(c \mid x)\)
\[P(c \mid x) = \frac{P(x \mid c) P(c)}{P(x)}\]

主要困难在于估计似然 \(P(x \mid c)\)

二、极大似然估计

假定 \(P(x \mid c)\) 具有确定分布形式,被参数 \(\theta_c\) 唯一确定。

对第 \(c\) 类样本集 \(D_c\),似然函数 \(P(D_c \mid \theta_c) = \prod_{x \in D_c} P(x \mid \theta_c)\)

对数似然:\(\ell(\theta_c) = \sum_{x \in D_c} \log P(x \mid \theta_c)\)

例子:假设 \(P(x \mid c) \sim \mathcal{N}(\mu_c, \sigma_c^2)\),MLE 的结果恰好是:

\[\hat{\mu}_c = \frac{1}{|D_c|}\sum_{x \in D_c} x, \quad \hat{\sigma}_c^2 = \frac{1}{|D_c|}\sum_{x \in D_c}(x - \hat{\mu}_c)(x - \hat{\mu}_c)^T\]

即样本均值和样本协方差。简洁而自然。

局限:估计结果的准确性严重依赖于假设的分布形式是否符合真实分布。

三、朴素贝叶斯分类器

核心假设

\(P(x \mid c) = \prod_{j=1}^d P(x_j \mid c)\)——所有属性在给定类别下相互独立

"朴素"的含义:这个假设在现实中几乎不成立,但朴素贝叶斯在实践中往往表现惊人地好。

分类规则

\[h_{nb}(x) = \arg\max_{c \in \mathcal{Y}} P(c) \prod_{j=1}^d P(x_j \mid c)\]

参数估计

  • 先验:\(P(c) = \frac{|D_c|}{|D|}\)
  • 离散属性:\(P(x_j \mid c) = \frac{|D_{c,x_j}|}{|D_c|}\)
  • 连续属性:假定 \(P(x_j \mid c) \sim \mathcal{N}(\mu_{c,j}, \sigma_{c,j}^2)\)

拉普拉斯修正

若某属性值从未与某类同时出现,\(P(x_j \mid c) = 0\),连乘"抹去"其他属性信息。

\[P(c) = \frac{|D_c| + 1}{|D| + N}, \quad P(x_j \mid c) = \frac{|D_{c,x_j}| + 1}{|D_c| + N_j}\]

一个例子

判断 \((青绿, 稍蜷, 浊响, 清晰)\) 是好瓜还是坏瓜?

\[P(\text{好瓜}) \times P(\text{青绿} \mid \text{好瓜}) \times P(\text{稍蜷} \mid \text{好瓜}) \times P(\text{浊响} \mid \text{好瓜}) \times P(\text{清晰} \mid \text{好瓜})\]
\[= \frac{8}{17} \times \frac{3}{8} \times \frac{3}{8} \times \frac{6}{8} \times \frac{7}{8} = 0.038\]

类似计算坏瓜概率,取较大者。好瓜!

优势

  1. 预测速度快——预计算查表
  2. 支持增量学习
  3. 适合高维稀疏数据(如文本分类)

四、半朴素贝叶斯

适当考虑一部分属性间的依赖。独依赖估计 (ODE):每个属性最多依赖一个"父属性" \(\text{pa}_j\)

\[P(x \mid c) \propto P(c) \prod_{j=1}^d P(x_j \mid c, x_{\text{pa}_j})\]
  • SPODE:所有属性依赖同一个"超父"
  • TAN:以条件互信息为边权重,构建最大带权生成树
  • AODE:将所有有足够数据支撑的 SPODE 集成

五、贝叶斯网

贝叶斯网 = 有向无环图 (DAG) + 条件概率表 (CPT)。

联合概率:\(P(x_1, \ldots, x_d) = \prod_{j=1}^d P(x_j \mid \text{Pa}_j)\)

给定父结点集,每个属性与其非后裔属性条件独立。

结构学习

NOTEARS:将组合优化转化为连续优化。\(\min_W \ell(W)\),s.t. \(h(W) = \text{tr}(e^{W \circ W}) - d = 0\)

\(h(W) = 0\) 当且仅当 \(W\) 对应的图无环。

推断

  • 精确推断:NP 难
  • 吉布斯采样:MCMC 方法,逐个考察非证据变量
  • 变分推断:用简单分布近似后验

六、EM 算法

当数据存在隐变量 \(Z\) 时,无法直接 MLE。

以初始值 \(\theta^0\) 为起点,迭代: - E 步:推断隐变量期望 \(Z^t = \mathbb{E}[Z \mid X, \theta^t]\) - M 步\(\theta^{t+1} = \arg\max_\theta \mathbb{E}_{Z^t}[\log P(X, Z \mid \theta)]\)

EM 保证对数似然单调递增,但可能收敛到局部最优。


2026.06