Chapter 10 贝叶斯分类器
一、贝叶斯决策论
疾旋鼬看到一个西瓜,色泽青绿、根蒂蜷缩、敲声浊响。它想:这个瓜是好瓜的概率有多大?如果好瓜概率 > 坏瓜概率,就买。
贝叶斯决策论:在概率框架下做决策。
给定 \(N\) 个类别,将第 \(i\) 类误分为第 \(j\) 类的损失为 \(\lambda_{ij}\),将样本 \(x\) 分到第 \(i\) 类的条件风险:
贝叶斯最优分类器:\(h^*(x) = \arg\min_c R(c \mid x)\)。其总体风险称为贝叶斯风险——学习性能的理论上限。
对 0/1 损失,最小化风险等价于最大化后验概率:\(h^*(x) = \arg\max_c P(c \mid x)\)。
判别式 vs. 生成式
- 判别式:直接对 \(P(c \mid x)\) 建模(决策树、SVM、对率回归)
- 生成式:先对 \(P(x, c)\) 建模,再由贝叶斯定理获得 \(P(c \mid x)\)
主要困难在于估计似然 \(P(x \mid c)\)。
二、极大似然估计
假定 \(P(x \mid c)\) 具有确定分布形式,被参数 \(\theta_c\) 唯一确定。
对第 \(c\) 类样本集 \(D_c\),似然函数 \(P(D_c \mid \theta_c) = \prod_{x \in D_c} P(x \mid \theta_c)\)。
对数似然:\(\ell(\theta_c) = \sum_{x \in D_c} \log P(x \mid \theta_c)\)。
例子:假设 \(P(x \mid c) \sim \mathcal{N}(\mu_c, \sigma_c^2)\),MLE 的结果恰好是:
即样本均值和样本协方差。简洁而自然。
局限:估计结果的准确性严重依赖于假设的分布形式是否符合真实分布。
三、朴素贝叶斯分类器
核心假设
\(P(x \mid c) = \prod_{j=1}^d P(x_j \mid c)\)——所有属性在给定类别下相互独立。
"朴素"的含义:这个假设在现实中几乎不成立,但朴素贝叶斯在实践中往往表现惊人地好。
分类规则
参数估计
- 先验:\(P(c) = \frac{|D_c|}{|D|}\)
- 离散属性:\(P(x_j \mid c) = \frac{|D_{c,x_j}|}{|D_c|}\)
- 连续属性:假定 \(P(x_j \mid c) \sim \mathcal{N}(\mu_{c,j}, \sigma_{c,j}^2)\)
拉普拉斯修正
若某属性值从未与某类同时出现,\(P(x_j \mid c) = 0\),连乘"抹去"其他属性信息。
一个例子
判断 \((青绿, 稍蜷, 浊响, 清晰)\) 是好瓜还是坏瓜?
类似计算坏瓜概率,取较大者。好瓜!
优势
- 预测速度快——预计算查表
- 支持增量学习
- 适合高维稀疏数据(如文本分类)
四、半朴素贝叶斯
适当考虑一部分属性间的依赖。独依赖估计 (ODE):每个属性最多依赖一个"父属性" \(\text{pa}_j\):
- SPODE:所有属性依赖同一个"超父"
- TAN:以条件互信息为边权重,构建最大带权生成树
- AODE:将所有有足够数据支撑的 SPODE 集成
五、贝叶斯网
贝叶斯网 = 有向无环图 (DAG) + 条件概率表 (CPT)。
联合概率:\(P(x_1, \ldots, x_d) = \prod_{j=1}^d P(x_j \mid \text{Pa}_j)\)
给定父结点集,每个属性与其非后裔属性条件独立。
结构学习
NOTEARS:将组合优化转化为连续优化。\(\min_W \ell(W)\),s.t. \(h(W) = \text{tr}(e^{W \circ W}) - d = 0\)。
\(h(W) = 0\) 当且仅当 \(W\) 对应的图无环。
推断
- 精确推断:NP 难
- 吉布斯采样:MCMC 方法,逐个考察非证据变量
- 变分推断:用简单分布近似后验
六、EM 算法
当数据存在隐变量 \(Z\) 时,无法直接 MLE。
以初始值 \(\theta^0\) 为起点,迭代: - E 步:推断隐变量期望 \(Z^t = \mathbb{E}[Z \mid X, \theta^t]\) - M 步:\(\theta^{t+1} = \arg\max_\theta \mathbb{E}_{Z^t}[\log P(X, Z \mid \theta)]\)
EM 保证对数似然单调递增,但可能收敛到局部最优。
2026.06