Chapter 10 贝叶斯分类器

一、贝叶斯决策论

疾旋鼬看到一个西瓜，色泽青绿、根蒂蜷缩、敲声浊响。它想：这个瓜是好瓜的概率有多大？如果好瓜概率 > 坏瓜概率，就买。

贝叶斯决策论：在概率框架下做决策。

给定 \(N\) 个类别，将第 \(i\) 类误分为第 \(j\) 类的损失为 \(\lambda_{ij}\)，将样本 \(x\) 分到第 \(i\) 类的条件风险：

\[R(c_i \mid x) = \sum_{j=1}^N \lambda_{ij} P(c_j \mid x)\]

贝叶斯最优分类器：\(h^*(x) = \arg\min_c R(c \mid x)\)。其总体风险称为贝叶斯风险——学习性能的理论上限。

对 0/1 损失，最小化风险等价于最大化后验概率：\(h^*(x) = \arg\max_c P(c \mid x)\)。

判别式 vs. 生成式

判别式：直接对 \(P(c \mid x)\) 建模（决策树、SVM、对率回归）
生成式：先对 \(P(x, c)\) 建模，再由贝叶斯定理获得 \(P(c \mid x)\)

\[P(c \mid x) = \frac{P(x \mid c) P(c)}{P(x)}\]

主要困难在于估计似然 \(P(x \mid c)\)。

二、极大似然估计

假定 \(P(x \mid c)\) 具有确定分布形式，被参数 \(\theta_c\) 唯一确定。

对第 \(c\) 类样本集 \(D_c\)，似然函数 \(P(D_c \mid \theta_c) = \prod_{x \in D_c} P(x \mid \theta_c)\)。

对数似然：\(\ell(\theta_c) = \sum_{x \in D_c} \log P(x \mid \theta_c)\)。

例子：假设 \(P(x \mid c) \sim \mathcal{N}(\mu_c, \sigma_c^2)\)，MLE 的结果恰好是：

\[\hat{\mu}_c = \frac{1}{|D_c|}\sum_{x \in D_c} x, \quad \hat{\sigma}_c^2 = \frac{1}{|D_c|}\sum_{x \in D_c}(x - \hat{\mu}_c)(x - \hat{\mu}_c)^T\]

即样本均值和样本协方差。简洁而自然。

局限：估计结果的准确性严重依赖于假设的分布形式是否符合真实分布。

三、朴素贝叶斯分类器

核心假设

\(P(x \mid c) = \prod_{j=1}^d P(x_j \mid c)\)——所有属性在给定类别下相互独立。

"朴素"的含义：这个假设在现实中几乎不成立，但朴素贝叶斯在实践中往往表现惊人地好。

分类规则

\[h_{nb}(x) = \arg\max_{c \in \mathcal{Y}} P(c) \prod_{j=1}^d P(x_j \mid c)\]

参数估计

先验：\(P(c) = \frac{|D_c|}{|D|}\)
离散属性：\(P(x_j \mid c) = \frac{|D_{c,x_j}|}{|D_c|}\)
连续属性：假定 \(P(x_j \mid c) \sim \mathcal{N}(\mu_{c,j}, \sigma_{c,j}^2)\)

拉普拉斯修正

若某属性值从未与某类同时出现，\(P(x_j \mid c) = 0\)，连乘"抹去"其他属性信息。

\[P(c) = \frac{|D_c| + 1}{|D| + N}, \quad P(x_j \mid c) = \frac{|D_{c,x_j}| + 1}{|D_c| + N_j}\]

一个例子

判断 \((青绿, 稍蜷, 浊响, 清晰)\) 是好瓜还是坏瓜？

\[P(\text{好瓜}) \times P(\text{青绿} \mid \text{好瓜}) \times P(\text{稍蜷} \mid \text{好瓜}) \times P(\text{浊响} \mid \text{好瓜}) \times P(\text{清晰} \mid \text{好瓜})\]

\[= \frac{8}{17} \times \frac{3}{8} \times \frac{3}{8} \times \frac{6}{8} \times \frac{7}{8} = 0.038\]

类似计算坏瓜概率，取较大者。好瓜！

优势

预测速度快——预计算查表
支持增量学习
适合高维稀疏数据（如文本分类）

四、半朴素贝叶斯

适当考虑一部分属性间的依赖。独依赖估计 (ODE)：每个属性最多依赖一个"父属性" \(\text{pa}_j\)：

\[P(x \mid c) \propto P(c) \prod_{j=1}^d P(x_j \mid c, x_{\text{pa}_j})\]

SPODE：所有属性依赖同一个"超父"
TAN：以条件互信息为边权重，构建最大带权生成树
AODE：将所有有足够数据支撑的 SPODE 集成

五、贝叶斯网

贝叶斯网 = 有向无环图 (DAG) + 条件概率表 (CPT)。

联合概率：\(P(x_1, \ldots, x_d) = \prod_{j=1}^d P(x_j \mid \text{Pa}_j)\)

给定父结点集，每个属性与其非后裔属性条件独立。

结构学习

NOTEARS：将组合优化转化为连续优化。\(\min_W \ell(W)\)，s.t. \(h(W) = \text{tr}(e^{W \circ W}) - d = 0\)。

\(h(W) = 0\) 当且仅当 \(W\) 对应的图无环。

推断

精确推断：NP 难
吉布斯采样：MCMC 方法，逐个考察非证据变量
变分推断：用简单分布近似后验

六、EM 算法

当数据存在隐变量 \(Z\) 时，无法直接 MLE。

以初始值 \(\theta^0\) 为起点，迭代： - E 步：推断隐变量期望 \(Z^t = \mathbb{E}[Z \mid X, \theta^t]\) - M 步：\(\theta^{t+1} = \arg\max_\theta \mathbb{E}_{Z^t}[\log P(X, Z \mid \theta)]\)

EM 保证对数似然单调递增，但可能收敛到局部最优。

2026.06