Introduction
Taught by Siqi Zhang
引言
Before Introduction to Artificial Intelligence
Two roads diverged in a wood, and I--
I took the one less traveled by,
And that has made all the difference.
一片森林里分出两条路
而我却选择了人迹更少的一条
从此决定了我一生的道路
评分体系(2025年秋学期版,仅供参考)

其中期中考试、期末考试采用半开卷形式,可以携带一张 A4 大小的 Cheat Sheet 。课程为本研共修课程。
关于Cheat Sheet的建议
A4正反都可以写。以个人感受来说,纯抄概念的作用还不如在作业里选一些题目抄了带上去。
关键声明
课程相关表述基于2025年秋学期版本,请学习本门课程的同学以当年实际为准。
本页面包含内容并不等于课程及考核内容。可能存在部分课程内容在本页面中未提及,本页面亦可能包含课程以外的知识与内容。
本页面内容存在AI辅助生成,如有问题请提出issue或提交PR。
机器学习的数学基础
一、向量与矩阵
向量
- 定义:向量是有序的数字数组,表示为 \( \mathbf{x} \in \mathbb{R}^{d} \),其中 \(d\) 是向量的维度。
- 样本特征向量:在机器学习中,一个样本的所有特征可以构成一个特征向量,第 \(i\) 个样本表示为: [ \mathbf{x}^{(i)} = [x_1^{(i)}, x_2^{(i)}, ..., x_d^{(i)}]^{T} ]
向量运算
- 加法:\( \mathbf{x} + \mathbf{y} = [x_1 + y_1, x_2 + y_2, ..., x_d + y_d]^{T} \)
- 数乘:\( c\mathbf{x} = [c x_1, c x_2, ..., c x_d]^{T} \)
- 点积(内积):\( \mathbf{x}^{T} \mathbf{y} = \sum_{i=1}^{d} x_i y_i \)
矩阵
- 定义:矩阵是一个二维数组,表示为 \( \mathbf{X} \in \mathbb{R}^{m \times n} \),具有 \(m\) 行和 \(n\) 列。
- 设计矩阵:在数据集中,常将 \(n\) 个样本的特征向量堆叠,构成设计矩阵 \( \mathbf{X} \): [ \mathbf{X} = [\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, ..., \mathbf{x}^{(n)}]^{T} = \begin{bmatrix} x_{1}^{(1)} & x_{2}^{(1)} & \cdots & x_{d}^{(1)} \ x_{1}^{(2)} & x_{2}^{(2)} & \cdots & x_{d}^{(2)} \ \vdots & \vdots & \ddots & \vdots \ x_{1}^{(n)} & x_{2}^{(n)} & \cdots & x_{d}^{(n)} \end{bmatrix} ]
矩阵运算
- 矩阵乘法:若 \( \mathbf{A} \in \mathbb{R}^{m \times n} \), \( \mathbf{B} \in \mathbb{R}^{n \times p} \),则乘积 \( \mathbf{C} = \mathbf{AB} \in \mathbb{R}^{m \times p} \),其中元素 \( C_{ij} = \sum_{k=1}^{n} A_{ik}B_{kj} \)。
- 不满足交换律:通常 \( \mathbf{AB} \ne \mathbf{BA} \)。
- 满足结合律:\( (\mathbf{AB})\mathbf{C} = \mathbf{A}(\mathbf{BC}) \)。
- 矩阵转置:\( (\mathbf{AB})^{T} = \mathbf{B}^{T}\mathbf{A}^{T} \)。
- 逆矩阵:对于方阵 \( \mathbf{A} \),若存在矩阵 \( \mathbf{A}^{-1} \) 使得 \( \mathbf{A}\mathbf{A}^{-1} = \mathbf{I} \),则 \( \mathbf{A}^{-1} \) 为 \( \mathbf{A} \) 的逆矩阵。矩阵可逆的充要条件是满秩。
- 矩阵的秩:矩阵 \( \mathbf{A} \) 的秩 \( \text{rank}(\mathbf{A}) \) 是其行(或列)向量中极大线性无关组的向量个数。
- 满秩:对于 \( \mathbf{A} \in \mathbb{R}^{m \times n} \),若 \( \text{rank}(\mathbf{A}) = \min(m, n) \),则称 \( \mathbf{A} \) 满秩。
二、范数与距离度量
向量范数
向量范数 \( \lVert \mathbf{x} \rVert \) 是衡量向量“大小”的函数。 * \(l_2\) 范数(欧几里得范数):\( \lVert \mathbf{x} \rVert_2 = \sqrt{\sum_{i=1}^{d} x_i^2} \)。 * 在线性回归中,目标是最小化残差的 \(l_2\) 范数平方:\( \min_{\mathbf{w}, b} \frac{1}{2} \lVert \mathbf{y} - \mathbf{\hat{y}} \rVert_2^2 \)。 * \(l_1\) 范数:\( \lVert \mathbf{x} \rVert_1 = \sum_{i=1}^{d} |x_i| \)。 * 常用于 L1 正则化,以诱导模型参数的稀疏性。 * \(l_\infty\) 范数:\( \lVert \mathbf{x} \rVert_\infty = \max_i |x_i| \)。
矩阵范数
- Frobenius 范数:将矩阵视为向量后计算的 \(l_2\) 范数。
[
\lVert \mathbf{A} \rVert_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2}
]
- 性质:\( \lVert \mathbf{A} \rVert_F^2 = \text{tr}(\mathbf{A}^{T}\mathbf{A}) \),其中 \( \text{tr}(\cdot) \) 表示矩阵的迹(对角元素之和)。
- 正交不变性:若 \( \mathbf{U}, \mathbf{V} \) 为正交矩阵,则 \( \lVert \mathbf{UAV}^T \rVert_F = \lVert \mathbf{A} \rVert_F \)。
- 算子范数(诱导范数):由向量范数诱导的矩阵范数,\( \lVert \mathbf{A} \rVert = \sup_{\mathbf{x} \ne 0} \frac{\lVert \mathbf{Ax} \rVert}{\lVert \mathbf{x} \rVert} \)。
- \(l_1\) 诱导范数(列和范数):\( \lVert \mathbf{A} \rVert_1 = \max_{1 \le j \le n} \sum_{i=1}^{m} |a_{ij}| \)。
- \(l_2\) 诱导范数(谱范数):\( \lVert \mathbf{A} \rVert_2 = \sqrt{\lambda_{\text{max}}(\mathbf{A}^{T}\mathbf{A})} \),其中 \( \lambda_{\text{max}} \) 是最大特征值。
- \(l_\infty\) 诱导范数(行和范数):\( \lVert \mathbf{A} \rVert_\infty = \max_{1 \le i \le m} \sum_{j=1}^{n} |a_{ij}| \)。
三、向量微积分与梯度
梯度
- 定义:对于一个多元函数 \( f: \mathbb{R}^d \to \mathbb{R} \),其梯度 \( \nabla f(\mathbf{x}) \) 是一个由所有一阶偏导数组成的向量,指向函数值增长最快的方向。 [ \nabla f(\mathbf{x}) = \left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_d} \right]^{T} ]
Hessian 矩阵
- 定义:函数 \( f(\mathbf{x}) \) 的 Hessian 矩阵 \( \nabla^2 f(\mathbf{x}) \) 是一个由其二阶偏导数组成的方阵。 [ \nabla^2 f(\mathbf{x}) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_d} \ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_d} \ \vdots & \vdots & \ddots & \vdots \ \frac{\partial^2 f}{\partial x_d \partial x_1} & \frac{\partial^2 f}{\partial x_d \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_d^2} \end{bmatrix} ]
- 对称性:如果函数 \( f \) 二阶连续可微,则其 Hessian 矩阵是对称矩阵。
- 凸性判断:
- 函数 \( f \) 是凸函数 当且仅当 其 Hessian 矩阵在定义域内是半正定的(所有特征值 \( \ge 0 \))。
- 函数 \( f \) 是强凸函数 当且仅当 其 Hessian 矩阵在定义域内是正定的(所有特征值 \( > 0 \))。
链式法则
- 标量对向量求导:对于复合函数 \( z = f(\mathbf{g}(\mathbf{x})) \),其中 \( \mathbf{g}: \mathbb{R}^d \to \mathbb{R}^m \),\( f: \mathbb{R}^m \to \mathbb{R} \),有: [ \frac{\partial z}{\partial x_i} = \sum_{j=1}^{m} \frac{\partial f}{\partial g_j} \cdot \frac{\partial g_j}{\partial x_i} ]
- 向量形式:\( \nabla_{\mathbf{x}} z = \left( \frac{\partial \mathbf{g}}{\partial \mathbf{x}} \right)^{T} \nabla_{\mathbf{g}} z \)。
- 其中 \( \frac{\partial \mathbf{g}}{\partial \mathbf{x}} \) 是 \( m \times d \) 的雅可比矩阵,\( \nabla_{\mathbf{g}} z \) 是 \( m \times 1 \) 的梯度向量。
机器学习的基本概念与定义
人工智能与机器学习
- 人工智能: 利用计算机科学与数据,使机器能够解决问题。
- 机器学习: 研究能够从经验中自动学习和适应的计算机系统,而无需进行明确的编程。
- 深度学习: 一种机器学习技术,将算法和计算单元(神经元)分层组织成人工神经网络,以模仿人脑。
机器学习已成为人工智能的主流,但从方法层面看,数据挖掘、模式识别、数据科学等领域与其差别不大,主要区别源于历史渊源、应用场景和强调角度。
什么是机器学习?
- 定义: 使得机器能从大量数据中学习规律,从而对新的样本做出决策的一系列方法。
- 学习的本质: 智能体基于经验提升其在未来任务上表现的能力。
机器学习的核心任务
| 任务 | 目标 | 实例 |
|---|---|---|
| 回归 | 预测连续变量 | 需求/价格预测 |
| 分类 | 预测离散变量 | 质量检测、风险控制 |
| 聚类 | 数据分组 | 客户群体细分 |
| 降维 | 高维数据 → 低维表示 | 数据可视化 |
机器学习分类
| 监督学习 | 无监督学习 | 强化学习 | |
|---|---|---|---|
| 训练样本 | 带标签数据集 \(\{(x^{(n)}, y^{(n)})\}_{n=1}^N\) | 无标签数据集 \(\{x^{(n)}\}_{n=1}^N\) | 智能体与环境的交互轨迹 \(\tau\) 和累积奖励 \(G_\tau\) |
| 优化目标 | 学习 \(y=f(x)\) 或 \(p(y\|x)\) | 学习 \(p(x)\) 或带隐变量 \(z\) 的 \(p(x\|z)\) | 最大化期望总回报 \(\mathbb{E}_{\tau}[G_{\tau}]\) |
| 学习准则 | 期望风险最小化、最大似然估计 | 最大似然估计、最小重构错误 | 策略评估、策略改进 |
2026.04.26