Introduction

Taught by Siqi Zhang

引言

Before Introduction to Artificial Intelligence

Two roads diverged in a wood, and I--

I took the one less traveled by,

And that has made all the difference.

一片森林里分出两条路

而我却选择了人迹更少的一条

从此决定了我一生的道路

评分体系（2025年秋学期版，仅供参考）

alt text

其中期中考试、期末考试采用半开卷形式，可以携带一张 A4 大小的 Cheat Sheet 。课程为本研共修课程。

关于Cheat Sheet的建议

A4正反都可以写。以个人感受来说，纯抄概念的作用还不如在作业里选一些题目抄了带上去。

关键声明

课程相关表述基于2025年秋学期版本，请学习本门课程的同学以当年实际为准。

本页面包含内容并不等于课程及考核内容。可能存在部分课程内容在本页面中未提及，本页面亦可能包含课程以外的知识与内容。

本页面内容存在AI辅助生成，如有问题请提出issue或提交PR。

机器学习的数学基础

一、向量与矩阵

向量

定义：向量是有序的数字数组，表示为 \( \mathbf{x} \in \mathbb{R}^{d} \)，其中 \(d\) 是向量的维度。
样本特征向量：在机器学习中，一个样本的所有特征可以构成一个特征向量，第 \(i\) 个样本表示为： [ \mathbf{x}^{(i)} = [x_1^{(i)}, x_2^{(i)}, ..., x_d^{(i)}]^{T} ]

向量运算

加法：\( \mathbf{x} + \mathbf{y} = [x_1 + y_1, x_2 + y_2, ..., x_d + y_d]^{T} \)
数乘：\( c\mathbf{x} = [c x_1, c x_2, ..., c x_d]^{T} \)
点积（内积）：\( \mathbf{x}^{T} \mathbf{y} = \sum_{i=1}^{d} x_i y_i \)

矩阵

定义：矩阵是一个二维数组，表示为 \( \mathbf{X} \in \mathbb{R}^{m \times n} \)，具有 \(m\) 行和 \(n\) 列。
设计矩阵：在数据集中，常将 \(n\) 个样本的特征向量堆叠，构成设计矩阵 \( \mathbf{X} \)： [ \mathbf{X} = [\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, ..., \mathbf{x}^{(n)}]^{T} = \begin{bmatrix} x_{1}^{(1)} & x_{2}^{(1)} & \cdots & x_{d}^{(1)} \ x_{1}^{(2)} & x_{2}^{(2)} & \cdots & x_{d}^{(2)} \ \vdots & \vdots & \ddots & \vdots \ x_{1}^{(n)} & x_{2}^{(n)} & \cdots & x_{d}^{(n)} \end{bmatrix} ]

矩阵运算

矩阵乘法：若 \( \mathbf{A} \in \mathbb{R}^{m \times n} \)， \( \mathbf{B} \in \mathbb{R}^{n \times p} \)，则乘积 \( \mathbf{C} = \mathbf{AB} \in \mathbb{R}^{m \times p} \)，其中元素 \( C_{ij} = \sum_{k=1}^{n} A_{ik}B_{kj} \)。
- 不满足交换律：通常 \( \mathbf{AB} \ne \mathbf{BA} \)。
- 满足结合律：\( (\mathbf{AB})\mathbf{C} = \mathbf{A}(\mathbf{BC}) \)。
矩阵转置：\( (\mathbf{AB})^{T} = \mathbf{B}^{T}\mathbf{A}^{T} \)。
逆矩阵：对于方阵 \( \mathbf{A} \)，若存在矩阵 \( \mathbf{A}^{-1} \) 使得 \( \mathbf{A}\mathbf{A}^{-1} = \mathbf{I} \)，则 \( \mathbf{A}^{-1} \) 为 \( \mathbf{A} \) 的逆矩阵。矩阵可逆的充要条件是满秩。
矩阵的秩：矩阵 \( \mathbf{A} \) 的秩 \( \text{rank}(\mathbf{A}) \) 是其行（或列）向量中极大线性无关组的向量个数。
- 满秩：对于 \( \mathbf{A} \in \mathbb{R}^{m \times n} \)，若 \( \text{rank}(\mathbf{A}) = \min(m, n) \)，则称 \( \mathbf{A} \) 满秩。

二、范数与距离度量

向量范数

向量范数 \( \lVert \mathbf{x} \rVert \) 是衡量向量“大小”的函数。 * \(l_2\) 范数（欧几里得范数）：\( \lVert \mathbf{x} \rVert_2 = \sqrt{\sum_{i=1}^{d} x_i^2} \)。 * 在线性回归中，目标是最小化残差的 \(l_2\) 范数平方：\( \min_{\mathbf{w}, b} \frac{1}{2} \lVert \mathbf{y} - \mathbf{\hat{y}} \rVert_2^2 \)。 * \(l_1\) 范数：\( \lVert \mathbf{x} \rVert_1 = \sum_{i=1}^{d} |x_i| \)。 * 常用于 L1 正则化，以诱导模型参数的稀疏性。 * \(l_\infty\) 范数：\( \lVert \mathbf{x} \rVert_\infty = \max_i |x_i| \)。

矩阵范数

Frobenius 范数：将矩阵视为向量后计算的 \(l_2\) 范数。 [ \lVert \mathbf{A} \rVert_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2} ]
- 性质：\( \lVert \mathbf{A} \rVert_F^2 = \text{tr}(\mathbf{A}^{T}\mathbf{A}) \)，其中 \( \text{tr}(\cdot) \) 表示矩阵的迹（对角元素之和）。
- 正交不变性：若 \( \mathbf{U}, \mathbf{V} \) 为正交矩阵，则 \( \lVert \mathbf{UAV}^T \rVert_F = \lVert \mathbf{A} \rVert_F \)。
算子范数（诱导范数）：由向量范数诱导的矩阵范数，\( \lVert \mathbf{A} \rVert = \sup_{\mathbf{x} \ne 0} \frac{\lVert \mathbf{Ax} \rVert}{\lVert \mathbf{x} \rVert} \)。
- \(l_1\) 诱导范数（列和范数）：\( \lVert \mathbf{A} \rVert_1 = \max_{1 \le j \le n} \sum_{i=1}^{m} |a_{ij}| \)。
- \(l_2\) 诱导范数（谱范数）：\( \lVert \mathbf{A} \rVert_2 = \sqrt{\lambda_{\text{max}}(\mathbf{A}^{T}\mathbf{A})} \)，其中 \( \lambda_{\text{max}} \) 是最大特征值。
- \(l_\infty\) 诱导范数（行和范数）：\( \lVert \mathbf{A} \rVert_\infty = \max_{1 \le i \le m} \sum_{j=1}^{n} |a_{ij}| \)。

三、向量微积分与梯度

梯度

定义：对于一个多元函数 \( f: \mathbb{R}^d \to \mathbb{R} \)，其梯度 \( \nabla f(\mathbf{x}) \) 是一个由所有一阶偏导数组成的向量，指向函数值增长最快的方向。 [ \nabla f(\mathbf{x}) = \left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_d} \right]^{T} ]

Hessian 矩阵

定义：函数 \( f(\mathbf{x}) \) 的 Hessian 矩阵 \( \nabla^2 f(\mathbf{x}) \) 是一个由其二阶偏导数组成的方阵。 [ \nabla^2 f(\mathbf{x}) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_d} \ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_d} \ \vdots & \vdots & \ddots & \vdots \ \frac{\partial^2 f}{\partial x_d \partial x_1} & \frac{\partial^2 f}{\partial x_d \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_d^2} \end{bmatrix} ]
对称性：如果函数 \( f \) 二阶连续可微，则其 Hessian 矩阵是对称矩阵。
凸性判断：
- 函数 \( f \) 是凸函数 当且仅当 其 Hessian 矩阵在定义域内是半正定的（所有特征值 \( \ge 0 \)）。
- 函数 \( f \) 是强凸函数 当且仅当 其 Hessian 矩阵在定义域内是正定的（所有特征值 \( > 0 \)）。

链式法则

标量对向量求导：对于复合函数 \( z = f(\mathbf{g}(\mathbf{x})) \)，其中 \( \mathbf{g}: \mathbb{R}^d \to \mathbb{R}^m \)，\( f: \mathbb{R}^m \to \mathbb{R} \)，有： [ \frac{\partial z}{\partial x_i} = \sum_{j=1}^{m} \frac{\partial f}{\partial g_j} \cdot \frac{\partial g_j}{\partial x_i} ]
向量形式：\( \nabla_{\mathbf{x}} z = \left( \frac{\partial \mathbf{g}}{\partial \mathbf{x}} \right)^{T} \nabla_{\mathbf{g}} z \)。
- 其中 \( \frac{\partial \mathbf{g}}{\partial \mathbf{x}} \) 是 \( m \times d \) 的雅可比矩阵，\( \nabla_{\mathbf{g}} z \) 是 \( m \times 1 \) 的梯度向量。

机器学习的基本概念与定义

人工智能与机器学习

人工智能：利用计算机科学与数据，使机器能够解决问题。
机器学习：研究能够从经验中自动学习和适应的计算机系统，而无需进行明确的编程。
深度学习：一种机器学习技术，将算法和计算单元（神经元）分层组织成人工神经网络，以模仿人脑。

机器学习已成为人工智能的主流，但从方法层面看，数据挖掘、模式识别、数据科学等领域与其差别不大，主要区别源于历史渊源、应用场景和强调角度。

什么是机器学习？

定义：使得机器能从大量数据中学习规律，从而对新的样本做出决策的一系列方法。
学习的本质：智能体基于经验提升其在未来任务上表现的能力。

机器学习的核心任务

任务	目标	实例
回归	预测连续变量	需求/价格预测
分类	预测离散变量	质量检测、风险控制
聚类	数据分组	客户群体细分
降维	高维数据 → 低维表示	数据可视化

机器学习分类

	监督学习	无监督学习	强化学习
训练样本	带标签数据集 \(\{(x^{(n)}, y^{(n)})\}_{n=1}^N\)	无标签数据集 \(\{x^{(n)}\}_{n=1}^N\)	智能体与环境的交互轨迹 \(\tau\) 和累积奖励 \(G_\tau\)
优化目标	学习 \(y=f(x)\) 或 \(p(y\\|x)\)	学习 \(p(x)\) 或带隐变量 \(z\) 的 \(p(x\\|z)\)	最大化期望总回报 \(\mathbb{E}_{\tau}[G_{\tau}]\)
学习准则	期望风险最小化、最大似然估计	最大似然估计、最小重构错误	策略评估、策略改进

2026.04.26