Supervised Learning
Terminology
Classification vs. Regression. 前者预测定性输出(factor, categorical, discrete variables),后者预测定量输出.
Ordered Categorical. 例如小、中、大(存在序关系,但是没有度量概念).
Dummy Variable. 定性变量通常通过数值方式表达,而最常见的编码方式就是哑变量. 一个 \(K\) 层定性变量可以使用 \(K\) 位二值变量来表示.
Linear & Nearest Neighbors
一个经典的线性模型形如 \(\hat{Y}=X^T \hat{\beta}\). 其中我们将常值变量 \(1\) 包含到 \(X\) 中,从而省略了截距. 最小二乘法通过最小化下面的式子来选择协因子 \(\beta\).
最近邻方法利用训练集 \(\mathcal{T}\) 中那些在输入空间中最接近 \(x\) 的观测来形成 \(\hat{Y}\). 具体地说,用 \(N_k(x)\) 表示样本中离 \(x\) 前 \(k\) 近的 \(x_i\),则
最小二乘法依赖于“线性决策边界是合适的”这一假设. 它具有低的方差和潜在高的偏差. \(k\) 近邻则没有依赖关于内在数据的任何严格假设,但是,决策边界依赖于一组输入点和特定的位置,因此是扭曲而不稳定的,即高方差和低偏差. 许多强大的方法是上面方法的变种. 例如
核方法. 将权值平滑地减少至 \(0\),而不是采用 \(k\) 近邻,前 \(k\) 名为 \(1\),后面都是 \(0\).
在高维空间,修改距离核来强调某些变量. 例如,引入加权欧氏距离或马氏距离.
局部回归采用局部加权最小二乘,而不是局部拟合常数来拟合线性模型.
线性模型拟合原输入的一个基展开,允许拟合任意复杂的模型.
投影寻踪(projection pursuit)和神经网络由非线性变换的线性模型之和组成.
Statistical Decision Theory
Regression
令 \(X\in \mathbb{R}^p\) 表示一个实值随机输入向量,\(Y\in \mathbb{R}\) 表示一个实值随机输出变量. \(\mathrm{Pr}(X, Y)\) 是它们的联合分布. 我们寻求一个能够预测 \(Y\) 的函数 \(f(X)\),并通过一个损失函数 \(L(Y, f(X))\) 来惩罚预测的误差. 一个经典的损失是 \(L_2:L(Y, f(X))=(Y-f(X))^2\). 我们可以通过期望预测误差来选择 \(f\).
于是只需要逐点最小,即 \(f(x)=\arg\min_c \mathbb{E}_{Y\mid X}[(Y-c)^2|X=x]=\mathbb{E}[Y|X=x].\)(假如使用 \(L_1\) 损失,新的解是条件中位数,但是其偏导不连续,造成了一些麻烦)\(k\) 近邻算法正是这样的一个过程. 它用样本均值近似期望,将一个点取条件放松成一个点的邻域取条件. 可以证明当 \(N,k\to \infty\) 使得 \(k/N\to 0\) 时,\(\hat{f}(x)\to \mathbb{E}[Y|X=x]\).
似乎 \(k\) 近邻算法是一个普遍的 approximator. 然而,我们通常没有足够多的样本,维度也可能很大. 总的来说,最小二乘假设 \(f\) 可以被一个全局线性函数很好地逼近,而 \(k\) 近邻算法假设 \(f\) 能被一个局部常值函数很好地逼近.
Classification
类似地,考虑分类估计器 \(\hat{G}:\mathbb{R}^p\to \mathcal{G}\). 一个损失函数 \(L\) 可以表示为 \(K\times K\) 的矩阵 \(\boldsymbol{L}\),其对角线上全是 \(0\),其他位置均非负,\(K=\mathrm{card}(\mathcal{G})\). 从而期望预测误差为
于是只需要逐点最小. 假如采用 \(0/1\) 误差,即
直观地,我们使用条件分布 \(\mathrm{Pr}(G|X)\) 来将 \(x\) 分到最有可能的类. 这个解称为贝叶斯分类器,其误差率称为贝叶斯率. \(k\) 近邻算法仍是这样一个过程. 它使用多数投票方式近似条件概率,将一个点取条件放松成一个点的邻域取条件. 同时可以发现,哑变量回归加上最大拟合值分类(即选择值最大的那一个作为预测值),本质上是贝叶斯分类器. 由于线性回归值可能是负数,我们常引入 softmax
来改造成概率分布.
Curse of Dimensionality
直觉上只使用 \(k\) 近邻分类器就可以逼近理论上最优的条件期望. 然而,这个方法和我们的直觉都会在高维时失效,这称为维数灾难. 例如,输入均匀分布在 \(p\) 维超立方体上,对于一个目标点,考虑一个边长为 \(a\) 的超立方体邻域. 观测这个超立方体,相当于观测了总体积的 \(a^p\). 例如 \(p=10\) 时,令 \(a^p=0.01\),得 \(a\approx 0.631\),即我们必须覆盖每个输入变量值域的 \(63.1\%\). 像这样的邻域不再是“局部的”. 同时,所有样本点都会靠近样本的边缘. 例如,考虑均匀分布在 \(p\) 维单位球上的数据点,以原点为例,大多数数据点会更靠近样本空间的边界,从而在训练样本的边缘进行预测会更加地困难. 在高维中,所有可用的训练样本将稀疏地散布在输入空间.
Bias-variance Decomposition
对于一个点的均方根误差 MSE 可以写作
这被称作偏差-方差分解. 其中偏差是由于学习算法中的错误假设导致的错误(模型本身的误差,可能导致欠拟合),方差是对训练集的敏感性(复杂的模型可能对训练集的变化过于敏感,这是因为算法对训练数据中的随机噪声建模,从而导致了过拟合). 例如,通过降维和特征选择可以通过简化模型来降低方差,通过增大训练集也可以降低方差. 添加特征往往会降低偏差,但代价是引入额外的方差. 于是,模型应该处于一个合适的复杂程度.
本页面最近更新:,更新历史
发现错误?想一起完善? 在 GitHub 上编辑此页!
本页面贡献者:OI-wiki
本页面的全部内容在 协议之条款下提供,附加条款亦可能应用