摘录机器学习相关的一些碎片知识
凸函数 Convex Function
A function is called convex if the function lies below the straight line segment connecting two points, for any two points in the interval.
这样,’any local minimum is global minimum’
正则化(Regularization) vs 归一化(Normalization)
* 根据奥卡姆剃刀原理,为了防止过拟合,在损失函数上加上一个**惩罚项**,即**正则化**
* 防止梯度下降慢,将所有数据范围归一化处理在0-1之间:` Xi := (Xi-avg(X)) / (max(X)-min(X)) `
* http://sobuhu.com/ml/2012/12/29/normalization-regularization.html
泛化界某定理
A random variable that depends(in a “smooth way”) on the influence of many independentvariables(But not too much on any of them) is essentially constant 中文上的意思是,依赖于许多独立随机变量的随机变量本质上是个常量,举个例子,经验风险就是一个依赖于一个随机训练样本集合的随机变量,因而经验风险本质上应该是个常量。正因为如此,这个随机变量离开它均值的概率就以指数形势衰减
统计机器学习假设
训练样本集合是从一个未知但固定的分布中独立同分布的抽取出来,学习的目标是根据这样一个样本集合,从一个事先给定的分类器集合中挑选出一个分类器,使得分类器的对从同一个分布中随机抽取的样本在给定的一个损失评价下的风险最小。
Hoeffding不等式
Hoeffding不等式本质说明一组独立随机变量的均值离开它的期望的可能性以指数形式衰减。
泛化界分析方法
主流的有三个:VC维,R复杂度,稳定性分析
- VC维度 描述函数集合分类样本的能力,具体表现为函数集合能够任意分类的最大样本个数
- R复杂度 描述函数集合拟合噪声的能力,能力越大,R复杂度越大
- 稳定性分析 描述当前训练样本发生变化时,算法输出的分类器是如何变化的。用的最多的是一致稳定性,它描述当一个训练样本被删掉或替换时,分类器函数在定义域上变动的最大值