这篇笔记主要记录机器学习中的常用数学:
- 几何运算
- 矩阵秩
- 矩阵运算
- 矩阵梯度
- 分布
- 高斯分布
- 伯努力分布(0-1分布)
- 二项分布
- 期望,方差,协方差,相关系数
常用的几何运算(Geometric Operation)
几个共用变量:
Am∗n=(A11A12⋯A1nA21A22⋯A2n⋮⋮⋱⋮Am1A12⋯Amn) function f: ℜm∗n↦ℜ1. 矩阵秩
假设m=n,A的秩为:trA=∑ni=1Aii
- 如果A是m×n,B是n×m的矩阵,则有: trAB=trBA
- 方阵A:trA=trAT
- 对于方阵A,B: trA+B=trA+trB
- 乘上alpha系数:trαA=αtrA
2. 矩阵运算
矩阵加法
矩阵乘法
矩阵间乘法满足:
- 结合率: (AB)C=A(BC) 有常数时,(λA)B=A(λB)
- 分配率: A(B+C)=AB+AC 或 (A+B)C=AC+BC
不满足
- 交换率: AB有意义,但BA不一定有意义,且即便有意义,也不一定有AB=BA,正因为如此,(A+B)2≠A2+2AB+B2
3. 矩阵梯度
∂f(A)∂Am∗n=(∂f∂A11∂f∂A12⋯∂f∂A1n∂f∂A21∂f∂A22⋯∂f∂A2n⋮⋮⋱⋮∂f∂Am1∂f∂A12⋯∂f∂Amn)例子: A是2×2的矩阵,f(A)=32A11+5A212+A21A22,则有:
注意,这里f(A)是一个‘纲量’,即不是向量或矩阵
∂f(A)∂A=(3210A12A22A21)常用等式:
∇ATf(A)=(∇Af(A))T ∇A‖A‖=‖A‖(A−1)T ∇AtrAB=BT ∇AtrABATC=CAB+CTABT常用的分布
高斯分布
高斯分布,也称正太分布
-
一维高斯分布 分布:N(μ,σ),其中μ是期望,σ是方差
密度函数为:p(x;μ,σ)=1σ√2πexp{−(x−μ)22σ2} -
高维高斯分布 分布:N(→μ,Σ),其中,→μ是期望向量,Σ是对称半正定协方差矩阵
密度函数:p(→x;→μ,Σ)=1|Σ|1/2(2π)n/2exp{−12(→x−→μ)TΣ−1(→x−→μ)}
伯努利分布(the Bernoulli distribution)
伯努利分布也称为0-1分布, 是指随机变量仅仅取值0和1的离散概率分布.
二项分布(Binaomial Distribution)
二项分布即重复n次的伯努利试验。在每次试验中只有两种可能的结果,而且是互相对立的,是独立的,与其它各次试验结果无关,结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验。
期望,方差,协方差,相关系数
设X,Y是两个独立的随机变量,我们获取一组(X,Y)的观测集合D=(x1,y1),(x2,y2),..,(xn,yn)
当观测集合足够大的时候,我们可以认为观测数据可以很好的表示原始数据分布,因此可以利用观测数据上的期望,方差代表原始数据的期望和方差
基本概念
-
期望(Expectation):即随机变量取值的均值
EX=1NN∑i=1xiEY=1NN∑i=1yi -
方差:描述随机变量的取值和其期望的偏离程度
Var(X)=E((X−E(X))2)=E(X2−2XE(X)+(E(X))2)=E(X2)−2E(X)E(X)+(E(X))2=E(X2)−2(E(X))2+(E(X))2=E(X2)−(E(X))2 -
协方差:衡量两个随机变量的偏离程度
Cov(X,Y)=E((X−EX)(Y−EY)=E(XY)−E(X)E(Y)方差是在X=Y时的协方差,即Cov(X,X)=Var(X)
协方差性质:
- 独立随机变量的协方差为0
- 线性组合:Cov(∑mi=1aiXi,∑nj=1bjYj)=∑mi=1∑nj=1aibjCov(Xi,Yj)
-
相关系数:衡量两个随机变量的线性相关程度[-1, 1],1,-1分别表示正负相关,0表示线性不相关 Corr(X,Y)=Cov(X,Y)√Var(X)Var(Y)