免费网站空间服务器,有人用wordpress做企业,青海省教育厅门户网站学籍查询,wordpress弹出搜索【机器学习】LDA线性判别分析1. LDA的基本思想2. LDA求解方法3. 将LDA推广到多分类4. LDA算法流程5. LDA和PCA对比【附录1】瑞利商与广义瑞利商线性判别分析 (Linear Discriminant Analysis#xff0c;LDA)是一种经典的线性学习方法#xff0c;在二分类问题上因为最早由[Fish… 【机器学习】LDA线性判别分析1. LDA的基本思想2. LDA求解方法3. 将LDA推广到多分类4. LDA算法流程5. LDA和PCA对比【附录1】瑞利商与广义瑞利商 线性判别分析 (Linear Discriminant AnalysisLDA)是一种经典的线性学习方法在二分类问题上因为最早由[Fisher1936]提出亦称Fisher判别分析。严格说来LDA与Fisher判别分析稍有不同LDA假设了各类样本的协方差矩阵相同且满秩。1. LDA的基本思想 LDA的基本思想是: 给定训练样例集设法将样例投影到一条直线上使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离在对新样本进行分类时将其投影到同样的这条直线上再根据投影点的位置来确定新样本的类别。图3.3给出了一个二维示意图。 2. LDA求解方法 问LDA最终要求什么 求投影空间W。 假设要投影到d维空间W为这最大的d个特征值对应的特征向量张成的矩阵。所以问题转化为求解特征向量w 求解过程如下 给定数据集令Xi、цi、∑i分别表示第i∈{01}类示例的集合、均值向量、协方差矩阵。 若将数据投影到直线w上则两类样本的中心在直线上的投影分别为若将所有样本点都投影到直线上则两类样本的协方差分别为。 由于直线是一维空间因此。 本着同类样例的投影点尽可能接近、异类样例的投影点尽可能远离的原则欲使同类样例的投影点尽可能接近可以让同类样例投影点的协方差尽可能小即尽可能小而欲使异类样例的投影点尽可能远离可以让类中心之间的距离尽可能大即尽可能大。同时考虑二者则可得到欲最大化的目标 定义类内散度矩阵 以及类间散度矩阵 则式 (3.32)可重写为 这就是LDA欲最大化的目标即Sw与Sb的广义瑞利商 Rayleigh。根据广义瑞利商的性质我们知道我们的J(w)最大值为矩阵的最大特征值而对应的为的最大特征值对应的特征向量!具体的瑞利商的知识见【附录1】 如何求解w呢w向量决定投影方向 如何确定ω呢? 注意到式(3.35)的分子和分母都是关于ω的二次项因此式(3.35)的解与ω的长度无关只与其方向有关。why? 二次项的性质若w是一个解则对于任意常数ααw也是式(3.35)的解. 不失一般性令则式(3.35)等价于 由拉格朗日乘子法上式等价于 其中λ是拉格朗日乘子。注意到的方向恒为不妨令 代入式 (3.37) 即得 3. 将LDA推广到多分类 如何将LDA推广到多分类任务中 假定存在N个类且第i类示例数为,我们先定义全局散度矩阵 其中μ是所有示例的均值向量。将类内散度矩阵重定义为每个类别的散度矩阵之和即 其中 例如三类问题如下直观图所示 显然多分类 LDA 可以有多种实现方法使用 三者中的任何两个即可。 常见的一种实现是采用优化目标 其中的tr()为矩阵的迹一个n×n的对角矩阵A的主对角线从左上方至右下方的对角线上各个元素的总和被称为矩阵A的迹或迹数一般记作tr(A)。 这个优化目标实际上等价于求解N-1个w特征向量组合成W。 若将W视为一个投影矩阵则多分类LDA将样本投影到N-1维空间N-1通常远小于数据原有的属性数维度。于是可通过这个投影来减小样本点的维数且投影过程中使用了类别信息因此LDA也常被视为一种经典的监督降维技术可用于特征提取。 附另一种多类推广原理解释 问 LDA是什么基本原理 LDA是线性判别分析LDA的基本思想是: 给定训练样例集设法将样例投影到一条直线上使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离在对新样本进行分类时将其投影到同样的这条直线上再根据投影点的位置来确定新样本的类别。 问LDA最终要求什么 求投影空间W。 问W是如何构成的 假设要投影到d维空间W为这最大的d个特征值对应的特征向量张成的矩阵。 分析一下既然LDA的二分类的训练过程是将训练样本点投影到一条直线上降维到一维那么投影空间就是一条直线W(w1)是最大特征值对应的特征向量代表这条直线一维空间W(w1)n*1维度。如果是多分类情况多分类LDA将样本投影到d维空间d通常远小于数据原有的属性数维度那么投影空间Ww1,w2,…w(d) 为最大的d个特征值对应的特征向量张成的矩阵,则投影矩阵Wn*d维度。 注意上述w1是向量在样本是n维向量类别数为k时w1应是n维向量则投影到d维空间时投影空间W(w1,w2,…w(d) )n*d维度 问LDA降维最多降到多少类别数为k LDA降维最多降到类别数k-1的维数。由于投影矩阵W是一个利用了样本的类别得到的投影矩阵n*d,一般dn而的秩最大为k-1具体分析见下一问所以最多有k-1个非0的特征值即最多有k-1个特征向量。因此它降维的维度d最大值为k-1。 再问为什么最大维度不是类别数k呢 因为的秩最大为k-1即特征向量最多有k-1个。 因为中每个的秩为1因此各类的协方差矩阵相加后最大的秩为k(矩阵的秩小于等于各个相加矩阵的秩的和)但是由于如果我们知道前k-1个后最后一个可以由前k-1个线性表示这是由于k个和不是线性无关的 前k-1个和可以表示线性表出第k个i 因此的秩最大为k-1所以的秩最大也为k-1。即特征向量最多有k-1个。4. LDA算法流程 以上就是使用LDA进行降维的算法流程。 实际上LDA除了可以用于降维以外还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布这样利用LDA进行投影后可以利用极大似然估计计算各个类别投影数据的均值和方差进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后我们可以将它投影然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数计算它属于这个类别的概率最大的概率对应的类别即为预测类别。5. LDA和PCA对比 LDA用于降维和PCA有很多相同也有很多不同的地方因此值得好好的比较一下两者的降维异同点。 首先我们看看相同点 1两者均可以对数据进行降维。 2两者在降维时均使用了矩阵特征分解的思想。求特征值、特征向量 3两者都假设数据符合高斯分布。 我们接着看看不同点 1LDA是有监督的降维方法而PCA是无监督的降维方法 2LDA降维最多降到类别数k-1的维数而PCA没有这个限制。 3LDA除了可以用于降维还可以用于分类。 4LDA选择分类性能最好的投影方向而PCA选择样本点投影具有最大方差的方向。 这点可以从下图形象的看出在不同数据分布下LDA和PCA降维的优势不同。二者各有优缺。 附 LDA算法的主要优点有 1在降维过程中可以使用类别的先验知识经验而像PCA这样的无监督学习则无法使用类别先验知识。 2LDA在样本分类信息依赖均值而不是方差的时候比PCA之类的算法较优。 LDA算法的主要缺点有 1LDA不适合对非高斯分布样本进行降维PCA也有这个问题。 2LDA降维最多降到类别数k-1的维数如果我们降维的维度大于k-1则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。 3LDA在样本分类信息依赖方差而不是均值的时候降维效果不好。 4LDA可能过度拟合数据。---------------------------------------------- 附录 ------------------------------------------------【附录1】瑞利商与广义瑞利商 首先来看看瑞利商的定义。瑞利商是指这样的函数: 其中为非零向量而为的Hermitan矩阵。所谓的Hermitan矩阵就是满足共轭转置矩阵和自己相等的矩阵即 。 如果我们的矩阵A是实矩阵则满足的矩阵即为Hermitan矩阵。瑞利商有一个非常重要的性质即它的最大值等于矩阵A 最大的特征值而最小值等于矩阵A 的最小的特征值也就是满足:当向量x 是标准正交基时即满足 时瑞利商退化为 。 这个形式在谱聚类和PCA中都有出现。以上就是瑞利商的内容现在我们再看看广义瑞利商。广义瑞利商是指这样的函数:其中x为非零向量而A,B为n*n的Hermitan矩阵。B为正定矩阵。它的最大值和最小值是什么呢其实我们只要通过将其通过标准化就可以转化为瑞利商的格式。我们令则分母转化为而分子转化为 利用前面的瑞利商的性质我们可以很快的知道 的最大值为矩阵的最大特征值或者说矩阵的最大特征值。而最小值为矩阵的最小特征值。 ------------------------------------------- END -------------------------------------参考周志华《机器学习》 线性判别分析LDA原理总结 http://www.cnblogs.com/pinard/p/6244265.html非常棒本文很多内容选自其中