在线商城网站怎么做,国外域名注册公司,浦东教育网站官网,十大免费模板网站作 者 信 息赵婵娟#xff0c;周绍光#xff0c;丁 倩#xff0c;刘丽丽(河海大学 地球科学与工程学院#xff0c;江苏 南京 211100)“【摘要】针对高光谱遥感图像分类中标记样本难获取的问题#xff0c;提出了一种基于同质区和迁移学习的新型半监督分类方法。首先对高… 作 者 信 息赵婵娟周绍光丁 倩刘丽丽(河海大学 地球科学与工程学院江苏 南京 211100)“【摘要】针对高光谱遥感图像分类中标记样本难获取的问题提出了一种基于同质区和迁移学习的新型半监督分类方法。首先对高光谱图像进行分割得到高纯度的同质分割斑块获取大量扩展训练样本。并在此基础上引入迁移学习将扩展训练样本作为源域剩余未标记样本作为目标域实现多次迁移从而减少同一幅图像上各地物的分布差异并保留其各自的内部属性。实验结果表明该方法是一种有效的高光谱图像半监督分类方法。【关键词】高光谱图像分类图像分割半监督迁移学习【中图分类号】TP79 【文献标识码】A 【文章编号】1672-1586(2019)05-0045-08”引文格式赵婵娟周绍光丁 倩等. 基于同质区和迁移学习的高光谱图像半监督分类[J].地理信息世界,2019,26(5):45-52.正文0 引 言近年来遥感技术和机器学习的进步使高光谱数据得到了广泛应用。其中高光谱图像分类是遥感领域研究的重要问题之一。在实际应用中由于大量样本的标记难以获取未标记的样本有很多且更易获得。因此如何利用大量未标记样本信息进行分类器的学习提高其泛化能力成为当前的研究热点。半监督分类由于能够充分利用少量标记样本和大量无标记样本并获得更高的分类精度引起了研究者的高度关注。半监督分类在实践中具有很大的应用价值一般来说在半监督学习中5种模型被广泛使用。主要包括生成式模型、自训练、协同训练、直推式支持向量机和基于图的方法。上述这些半监督分类方法通常假设数据的生成机制不随环境改变即训练样本和测试样本概率分布一致或者位于同一特征空间。若数据分布有差异会造成这些方法的分类效果变差。而我们获得的许多有标记样本的遥感图像可能不满足这个条件直接用于构建待分类遥感图像的分类器效果不是很理想若重新标记新的数据来训练模型以适应新的数据分布代价太高且费时费力。针对这一问题本文提出了一种基于同质区和迁移学习的半监督高光谱图像分类方法。首先对高光谱图像进行分割获取纯度较高的同质区斑块然后将有标记样本点所在斑块作为源域剩余未标记样本作为目标域实现多次迁移减少同一图像中各地物的分布差异最终完成对目标域中大量未标记样本的分类。实验结果表明可以得到较好的分类效果。1 同质区获取本文是以图像分割生成的同质区斑块为基础基于同质区特性可以在少量标记样本的基础上获取大量可靠的扩展训练样本实现对分类器的有效训练。首先本文通过波段选择的方法选出高光谱图像中3个差异性最大的波段利用这3个波段对高光谱图像进行Meanshift初始分割该算法是一种特征空间分析方法其显著优点是计算量小且简单易实现是一种有效的统计迭代算法。得到图像的初始分割斑块后分析斑块的分割纯度不够高故对这些斑块进行进一步的提纯算法流程如下(其中center代表中心点value代表偏移矩阵S代表中心点的偏移之和)1)以光谱特征为计算标准计算所有像素点的特征均值作为中心点center12)依次计算各像素点和中心点的特征差并由低到高进行排序得到偏移矩阵3)选取偏移矩阵的前40%的像素点计算其特征均值作为新的中心点center24)计算center2与center1的特征差值的和S5)若S大于则重复步骤2)4)直至S达到收敛6)最后选取与特征中心点差值不超过最大差值的60%的点作为斑块的同质点。高光谱图像经过初始分割和提纯后剩余残留的影像部分大多是比较杂乱的地物区和类别边界处故对于剩余被剔除的遗留影像采用超像素分割(Simpl Linear Iterative ClusteringSLIC)将分割数目增多使得生成的超像素尺寸足够小从而确保同质区斑块的分割纯度。最终将像素小于2的斑块与邻近相似度最高的斑块进行合并得到最终的同质区斑块。2 结合同质区和迁移学习的半监督分类2.1 迁移成分分析本文选取的迁移学习方法是迁移成分分析(Transfer Component AnalysisTCA)其主要解决迁移学习中概率分布问题是领域自适应(Domain AdaptationDA)的基本方法之一该方法基于这一假设源域和目标域边缘分布不同即P (XS )≠P (XT )直接用传统的机器学习方法会导致最终的分类效果较差。故假设存在一个特征映射使得映射后数据的边缘分布P (Φ(XS))≈P (Φ(XT))更进一步条件分布P (YSΦ(XS))≈P (YTΦ(XT ))从而实现源域和目标域的适配最小化两者之间的距离最终得到各自表达的新特征。在此基础上便可利用传统的SVM分类器训练有标注的源域数据DS {XS ,P (XS)}标定完全无标注的目标域DT {XT ,P(XT)}。其中TCA利用了一个经典的距离叫做最大均值差异(Maximum Mean DiscrepancyMMD)。它是再生希尔伯特空间中两个分布之间距离的度量其计算公式如下将该式平方展开后如下式中引入了核矩阵:以及L矩阵这是一个数学的半定规划(Semi-definite ProgrammingSDP)问题解决起来非常耗时为了减少运算时间TCA的第一作者SinnoJialin Pan采用了降维的思想这里的W 矩阵是比K 更低维度的矩阵即为最后所求。最终TCA的优化目标如下式中H为中心矩阵:。通过求解该式的拉格朗日对偶最后转化为求解的前m 个特征值即为W 矩阵的解。最终得到源域和目标域降维后的数据即经过变换后的新特征。2.2 本文算法Semi-TCA本文将同质区与迁移成分分析算法结合进行改进完成对高光谱图像的半监督分类。基于同质区特性各同质区斑块均属于同一类别故将有标记样本点所在斑块点全部赋予该类标签即可得到大量扩展训练样本并将其作为源域剩余斑块均不含有标记样本作为目标域。其中目标域样本远超过源域样本若直接参与迁移成分分析变换会由于两边样本不均衡造成迁移效果变差同时TCA需要计算大的核矩阵核矩阵大小是由源域和目标域数据共同定义的目标域样本数太大也会造成TCA的计算复杂度变高。基于此本文将目标域中各同质区斑块视为一个整体从各斑块中随机选取任一样本代替所在同质区从而将目标域样本数减少为同质区的斑块数大大减少了迁移成分分析变换的计算量。由于随机选取一点的稳定性不高故采取多次迁移的方法增加实验的稳定性并获得目标域各同质区的预测标签集采取最大投票法选择类别占比最多的那一类作为各斑块的最终标签值。最终将各斑块的标签全部赋予给斑块里所有的样本由此获得目标域所有样本点的预测标签完成全图分类。本文算法的具体实现步骤如下所示基于同质区和迁移学习的半监督分类算法(Semi-TCA)输入源域数据集(Xs ,Ys )目标域同质区斑块Block 投影子空间维数m 正则化系数μ 基分类器ƒ目标域斑块随机选点次数T。输出目标域所有样本点的预测标签Yt。1)for i 1 to T do2)在目标域各同质区斑块中随机取一点构成目标同质区样本集: Xb3)计算核矩阵K 根据式(4)求解投影变换矩阵W4)将源域数据集特征Xs 和目标同质区样本特征Xb进行TCA变换映射到m维子空间中从而得到变换后的新特征Xs 和Xb 5)在数据集(Xs ,Ys )上训练基分类器ƒ利用训练得到的分类器对Xb 进行标记得到目标同质区斑块本次训练对应的预测标签Ybi6)end for7)最终得到目标同质区T 次迁移的预测标签集Yb _set{Yb 1,Yb 2,...,YbT }8)采取最大投票算法得出同质区各斑块的最终标签Yb _lastMoores voting(Yb _set)9)将同质区预测标签Yb _last分别赋予给所在斑块内所有样本点求得目标域所有样本的预测标签Yt。3 实验结果与分析3.1 实验环境实验均在Matlab 2017b软件平台下进行操作系统为Windows 10 64位系统处理器为Intel(R)Core(TM)i5-8400CPU2.80Ghz 2.81 Gh内存为32 GB。3.2 实验数据1)Indian Pines数据该数据是于1992年在美国印第安纳州西北部的印第安松树林试验区通过AVIRIS传感器获取的。图像尺寸为145×145 pixel光谱范围0.42.5μm空间分辨率为20 m。该数据包含220个波段去除20个水汽吸收波段、低信噪比波段保留其中的200个波段进行分类。该数据共包含16类地物共10 249个标记样本各类标记样本个数见表1。图1为Indian Pines高光谱图像的假彩色合成图像及地面真实标记数据。表1 Indian Pines数据的地物类别及样本数目Tab.1 Species and sample sizes of Indian Pines data图1 AVIRIS Indian Pines数据集Fig.1 AVIRIS Indian Pines dataset2)Pavia University 数据本文采用的数据是由成像光谱仪ROSIS-3采集的意大利帕维亚大学高光谱遥感图像。该数据的空间分辨率为1.3 m光谱范围0.430.86μm。该数据包含115个光谱波段图像尺寸为610×340 pixel实际使用去除噪声波段后的103个波段进行分类。该高光谱图像的假彩色合成图像及参考分类图像如图2所示从图2中可以看出该数据包括9种地物类别该数据的地物类别具体情况见表2共42 776个样本。图2 ROSIS帕维亚大学数据集Fig.2 ROSIS Pavia University dataset表2 Pavia University数据的地物类别及样本数目Tab.2 Species and sample sizes of Pavia University data3.3 实验设置本次实验主要分为两部分一是对两种高光谱图像进行相应的图像分割从而获取较纯的同质区分割斑块。二是基于分割好的同质区进行相关实验将本文算法Semi-TCA与SVM、Semi-HRS以及Binge Cui等人提出的ELP-RGF方法进行对比。1)SVM是第一个基准对比方法直接利用初始标记样本训练SVM分类器对全图未标记样本进行测试得到分类结果。2)Semi-HRS是第二个基准对比方法训练样本为基于同质区得到的扩展训练样本将除初始标记样本剩余的未标记样本作为测试样本。3)ELP-RGF是一种基于图的半监督分类算法首先将标记样本信息传播到相邻的未标记样本其次使用超像素将相同的标签分配给超像素内的所有像素以此来增大训练样本的数量。在图像分割实验中由于IP图像较小故对IP图像最终进行超像素分割的斑块数设为1 000而PU图像较大故设为8 000。在分类实验中每类分别随机选取5、10、15个有标记样本点作为初始训练样本。本文算法Semi-TCA主要涉及3个参数正则化系数λ、映射后的空间维度dim和目标域各斑块随机选点的次数T 根据参数调优实验得出最优参数λ 为0.1dim 设为90选点次数T 设为11。训练样本和Semi-HRS一致均为扩展训练样本除去初始训练样本剩余有标记的样本点全部作为评价样本进行测试。其中所有算法均采用线性的支持向量机分类器(LinearSVM)并采用总体分类精度(Overall AccuracyOA)、平均精度(Average Accuracy,AA)和Kappa 系数作为评价指标为提高实验的精确度和可靠性独立重复进行10次实验每次均随机选取初始训练样本将10次实验结果的分类精度求取平均值作为各类算法的最终的分类精度。3.4 实验结果与分析3.4.1 Indian Pines数据集实验结果与分析在该数据集下图像分割的过程如图3所示其中在超像素分割之后又将像素小于2的斑块与邻近相似度最高的斑块进行了合并从而得到最终的同质区同质区斑块数为842分割精度为98.02%。表3为Indian Pines数据在选定标记点相同的情况下不同方法得到的分类结果的总体精度其表达形式是平均值±标准差。经过对比分析发现随着每类标记样本个数的增加各算法的分类精度也在不断提升而本文提出的半监督分类方法在选定标记点数目不同时其分类精度总是优于其他对比方法。图3 Indian Pines图像分割形成同质区斑块的过程Fig.3 The process of Indian Pines image segmentation to form plaques in homogeneous regions表3 Indian Pines数据集在不同标记样本下的总体分类精度(分类精度±标准差)(%)Tab.3 Overall classification accuracy of the Indian Pines dataset under different labeled samples (classification accuracy ± standard deviation)(%)为了证明本文提出的算法的有效性我们考虑最困难的情况即每类地物仅只有5个有标记样本的情况。因为有标记样本点越少分类就越难。从表4中可以看出当每类只选取5个标记点时本文算法Semi-TCA总体分类精度OA相比SVM、Semi-HRS和ELP-RGF分别高24%、2%和2%。此外Kappa 系数也为最高图4为该情况下各算法的全图分类效果图。红色圆圈内区域可以看出本文算法的错分噪声点明显减少在一定程度上体现了本文算法的优势。表4 Indian Pines各类地物在不同算法下的分类精度(分类精度±标准差)(%)Tab.4 Classification accuracy of various species of Indian Pines by different algorithms (classification accuracy ± standard deviation) (%)图4 各算法在Indian Pines上的一组实验的分类识别图Fig.4 Classification identification map of a set of experiments for each algorithm on Indian Pines3.4.2 Pavia University数据集实验结果与分析Pavia University数据集的图像分割的过程如图5所示与Indian Pines数据集不同的是合并了像素小于5的斑块从而增加各同质区的面积最终分得的同质区斑块数为6 325分割精度为99.79%。图5 Pavia University图像分割形成同质区斑块的过程Fig.5 The process of Pavia University image segmentation to form plaques in homogeneous regions表5为Pavia University数据在每类地物取5、10、15个标记样本情况下各算法的平均总体精度。经过对比分析发现在不同的标记样本数目下本文算法Semi-TCA的分类精度总是优于其他对比方法当每类标记样本为15时达到93%较好的总体分类精度。表5 Pavia University数据集在不同标记样本下的总体分类精度(分类精度±标准差)(%)Tab.5 Overall classification accuracy of the Pavia University dataset under different labeled samples (classification accuracy ± standard deviation)(%)表6为每类只选取5个标记点时各类地物的分类精度本文算法的总体分类精度OA、平均精度AA和Kappa系数相比其他3种对比方法均为最高。其中本文算法对于沥青路、草地、砂砾等地物的分类精度都比其余3种算法高约3%20%这是因为这类地物在图像中呈现大片块状均匀分布非常有利于构建源域和目标域的相关联系减少两者之间的差异从而提取出更有判别力的低维特征。图6为各算法的全图分类效果图。红色圆圈内区域可以看出本文算法的错分点最少分类效果最好。表6 Pavia University数据数据集各类地物在不同算法下的分类精度(分类精度±标准差)(%)Tab.6 Classification accuracy of various species of Pavia University by different algorithms (classification accuracy ± standard deviation) (%)图6 各算法在 Pavia University 上一组实验的分类识别图Fig.6 Classification identification map of a set of experiments for each algorithm on Pavia University4 结束语针对高光谱图像中标记样本点少无法训练出完备分类器这一问题本文提出了一种基于同质区和迁移学习的半监督分类方法。1)同质区的使用可以克服标记样本数量少的困难利用同质区特性可以扩展大量训练样本充分利用无标记样本信息参与分类器的训练从而构建出更完备泛化性能更好的分类器。2)在同一幅高光谱图像中采取迁移学习的方法将图中有标记样本区域迁移至无标记样本区域最小化它们之间的分布差异可以在原有较好的分类效果上进一步提升。实验结果表明本文算法在两组实际高光谱图像分类中都取得优于其他对比方法的分类精度。由于本文算法需要多次迁移且计算复杂度较高故存在运行时间较长的缺点进一步的研究可以针对迁移学习算法的计算量做一些改进同时如何更好地减少同一幅影像上的分布差异也有待探索。本期回顾文化遗产数字化修复· 机载LiDAR点云建筑物屋顶轮廓线自动提取研究综述· 融合多特征的兵马俑碎片分类技术研究· 基于高光谱影像的瞿昙寺壁画颜料层脱落病害评估理论研究· 兼顾非期望产出的工业用地效率测度、分异与溯因 ——以东北三省为例· 基于模体的化石能源贸易网络特征分析· 基于自编码网络的移动轨迹异常检测邮箱变更声明·《地理信息世界》邮箱变更声明网站开通公告·关于开通《地理信息世界》网站的公告诚聘特约审稿专家·诚聘|《地理信息世界》诚聘特约审稿专家专题组稿·约稿函|《地理信息世界》关于开辟“博士综述论坛”专栏的约稿函