您好, 访客   登录/注册

基于主动学习的高光谱图像分类方法

来源:用户上传      作者: 郝泽东 余淞淞 关佶红

  摘要:高光谱图像监督分类中,为了避免休斯效应需要大量的训练样本,但在实际应用中对样本进行标注成本非常高,因此,得到高质量的训练样本显得十分重要提出一种基于主动学习的高光谱图像分类方法,通过对区域关注度的统计,有效地结合图像光谱和空间特性,基于主动学习方法获取信息量较大的训练样本,从而较大幅度提高了分类的精确度实验结果表明,所提算法比传统的随机取样监督分类法和主动学习方法在分类精确度上有较大的优势
  关键词:关注度; 支持向量机; 期望最大化; 主动学习; 高光谱遥感图像
  中图分类号:TP391.41 文献标志码:A
  0引言
  遥感图像分类在现实生活中有着非常广泛的应用,如地质勘探与地球资源调查、城市遥感与规划管理、环境与灾害监测、现代精细农业、测绘以及考古等遥感图像精准分类是诸多应用的基础问题,同时也是热点问题近十几年,卫星传感器技术得到了不断发展,遥感图像的光谱和空间分辨率不断提高,目前较为流行的高光谱成像系统包括AVIRIS、HYDICE、ARCHER、HYMAP和HYPERION通过这些成像系统获取的遥感图像所蕴含的信息得到了极大丰富,这为高光谱图像分类和聚类分析提供了新的契机,目前国内外学者提出了很多相关算法和方法,几乎所有经典的机器学习方法都被应用到图像分类和聚类分析中分类方面诸如基于最大似然和贝叶斯估计的方法[1]、基于核和决策树的方法[2]、基于图的方法[3],而在基于核的方法[4]中,支持向量机(Support Vector Machine,SVM)在分类中的表现较为突出;聚类方面的大多数方法都是通过像元之间的相似性,利用统计学方法对图像进行聚合[5]但是,单一使用分类或者聚类方法无法充分利用图像中所包含的光谱和空间信息,所以在文献[6]中使用监督分类方法初始化聚类分割区域的标签,再通过流域变换获取最优的分割图像,最终在分割区域内对分类图像的结果标签进行投票,分割区域将标记为投票最高的类别,其分类的最终结果优于单一的分类或聚类方法文献[7]用投票的方式对聚类结果和分类结果进行整合,最终使用分类所得的标签投票决定分割区域的类别,然后再对结果进行降噪处理,其最终精确度也比传统方法高但是,这两种方法都需要使用大量的训练样本来构造分类器,分类成本都比较高为了减少分类器对训练样本数量的需求,提高训练样本质量成为首要问题近几年,主动学习方法在寻找包含信息量较大、质量较高的训练样本时表现突出[8]
  本文提出一种基于主动学习的高光谱图像分类(Hyperspectral Image Classification based on Active Learning, HICAL)方法,关注如何在减少训练集数量的同时提高分类精确度,结合了分类和聚类方法,充分利用高光谱图像的光谱和原始空间特征,找到信息量较大的分割区域,进而获取信息价值较高的训练样本,最终有效提高分类器的分类效果
  1基于主动学习的高光谱图像分类方法
  1.1问题描述
  为了尽可能地降低高光谱图像分类精确度和所需的训练样本数量的比例,一方面需要充分利用高光谱图像所蕴含的信息,另一方面需要提高训练样本的质量
  HICAL方法是以分类和聚类结果结合后所构建的框架为基础,使用本文提出的关注度计算方法对结合后的区域进行统计,以找到信息量较高的区域新的训练样本将在关注度较大的区域中产生,以此来提高训练集的质量
  1.2HICAL方法
  1.2.1聚类分析
  本文使用期望最大化(ExpectationMaximization,EM)算法对高光谱图像进行聚类分析在统计计算中,EM是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量在使用EM算法过程中,可以假设所有的样本都是符合高斯分布
  EM算法对图像进行聚类过程中,为了使算法尽快收敛,将高光谱图像的光谱波段进行分组求均值,以此来减少参与计算的光谱波段数量聚类所得到的分割图像通过四联通的方式进行区域划分,并且给这些区域唯一标号得到的带有标号的区域分割图将作为模板,在后续迭代过程中与分类结果进行整合
  1.2.2监督分类
  获取聚类结果之后,需要对图像进行监督分类本文在分类过程中使用支持向量机(SVM)方法SVM是目前监督分类使用较多的分类算法,是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,具有较好的泛化能力和学习能力
  二分的支持向量机最终目标是找到一个(d-1) 维的决策面,将测试样本分成两类在使用SVM进行图像分类时,总是将像元的特征通过一个核函数映射到一个较高维度的空间,这样使样本的区分度更大,通常使用高斯核函数(Radial Basis Function,RBF)
  在二分问题中,通常将决策函数表示如下:
  其中:SV表示得到的支持向量集合,对应的αi不等于0
  使用SVM对多类问题进行分类时,通常采取两种策略一种是一对一(OneAgainstOne,OAO)的方式,另一种是一对多的方式(OneAgainstAll,OAA),本文采用OAO的方式
  HICAL方法在第一次监督分类过程中,需要少许的训练样本,通过SVM构造分类器,且监督分类的步骤在整个分类过程中是迭代进行的,每当新的训练样本被增加到训练集时,都会重新构造分类器,对图像进行新一轮分类
  1.2.3整合聚类和分类结果
  在获取聚类和监督分类结果后,借鉴文献[7]中方法对两个结果进行整合,以聚类连通区域为模型对监督分类结果进行区域划分,并给出标号最终在整合结果中的每一个区域内,都包含一个或一个以上的像元,这些像元分类标记的类别可能比较集中,也可能比较分散,这些分类标记主要取决于监督分类器的预测   1.2.4获取新样本来源区域
  获取整合结果之后,需要在结果所包含的区域中找到包含信息量较大的区域实验中总是更为关注那些含有较多像元,且分类标签比较分散的区域这样的区域如果分类准确度较高,将会很大程度地提高总体分类精确度因此,对区域的关注度给出如下公式定义:
  其中:b为区域i包含像元个数ni的权重基数,用户可根据情况自己选择;t为迭代抽样的次数,其意义是,随着迭代的进行,在较大区域已经得到关注和抽样之后,对于这些区域的关注度将会不断下降,这样在防止大区域过分取样的同时,可以很好地兼顾到小样本区域,所以,可以很好地解决以往算法对小样本区域分类精确度不高的难题
  获取不同区域的关注度值之后,为了更集中、更有效地提高请求询问的训练样本的质量,将通过设定阈值来选取需要取样的区域最终在t次迭代中将选取满足如下条件的区域作为新训练样本的来源区域:
  1.2.5新样本选择
  获取样本来源区域后,可以定义迭代中所需新样本的数量Ut对来源区域j∈Γt的取样数量可以表示为μj,且满足μj≥0在来源区域取样的方式有两种:S0和S1,其中S0是按照随机方式在来源区域中选择,而S1是根据来源区域中找到上一次监督分类器标记的最多标签类和次多标签类的子区域,按照两个子区域的样本比例进行抽取
  1.2.6主动学习过程
  本文的HICAL方法迭代过程通过主动学习方式来实现整个过程分为两个阶段:1)初始化分类器阶段,即初始监督分类阶段,在此阶段首先需要提供少量的训练集,训练初始分类器;2)循环取样阶段,也是主动学习的主要阶段,这个阶段在未标记样本中使用关注度进行查询,获取信息量较大的整合区域,从而进一步找到需要标注的样本,标注之后追加到原有的训练集中,重新对分类器进行训练,这个过程不断循环,直到达到停止条件这个停止条件可以有多种,比如新训练样本数量达到上限,或者是已经达到迭代取样的次数等
  迭代结束后,将最后一次迭代所产生的分类结果和初始的聚类结果,按照聚类区域为模板,对所有分类产生的标签进行投票,区域内所有的像元将归属到得票最高的标签类最后进行降噪处理
  2实验及分析
  2.1实验环境
  本文实验环境:中央处理器Intel Core Duo P7350 2.00GHz,内存2GB,32位Windows 7操作系统;软件平台为Matlab R2012a
  2.2实验数据集
  高光谱图像分类实验使用的是印第安纳州农林区域图像数据集(Indian Pines)
  印第安纳州农林区域图像拍摄于1992年,使用红外成像光谱仪(AVIRIS)获取,其内容是印第安纳州西北区域的某一农业森林区的地表信息整幅图像包含145×145像元,空间分辨率为20m,有220个波段,其中20个水吸收波段将在实验前被除去图像反映了16种不同的地物信息图1(a)显示这个高光谱数据的假彩色图像;图1(b)显示了其真实的地物信息,不同的颜色代表不同的类别本次实验针对的感兴趣区域总共有10366个样本,过去相关文献中多数是在每一类别中随机抽取10%的样本作为训练样本,这样的抽样方式对样本比较少的类别来说是非常不利的为了和传统的分类方式对比,在实验中也将采取这样的抽样方式,但抽样的百分比会降低
  2.3实验过程和结果分析
  2.3.1HICAL方法与传统随机取样方法比较
  本实验将本文的HICAL方法与传统随机取样方法进行对比表1中显示了各个算法的整体分类精确度(Overall Accuracy,OA)、平均分类精确度(Average Accuracy,AA)、Kappa系数以及每种地物的分类精确度SVM和SVM+EM算法[7]是在每一个类别中随机抽取10%的样本(1029个)作为训练集,其中SVM+EM也是结合光谱和空间特征的分类方法作为对比,本文算法将在每类随机抽取4%的训练样本(407个)上进行
  通过式(2)计算出每一个分割区域的关注度值,这样就可以选出一些关注度较高的区域作为新训练样本来源区域实验中取γt=0.15,每一次迭代对样本的抽取数量做出限定,为了和传统的方法比较,实验中只进行4次迭代,每次迭代取样本数Ut=50分别使用S0和S1方法对新样本来源区域进行取样(如表1所示)
  迭代起始阶段,大样本区域的关注度值会比较高,这样在开始的迭代过程中可以有部分提高分类器的分类准确度,迭代后期,关注的重心转向区域较小的分割区从表1中可以看到,在迭代4次后,训练样本总数为607,远小于随机抽取10%的1029,但Alfalfa、Grass/pasturemowed和Oats三个小样本区域的分类精确度已经得到了非常显著的提高这说明HICAL方法可以有效地解决这种小样本区域的分类难题,最终获取的分类结果无论是整体分类精确度还是平均分类精确度都得到了明显提高(如表1)
  2.3.2HICAL方法和相关主动学习方法比较
  本实验将HICAL方法和目前较新的且表现优秀的主动学习方法进行比较[9]实验中,初始化分类器时需要80个训练样本(每一类别5个),每一次迭代都将获取50个新样本标注为训练集,同时设定每一次迭代的阈值都为γt=015在初始取样方法和所获得的训练样本总数都相等的情况下,LORSALALMLL、MPMLBPAL两种算法使用四种不同的方式迭代获取训练样本:RS(Random Selection)、MI(Mutual Information)、BT(Breaking Ties)、MBT(Modified Breaking Ties)表2中给出了这些不同方法获取的分类结果可以看出,本文提出的方法在总体分类精度上更为出色
  3结语
  本文提出了一种基于主动学习的高光谱图像分类方法HICAL,能够充分利用图像的光谱特征和原始空间特征,同时使用一种新的高效的区域关注度计算方法对结合区进行统计,根据统计后的数值能够非常精确地找到信息量价值较高的区域,进而获取质量较高的未标记样本以此提高整体训练集的质量,在训练样本较少的情况下能够有效提高整体分类精确度和平均分类精确度,从而降低分类精确度和训练样本数量的比值   本文方法在分类过程中较之传统的分类方法更能解决样本失衡的问题,能够有效地解决小样本区域的分类难题;同时文中所提出的分类方法扩展性较强,在分类和聚类算法的选择上比较宽松,可以使用诸如K均值、自组织迭代技术等算法进行替代在HICAL方法迭代过程中,关注度阈值的选取和样本数量的设置,以及对区域样本的选择方法将是我们进一步研究的内容;同时我们也将关注其他分类和聚类算法,以期减少算法的时间复杂度
  参考文献:
  [1]LANDGREBE D A. Signal theory methods in multispectral remote sensing [M] . New York: Wiley, 2003.
  [2]MOUSTAKIDIS S, MALLINIS G, KOUTSIAS N, et al. SVMbased fuzzy decision trees for classification of high spatial resolution remote sensing images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2012,50(1):149-169.
  [3]BAI J, XIANG S M, PAN C H. A graphbased classification method for hyperspectral images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2013,51(2):803-817.
  [4]LI CH, KUO BC, LIN CT, et al. A spatial contextual support vector machine for remotely sensed image classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2012,50(3):784-799.
  [5]MAULIK U, SAHA I. Modified differential evolution based fuzzy clustering for pixel classification in remote sensing imagery [J]. Pattern Recognition, 2009,42(9):2135-2149.
  [6]TARABALKA Y, CHANUSSOT J, BENEDIKTSSON J A. Segmentation and classification of hyperspectral images using watershed transformation [J]. Pattern Recognition, 2010,43(7):2367-2379.
  [7]TARABALKA Y, BENEDIKTSSON J A, CHANUSSOT J. Spectralspatial classification of hyperspectral imagery based on partitional clustering techniques [J]. IEEE Transactions on Geoscience and Remote Sensing, 2009,47(8):2973-2987.
  [8]TUIA D, MUNOZMAR J, CAMPSVALLS G. Remote sensing image segmentation by active queries [J]. Pattern Recognition, 2012,45(6):2180-2192.
  [9]LI J, BIOUCASDIAS J M, PLAZA A. Spectral spatial classification of hyperspectral data using loopy belief propagation and active learning [J]. IEEE Transactions on Geoscience and Remote Sensing, 2013,51(2): 844-856.
转载注明来源:https://www.xzbu.com/8/view-4759211.htm