视觉智能发展与应用
来源:用户上传
作者:
摘要:文章首先介绍了视觉智能的概念与现状,其次系统分析了视觉智能领域的研究方向与应用现状,最后给出了未来的发展趋势与挑战。
[关键词]视觉智能计算机视觉应用现状
1引言
视觉是人类与大自然产生联系最直接的途径,可以帮助人类认识和理解外部世界,视觉智能无疑成为在人工智能领域最重要分支。视觉智能(VisualIntelligence)是计算机视觉与人工智能的融合学科,主要目的是让机器可以理解视觉场景。简单来说,研究者让计算机对于图片或者视频等视觉场景不断地学习,进而分析视觉信息,最终达到自主理解视觉场景的水平。
近年来,视觉智能广泛应用于城市设计、智能家居、医疗影像、交通监控、广播电视等领域,由于其巨大的研究价值和不可估量的应用前景,吸引了大批研究者进行视觉智能领域的研究,本文针对视觉智能的发展与应用现状进行综述,并对研究算法以及未来发展趋势进行分析。
2视觉智能的研究方向
视觉智能可以理解为计算机视觉研究与人工智能研究的结合,主要是针对图像、视频等视觉内容进行分析和理解。近年来,视觉智能领域的相关研究层出不穷,包括人脸识别、行人跟踪、目标分类与识别、视觉问答(VQA)、语义分割、姿态估计、行为识别、场景理解等。
2.1人脸识别技术
人脸识别是视觉智能的基础研究,由于它的识别隐蔽、人像采集的方便、数据规模较大等特性,迅速成为最热门的研究之一,广泛的应用于日常生活和城市建设的当中。人脸识别主要经历了四个发展阶段:基于心理学和工程学研究、基于人脸的机器识别研究、基于人机交互识别研究和基于机器学习的人脸识别研究。人脸识别的常见数据集有LFW、CMUPIE、YouTubeFace、PaSC等。随着大规模人脸识别数据集的发展,研究者们提出了许多不同的算法,早年主要以梯度方向直方图特征(HistogramofOrientedGridients,简称HOG)为主进行人脸识别,HOG特征是通过统计图像局部区域的梯度方向信息来作为该局部图像区域的表征。这类算法对于约束条件下的人脸识别效果较好,然而当某些因素发生变化,识别率显著降低。Hussain等人在2012年提出的LQP以及2014年LeiZ等人提出的DFD算法是典型的基于浅层学习的人脸识别算法。由于这些算法都是基于实数值特征进行的,对于无约束条件下的人脸较为敏感,因此面临输入图像的背景环境因素变化较大时,鲁棒性和准确率会显著下降,进而导致人脸识别效果不佳。随着深度学习的发展,DeepFace、DeepID系列、Center-Loss等基于深度学习的人脸检测算法取得了优异的成绩。
2.2目标检测技术
目标检测在图像检索、视频监控、海洋监控、人类行为识别、防御系统和安全医疗等各种领域的广泛应用,使之成为视觉智能领域讨论的中心话题。目标检测可以理解為针对人、动物、车、家具等真实世界物体进行分类与识别的一项研究,目标检测分为静态目标检测和动态目标检测两类。常见的静态数据集有ImageNet、MSCOCO、PASCALVOC、KITTI等。一般来说,相比于静态目标检测,动态目标检测需要从视频帧序列的背景环境中分割出动态目标,需要经历动态目标识别、目标跟踪、行为分析三个阶段。目标检测以背景减法、帧差法、时间差法、光流为代表传统算法和以RCNN、FasterRCNN、YOLO、SSD为代表的深度学习算法两类算法为主,其中基于深度卷积网络的目标检测算法又可以分为R-CNN系列和SSD、YOLO算法系列,基于深度学习的算法在检测性能以及检测速度方面都要优于传统算法。
2.3视觉问答技术
视觉问答(VisualQuestionAnswer,简称VQA)是一种计算机视觉与自然语言处理相结合的任务。VQA系统以图像和基于该图像的开放性问题作为输入,经过合理的分析后产生自然语言组成的答案作为输出。技术方面,与其他的视觉智能任务相比,VQA任务融合了多个复杂学科知识,因此面临了更多的未知性,功能实现更具挑战。VQA-abstract、Visual7W、COCO-QA、DAQUAR、FM-IQA为典型的VQA数据集。VQA特征提取包括图像和问题两个部分,图像特征提取常用的网络有Resnet、VGG等,问题特征提取常采用的网络有GRU、LSTM等。视觉问答有联合嵌入、注意力机制、组合模型、知识增强四类方法。现有的视觉智能的目前的研究重点还是基于图像展开的,对于视频视觉问答的研究屈指可数,未来的挑战还有很多。
2.4步态识别技术
步态识别(GaitRecognition)是视觉智能领域一个重要研究方向,它旨在根据人类走路姿势进行身份识别。步态识别常用数据库有CASIA、OU-ISIR、USF、南安普顿等。步态识别过程通常需要经过运动检测、周期检测、特征提取和识别处理,其中步态特征提取主要有基于模型、基于非模型和融合特征提取这三类方法,识别过程的方法有Bayes、SVM、HMM、CNN、KNN等。步态识别技术常于目标检测、人脸识别、指纹识别等技术相结合,由于步态识别涉及场景复杂,实际应用过程还有很多问题待解决。
3视觉智能的应用现状
经过多年的发展,视觉智能领域相关技术不断地创新、优化、迭代、更新,大大地丰富和完善视觉智能研究体系,促使视觉智能在城市设计、智能交通、广播电视、医疗影像诊断、工业视觉检测等领域都有广泛的应用。同时,随着大数据、物联网的发展,视觉智能未来的应用领域也会不断地拓展和丰富。
3.1媒体行业的应用
媒体行业主要基于内容制作、信息传播、终端服务,视觉智能的快速发展,必然会在媒体行业掀起一阵浪潮。迄今为止,视觉智能领域的人脸识别、行为跟踪、图像检索等技术已经成功应用在电影特效制作和短视频内容生产与传播当中,例如人脸识别成功应用于抖音、快手等短视频APP,行为识别与跟踪在3D电影制作大放异彩,视频分析特定主题、场景、对象或面部,这些例子足以证明,视觉智能如今已经成为媒体行业不可或缺的部分,“视觉智能+媒体”模式成为了必然的发展趋势。 3.2交通行业的应用
随着计算机视觉和人工智能技术的崛起,无人驾驶近年来备受瞩目。宝马、通用、福特等世界知名汽车厂商纷纷加入无人驾驶研发行列当中,2016年8月谷歌成立无人驾驶项目组,10月特斯拉成为第一家大量生产自动驾驶硬件公司,同年12月福特携第二代自动驾驶汽车亮相。除了汽车厂商,阿里腾讯百度等国内互联网龙头公司都开始分别成立自动驾驶实验室,视觉智能推动者汽车产业的蓬勃发展。在交通监控方面,行人检测技术可以辅助交警进行嫌疑人监控追踪,提供客观公正的证据,有效遏制违法行为发生,因此视觉智能在交通行业始终发挥着举足轻重的作用。
3.3医疗行业的应用
21世纪,最值得关注的是视觉智能已经渗透到医学的各个领域,相关技术在医疗行业发挥着重要的作用,如智能影像检测、医学智能机器人都较为常见。医疗行业由于涉及面广、复杂度高、高风险等特点,使得无数研究者开始尝试视觉智能与传统医学相结合的研究模式,视觉智能将改变传统医疗行业的模式,重塑医疗产业,推动医学发展。
4总结与展望
随着科技的发展,视觉智能虽然在各行各业都取得了很多不错的成果,但是想要达到真正意义上的“智能”仍然还有很长的一段路要走。如何让机器对视觉场景进行自主思考和理解,是视觉智能的需要解決的重要问题。
视觉智能的发展需要结合强大的理论知识与过硬的技术支持,研究者们需要不断地探究新知识,努力开拓新视野,将视觉智能技术发挥到极致,真正的融入到人类生活的方方面面。
参考文献
[1]田雷,基于特征学习的无约束环境下的人脸识别研究[D].北京邮电大学,2018.
[2]A. Samal,P. A. Iyengar. Automaticrecognition and analysis of humanfaces and facial expressions: asurvey [J ]。 Pattern Recognition,1992,25(1): 65-67.
[3]祝秀萍,吴学毅,刘文峰,人脸识别综述与展望[J].计算机与信息技术,2008(04):53-56.
[4]张翠萍,苏光大,人脸识别技术综述[J].中国图像图形学报,2000,5(11):885-894.
[5]周晓彦,王珂,李凌燕,基于深度学习的目标检测算法综述[J].电子测量技术,2017,40(11).
[6]俞俊,汪亮,余宙.视觉问答技术研究[J].计算机研究与发展,2018,55(09):122-134.
[7]王科俊,侯本博。步态识别综述[J].中国图像图形学报,2018,12(07):1152-1160.
转载注明来源:https://www.xzbu.com/1/view-14925774.htm