情感分析法在旅游研究中的应用:回顾与展望
来源:用户上传
作者:吕腾捷
摘 要:技术进步彻底改变了旅游业中所有参与者生产和消费信息的方式。游客现在可以通过各种途径获取信息,甚至可以自己生成信息,表达自我观点和分享切身经历。社交网站上分享传播的旅游业相关资讯,对旅游业声誉和绩效等方面产生了深远影响。然而互联网上的数据量已经超过了人工处理的上限,新的数据分析方法亟待探索。此时,情感分析作为一个能够自动检查评论中的语义关系和含义的过程,快速走进大众视野。本研究回顾和评价基于不同数据集和性能关键评价指标条件下的情感分析方法在旅游中的应用,并总结情感分析法未来的研究方向,是继续不断推进情感分析方法的完善,并将其作为大数据方法研究的一部分来考虑。
关键词:旅游业数字化;情感分析;旅游研究;回顾与展望
中图分类号:TP391.1 文献标识码:A
大数据的使用正迅速进入旅游研究领域[1],随着人们对实时和定制信息的需求日益增加,大数据的4个体征日益与消费者研究紧密相关,即规模性、多样性、时效性、准确性。旅游业是一个顾客体验对其成L和声誉至关重要的行业,其服务核心是“以人为本”,即需要在体现人文关怀的同时把握和运用信息网络大数据,配套电子设备更新升级,以实现服务质量的提高。大多数旅游服务现在通过在线预订网站在互联网上获得[2]。此外,旅行是社交媒体上的主要话题之一。因此,旅游业被公认为在线参与的第一部门是无可厚非的[3]。
基于互联网的活动都会留下数字足迹,因此有必要及时研究旅游研究者如何利用这些数据[4],以及这些新的数据是否构成了一种新的研究范式的一部分,或包含有新的方法论,并有可能进一步促进我们对旅游理论的理解[5-6]。目前,在线数据源已被广泛应用于研究,其主要优势在于,海量且免费的数据能够为洞悉旅游业本身,以及解读旅游消费群体提供崭新视角。对比以往的研究,其重点更多关注商业战略发展创新、产品开发,以及营销行为等,而新的数据源的出现为新研究领域的拓展提供了先决条件[7-9]。
在旅游业这样一个基于积极顾客情感和反馈的服务型产业中,游客满意度的概念是至关重要的。满意度作为一个理论化构建已经被讨论和探索了很长一段时间,存在着多种操作和测量的方法,其中,主要依赖于收集来的调查数据[10]。研究表明,基于调查的方法存在着成本和逻辑方面的不足,以及潜在的公式偏差。由于游客在旅行中往往投入了较多的时间、精力和其他机会成本,因此对调查问题的回应,存在积极评估倾向的内生性问题。最终可能形成一种存在认知偏差的结果[11-12]。针对特定问题的回答,存在受文化影响或被试偏见导致的结果误差,是已有以调查为基础的问题研究方法所含有的通病。此外,问卷可能只涵盖目的地的预定方面,因而缺乏综合性。相反,在线用户生成内容(User Generated Content,UGC)的可用性,以及新技术为研究者提供了一种新的方法,通过“情感分析”可以了解旅行者的感知和可能的满意度水平[13]。情感分析,一般来说,旨在确定在线UGC中文本文档、评论、意见或情感的整体上下文极性,因此极性可以是正的、中性的或负的。虽然这一方法与旅游业高度相关,但旅游业中的情感分析才刚刚开始流行起来[14-15]。
本文的目的是回顾和批判性地考察最新的情感分析方法在旅游研究中的应用。为了推进对旅游特定领域的分析,并了解是否基于大数据的方法提供了新的研究路径,本文围绕这个主题提出以下问题:情感分析的主要因素和技术方法是什么?情感分析的多种方法如何被应用在旅游的不同方面?情感分析作为一种更广泛的大数据方法的一部分,能否成为一种改善旅游研究方法,增加旅游理论认识的新途径?
(一)旅游业数字化背景下数据处理需求激增
与互联网相关的技术变化,已经将旅游业从一个实体化的和个人层面的服务行业彻底转变成了一个数字化、全方位的旅游服务网络[16]。无论是个人还是团体旅行,从旅游计划的形成到个性化方案的定制和选择的各个环节,个体都拥有了更多主动权和控制力。除了依靠传统的平台与中介机构收集和获得信息反馈,还可以与其他拥有类似旅游经验的游客建立关联,并共享在旅游及其决策中的知识和体验。旅行者可以通过在线平台为其他旅行者提供意见和建议[17-18]。因此,新的互联网技术赋予了那些以前无法发声的人发声的能力。与旅游和旅游业有关的最成功的专业平台,如爱彼迎、携程、猫途鹰等。以猫途鹰为例,该网站每月大约能够收集并记录到3.5亿个访问者信息,产生超过320万条的评论,涉及关于住宿、餐饮、景点等不同类型的数据。这些独立平台所能提供的信息,其价值和水平,在一定程度上超过了传统的官方网站或者专业评论[19-20]。
除了专业系统之外,在线社交媒体,如新浪微博、百度贴吧等,在创建电子口碑中起着重要作用[21]。更重要的是,在线社交媒体、旅游专业网站和平台,以及微博呈现了多样的方式来收集游客数据,增加了旅游者意见反馈的丰富性和真实性[5]。虽然个体建议往往是最有影响力的旅行前决策的来源,但互联网和社交媒体相对传统的口碑来说总体可信度相对较高[9]。因此,近年亲戚、朋友、同事以及官方数据也会从电子口碑中获取互补性意见。
然而,在线信息的数量正在以非常快的速度增长,搜索、操纵和聚合这些数据,以提取关于游客态度、行为和体验质量的相关的有用观点,对旅行者、行业用户以及学术研究人员来说都是一项烦琐且耗时的任务[22]。为了更有效地分析大量数据,自动化多角度算法和机器操作系统的需求量不断增加[23]。
(二)情感分析法逐渐成为旅游业研究的重要工具
以往文献中,主要强调了使用社交媒体数据以及数据挖掘工具和程序对旅游业研究的重要性。其中,数据收集、数据清洗、挖掘过程、结果分析和评价,是大多数依靠社会媒体数据对旅游业进行分析研究的主要步骤。
nlc202302071623
情感也可以通过自动化的机器来建模,并且集成在各种应用中[24]。情感分析是使用计算语言学和自然语言处理方法来分析文本并识别其主体的一种分析方法。虽然情感分析的研究可追溯到20世纪六七十年代,但近年来它才被越来越多的研究者和实践者关注[25]。这种研究方式的兴起是受多方面因素影响的,例如:网络和社会媒体信息的升级[26];新技术的演进,尤其是用于文本分析的机器学习方法;新的商业模型搭建及信息应用软件的开发。尽管如此,情感分析与其他早期技术相比仍处于起步阶段,如数据挖掘和文本摘要[27]。
本文认为,情感分析法可以作为旅游研究的重要工具。虽然对情感分析法的相关研究回顾不能为一些具有挑战性的问题提供最终答案,仍可以通过对旅游这一特定内容的研究,进一步探索大数据迅速发展下,传统“理论-驱动”的研究范式与“数据-驱动”模型之间更替抑或共存关系的可能性。
(一)情感分析的定义与主要方法
近年来,基于情感取向观点挖掘的研究多是围绕居民或市场群体的认知和特征展开的,并基于此来讨论发布评论的内容可信度以及踊[15]。不同的领域发掘了不同的情感分析方法,也包含了少量关于该主题的文献回顾式文章,但迄今为止少有以旅游业为焦点的文献回顾。
情感分析,特别是关于客户评论的方面,是建立在一定前提下,即通过文本所反映的信息,它可能是主观的(即固执己见的)或客观的(即事实)。主观评论是基于意见、个人情感、信念和对实体或事件的判断;而客观的评论是基于事实、证据和可测量的观察[14]。消费者评论和社交媒体帖子经常反映快乐、沮丧、失望、喜悦和其他感觉[26]。挖掘这些大量的主观电子口碑对旅游组织寻求改善客户管理和商业盈利能力的企业具有重要价值。
方法论上来说,情感分析是一个极性分类问题。考虑到分类数量的不同,情感极性分类可以被概念化为二元、三元或序数分类。在二元分类中,我们最初假设给定的客户评论是主观的。换句话说,一个二元分类假设给定的文本主要是正的或负的,所以它将给定的评论的极性相应的为“积极的”或“消极的”[28]。有正负之分的情感二元定义取决于所处的特定应用领域。例如,在旅游业中,“积极”和“消极”可能分别指的是“满意”和“不满意”,但仍需要进一步的研究,将情感极性与满意的理论建构联系起来[29-30]。
评论可能并不总是主观的,因此,二进制分类需要扩展到包含第三个“目标”类别的三元分类。在三元分类问题中,分类识别过程就是对客观和主观句子的筛选过程,提供诸如“正”“负”或“中性”的分类标签[31-32]。中性极性有时被解释为正极性和负极性之间的极性。情感分析也可以通过级联方法来处理,该方法以二元分类法为基础,以区分主观和客观评论,且二元分类能进一步将主观评论分为两组,即正或负。客观评价通常不包含那些在词典中明确定义为正面或负面的词[33]。它们也可能包含混合极性而没有明确方向的观点。除了简单的二元和三元分类之外,序数分类可以通过情感强度评定量表(如1到5颗星)来执行[34]。
情感分析是一个多步骤的处理过程,至少包括:数据检索、数据提取和选择、数据预处理、特征提取、主题检测、数据挖掘过程[35]。结合这些步骤可以形成5种不同的分析方法,包括有监督机械学习方法、无监督机械学习方法、基于词典导向方法、语义学方法以及混合方法。
(二)聚焦旅游业的情感分析研究范式回顾
在对情感分析技术综述的基础上,下文继续探讨情感分析在旅游中的应用。其中备受关注的问题是“与旅游相关的研究是否使用最先进的方法?”或“是否有进一步的机会来推进情感分析的应用”。
旅游研究中情感分析方法的识别[36],可以结合关键词,诸如“旅游情感分析”“旅游情感数据”“酒店评论情感分析”和“谷歌评论”,这些关键词已被广泛用于搜索和检索发表在互联网上的相关论文,而不需要在其他特定学术网站进行具体搜索[37-38]。
笔者进一步研究了最近有关情感分析的文章,以提取那些涉及旅游业的参考文献。旅游研究人员通常使用两种类型的在线内容进行情感分析:专业网站(如携程)或社交媒体帖子(如微博)获得的旅游评论[37-38],这两种类型的来源通常包含短文本。例如,微博允许长达140个字符的评论,这样就可以进行句子级别的情感分析。使用手动和自动标注过程对评论进行标注,以训练和评价情感分析方法。另外的文献中使用的大多数数据集与酒店住宿有关,而少量的研究集中在餐馆和航空公司[39]。
在旅游文献中广泛采用了有监督和无监督的机器学习、基于词典、语义和混合情感分析方法。例如,岛田(Shimada)等人提出了一种基于简单贝耶斯分类器的无监督机器学习方法,在句子层面上对旅游数据进行情感分析。简单贝耶斯情感分类方法使用自动标记的数据进行训练[35]。例如,情绪符号“笑脸”“哭脸”分别表示正向和负向的种子,以标记用于训练的数据,而不是单词,如“优”和“差”。因此,包含笑脸的评论被认为是积极的,而那些带有愤怒的脸的评论被归类为消极。
一些旅游研究则是借鉴了基于词典的方法。米索普洛(Misopoulos)使用词汇类型的方法来评估与航空公司服务交付相关的文章的极性。研究结果揭示了航空公司客户服务中客户不满意、满意甚至高兴的方面[40]。其他基于词典的分析侧重于酒店和餐厅的客户评论。
另一些旅游研究者使用了混合方法。叶强(Ye Qiang)等人在研究中建议将语言分析方法与信息和术语提取方法相结合,以确定在线评论的情绪极性[41]。使用二进制选择关键字和简单贝耶斯算法帮助测量与不同旅游目的地相关的推文的情感极性[5]。
总之,一个相对广泛的应用领域存在于旅游业的研究中,主要涉及酒店和住宿。然后,无论是研究内容还是方法上,仍然存在较大差异。例如,大多数国外研究仅使用英文撰写的数据来分析情绪,但很少使用中文或其他国家语言撰写的评论。此外,通过对以往研究回顾综述表明,大多数旅游情绪分析是基于机器学习的方法,虽然一定数量的研究也采用了基于词典的方法[42]。后者的主要优点是不需要大量的人工标注的文本语料作为训练集,而是通过创建一个词典实现在不同领域的多次使用,进而构建情感分类的识别方法。
nlc202302071623
(一)小结与可能的挑战
利用大数据和深度学习方法有助于旅游研究打破信息壁垒,有效收集和整合旅游相关数据,实现对游客信息的多维度精准分析和有效预测,并从大数据的不同方面获得更多的洞察力[43]。旅游研究可以进一步进入一个新的领域,理论驱动的方法和数据驱动的实践可以相互支持,加深问题理解或现象解释力,并在理论上实现新一维度的创新。
尽管理论上情感分析法很引人注目,但具体实践中,提取和处理数据对速度的要求越来越高,加之大量数据的整合使得分析任务已经变得非常复杂,并有必要开发基于机器的自动化方法。本文从一般研究方法和特定旅游研究的角度进行了综述,考虑到文本情感分析是受读者主观性和语言复杂性影响的,因此对于开放领域的数据情感分析,仍然有一些限制和改进空间。
(二)研究方向展望
本文的研究结论只展示了旅游情感分析走向旅游新的研究范式过程的冰山一角。
因此,在情感分析法的完善方面,未来的研究需要旅游研究者、掌握信息技术和人工智能尤其是自然语言处理方面的专家之间的密切合作,以便形成特定主题的初始词库,为之后旅游相关行业审阅数据库的构建和公开工作的顺利开展奠定基础。这将有助于设计一个更复杂的情感分析模型,以更好地处理评论中的隐式情感方面检测问题。同时,通过提出新的假设,如发现满意度与情感之间的关系,来加强对旅游领域的研究[20],尤其是通过分析旅游文本中包含的游客情感倾向,丰富作为旅游业的核心概念之一的旅游满意度的评价方法。
[1] SPARKS B A, BROWNING V. The impact of online reviews on hotel booking intentions and perception of trust[J]. Tourism management, 2011(6):1310-1323.
[2] HVASS K A, MUNAR A M. The takeoff of social media in tourism[J]. Journal of vacation marketing,2012(2):93-103.
[3] MANSSON M. Mediatized tourism[J]. Annals of Tourism research, 2011(4):1634-1652.
[4] 张维亚,陶卓民,秦立,等.基于网络游记的苏州园林旅游者数字足迹空间响应研究[J].资源开发与市场,2016(7):886-891.
[5] DE BRUYN A, LILIEN G L. A multi-stage model of wordof-mouth influence through viral marketing[J]. International journal of research in marketing, 2008(3):151-163.
[6] CLICK A, PETIT J. Social networking and Web 2.0 in information literacy[J]. The International information & library review, 2010(2):137-142.
[7] HODGSON A . The travel and tourism industry: strategies for the future.[M].Berlin :Springer Berlin Heidelberg, 1987:53-59.
[8] MUNAR A M. Social media strategies and destination management[J]. Scandinavian journal of hospitality and tourism, 2012(2): 101-120.
[9] RUZIC D , BILOS A . Social Media In Destination Marketing Organisations (DMOs)*[C]// Tourism & Hospitality Industry :New Trends in Tourism and Hospitality Management/ Opatija:International Congress Tourism & Hospitality Industry,2010.
[10] 高扬.团体出境游客的满意和不满意:建构及测量[D].长沙:湖南师范大学,2013:9.
[11] DODDS P S, CLARK E M, DESU S, et al. Human language reveals a universal positivity bias[J]. Proceedings of the national academy of sciences, 2015(8):2389-2394.
[12] VEAL A J. Research methods for leisure and tourism[M]. England:Pearson UK, 2017:10-110.
[13] 左晶晶,胡群.旅游供应链视角下基于UGC在线点评主题乐园游客满意度研究:以上海迪士尼为例[J].物流科技,2022(13):123-126.
[14] FELDMAN R. Techniques and applications for sentiment analysis[J]. Communications of the ACM, 2013(4):82-89.
nlc202302071623
[15] RIBEIRO F N, ARAúJO M, GON ALVES P, et al. Sentibench-a benchmark comparison of state-of-thepractice sentiment analysis methods[J]. EPJ data science, 2016(1):1-29.
[16] 姚梅芳. 个体创新、感知价值与旅行计划网络平台采纳意向的关系研究[D].长沙:湖南师范大学,2014:86.
[17] NEIDHARDT J, RüMMELE N, WERTHNER H. Predicting happiness: user interactions and sentiment analysis in an online travel forum[J]. Information technology & tourism, 2017(1):101-119.
[18] HSU Y L. Facebook as international eMarketing strategy of Taiwan hotels-ScienceDirect[J]. International journal of hospitality management, 2012(3):972-980.
[19] AKEHURST G. User generated content: the use of blogs for tourism organisations and tourism consumers[J]. Service business, 2009(1):51-61.
[20] XIANG Z, SCHWARTZ Z, GERDES JR J H, et al. What can big data and text analytics tell us about hotel guest experience and satisfaction [J]. International journal of hospitality management, 2015(1):120-130.
[21] GAO J, REN L, YANG Y, et al. The impact of artificial intelligence technology stimuli on smart customer experience and the moderating effect of technology readiness[J]. International journal of emerging markets, 2022(4):1123-1142.
[22] BUCUR C. Using opinion mining techniques in tourism[J]. Procedia economics and finance, 2015,23:1666-1673.
[23] HEDE A M, KELLETT P. Building online brand communities: exploring the benefits, challenges and risks in the Australian event sector[J]. Journal of vacation marketing, 2012(3):239-250.
[24] CHOI S, LEHTO X Y, MORRISON A M. Destination image representation on the web: content analysis of Macau travel related websites[J]. Tourism management, 2007(1):118-129.
[25] BRO J. Aspect-oriented sentiment analysis of customer reviews using distant supervision techniques[D]. Berlin:University of Berlin, 2013:172-212.
[26] O’LEARY D E. The use of social media in the supply chain: survey and extensions[J]. Intelligent systems in accounting, finance and management, 2011(2-3):121-144.
[27] VERMEULEN I E, SEEGERS D. Tried and tested: the impact of online hotel reviews on consumer consideration[J]. Tourism management, 2009(1):123-127.
[28] S永华.客家文化旅游目的地游客满意度空间差异研究[D].赣州:赣南师范大学,2018:11.
[29] 叶林,江伦,韩贵锋.基于文本情感分析的城市公园使用感知评价研究:以重庆36个公园为例[J].西部人居环境学刊,2022(4):147-154.
[30] 郑文英.旅行目的地中文评论的情感分析研究[D].哈尔滨:哈尔滨工业大学,2010:3.
[31] 陈齐超,林广发,梁春阳,等.基于微博数据和情感分析法的台风“米克拉”灾情过程探测[J].亚热带资源与环境学报,2021(1):70-76.
[32] 韦晨.基于游客情感分析的旅游地形象感知测量[D].南京:南京师范大学,2017:5.
nlc202302071623
[33] 汉添,孙锐,冯晓兵.基于问卷调查与情感分析的峨眉山游客满意度研究[J].电脑编程技巧与维护,2022(9):63-66.
[34] 任帅,陆光.基于在线评论的网络视频情感分类平台设计与实现[J].现代电子技术,2019(6):170-174.
[35] SHIMADA K, INOUE S, MAEDA H, et al. Analyzing tourism information on twitter for a local city[C]// 2011 First ACIS International Symposium on Software and Network Engineering/ Seoul: ACIS International Symposium on Software and Network Engineering (SSNE),2011.
[36] 李勇,蒋冠文,毛太田,等.基于情感挖掘和话题分析的旅游舆情危机演化特征:以“丽江女游客被打”事件为例[J].旅游学刊,2019(9):101-113.
[37] 陈耀东,彭蝶飞.一种面向旅游评论的情感特征识别方法[J].计算机技术与发展,2018(11):107-110.
[38] 朱海川.5A级旅游景点中文评论文本的情感分析研究[D].青岛:山东科技大学,2017:11.
[39] LITVIN S W, HOFFMAN L M. Responses to consumergenerated media in the hospitality marketplace: an empirical study[J]. Journal of vacation marketing, 2012(2):135-145.
[40] MISOPOULOS F, MITIC M, KAPOULAS A, et al. Uncovering customer service experiences with Twitter: the case of airline industry[J]. Management decision, 2014(4):705-723.
[41] YE Q, LAW R, GU B, et al. The influence of user-generated content on traveler behavior: an empirical investigation on the effects of e-word-of-mouth to hotel online bookings[J]. Computers in human behavior, 2011(2):634-639.
[42] HORSTER E, GOTTSCHALK C. Computer-assisted webnography: a new approach to online reputation management in tourism[J]. Journal of Vacation Marketing, 2012(3):229-238.
[43] HAYS S , PAGE S J , BUHALIS D . Social media as a destination marketing tool: an exploratory study of the use of social media among national tourism organisations.[J]. Current issues in tourism, 2012,16:1-29.
nlc202302071623
转载注明来源:https://www.xzbu.com/7/view-15444840.htm