在线评论大数据下旅游景区网络口碑研究
来源:用户上传
作者:
摘 要:从微观尺度出发,利用在线评论大数据对景区的网络口碑进行研究。选取张家界国家森林公园为研究对象,从大数据视角入手,以新浪微博和马蜂窝等平台为信息中介,抓取并研究案例相关评论数据,构建朴素贝叶斯情感分类器对张家界国家森林公园的网络口碑进行分析。结果表明,与近几年相比,研究案例在2018年的网络口碑有一定程度的下降,与现实情况吻合;此外评论的分类准确率、召回率以及F值等评价指标均在90%左右,研究结果和研究方法对分析景区的网络口碑具有参考价值。
关键词:在线评论;网络口碑;旅游景区;情感分类器
0 引言
互联网的发展经历了Web1.0到Web2.0的转变,信息传播方式由被动接收转变为如今的双向互动。双向互动的信息传播方式促使一大批互动交流平台如雨后春笋般出现,为互联网用户通过网络表达自己的意见和观点提供了有效渠道。微博和微信就是典型。以新浪微博为例,截至2019年3月底,微博活跃用户数达4.65亿,日活跃用户数达2.03亿,大规模用户评论体现了用户群体的观点。在大数据时代,深入挖掘大数据的内在价值,是开展相关研究的新途径和新思路,可为决策提供客观、理性的参考依据。
旅游目的地的网络口碑关系到旅游目的地的旅游形象,影响到游客的旅游决策,因此旅游目的地的网络口碑成为旅游研究热点之一。所谓网络口碑(internet word-of-mouth,IWOM)[1],是指客户在网上发布、借助互联网传递给其他潜在消费者的与企业产品以及服务等有关的各种评价[2],而将网络口碑引入旅游学科最早由林巧等[3]完成。国外学者对于旅游行业的网络口碑主要聚焦于酒店领域,具体而言涉及酒店网络口碑传播[4]、酒店网络口碑满意度[5]和网络口碑预测[6]等方面。国内不少学者关注旅游城市的旅游网络口碑,主要从网络口碑的影响力[7-11]和形象感知[12-13]进行研究。通过网络口碑对潜在赴藏游客产生从众心理进而间接影响潜在赴藏游客的购买行为是网络口碑影响力的表现之一[11]。网络口碑也可对一个旅游城市产生正反两面的旅游形象感知,如朱翠兰[13]通过AHP方法以福建省厦门市为研究对象,研究了网络口碑文本,分析出厦门市旅游形象感知的正反两方面因素。上述文献虽然涉及到网络口碑评价,但是相关文献较少,主要采用内容分析等方法进行定性研究。
近几年,网络口碑评价获得了较多关注,学者们从不同角度对其进行定量研究。张若愚[14]利用LTP语言云分析句子之间的依存关系,形成景区特征与情感词的关联词对,然后采用LDA主题模型将景区相关的在线评论划分为18个主题,并将与主题相关的词语归类,构建网络口碑评价指标体系,接着将之前得到的情感词并入指标体系并根据情感词数量赋予指标权重,最终对情感词进行情感倾向判断后采用层次分析法得出网络口碑的综合得分;邱燕[15]则根据旅游要素理论构建了网络口碑指标,并利用层次分析法(AHP)为每个关键词赋予相应的权重,最后以网络爬虫技术获取有关景区的网络舆情信息为数据源,计算每个景区的网络口碑指数。
上述文献的研究思路都是通过构建网络口碑指标体系后采用层次分析法评价网络口碑。然而,研究过程主要采用层次分析方法(AHP),学者在赋予评价指标权重时,所参考的依据主要是网络爬虫数据中与指标相关的词汇量。而网络爬虫得到的数据不一定全面,也即网络爬虫的词汇量并不一定具有代表性。因此,研究结论的科学合理性不可避免地受到影响。
本文创新之处在于利用朴素贝叶斯算法分析游客的情感倾向后,结合词频工具分析游客网络口碑中正负面因素,最终给出提升网络口碑的建议。虽然在网络口碑研究领域,有不少学者利用朴素贝叶斯、神经网络、Kmeans等机器学习算法研究情感倾向[16-20],但是聚焦到旅游行业的相关文献较少,并未发现有依据新浪微博、马蜂窝等OTA网络平台评论数据进行张家界国家森林公园网络口碑相关研究。
本文选取典型旅游景区作为微观尺度的研究案例,从大数据视角入手,以新浪微博及马蜂窝等OTA网络平台的评论数据为数据源,采用朴素贝叶斯方法对景区网络口碑评价进行研究。
4.3 进一步实验与讨论
根据上述结论,除2018年外,近几年张家界国家森林公园的网络口碑整体属于良好状态,但还有提升空间。对在线评论作进一步实验分析和讨论,过程如下:在对所有在线评论进行情感分类后,形成“好评”和“差评”两个数据集,通过Python应用Jieba工具的词频统计接口统计两个数据集中出现的高频词汇,对高频词汇进行归纳总结,即可得出张家界国家森林公园网络口碑的正负面因素,深入分析正负面因素,为提升张家界国家森林公园的网络口碑提出相应建议。
(1)张家界国家森林公园网络口碑正面因素。在线评论中“好评”数据集出现频率较高的词汇有“风景”“优美”“漂亮”“美不胜收”“巧夺天工”“性价比高”“值得”等。歸纳起来,游客对张家界国家森林公园的“好评”集中在风景美、性价比高这两个因素上。风景美在山有山的奇特、水有水的清秀;性价比高在景区内景点多,可游玩时间长,一张门票有效期可达3天。
(2)张家界国家森林公园网络口碑负面因素。在线评论“差评”数据集中出现频率较高的词汇有“排队”“等待”“人多”“乱”“累”“热”等。游客对张家界国家森林公园的“差评”主要表现在人多排队现象严重,造成了游客在旅游过程中出现拥挤、线路混乱等现象,进而严重影响了旅游体验。
(3)提升张家界森林公园网络口碑的建议。以扬长避短为原则,加大宣传正面因素、有效改进负面因素。具体而言,有如下建议:加强与游客在微博等新媒体上的互动频率,对游客的评论及时给予反馈,对优秀的评论可给予奖励并以多种渠道进行宣传;在旅游旺季限制游客流量,一方面限制每日的售票数量,为提高游客体验,提前以多种方式公布每日已售票数和剩余票,并开通多种订票渠道,另一方面在景区内对人流较多的景点和路线采取分流措施;景区内增加相应公共设施减少因天气变化对游客造成的不便,如阶梯处增设防滑垫、景点增设躲雨或遮阳之处、在公共区域提前告示天气变化。 5 结语
旅游景区网络口碑是游客对景区的整体评价。潜在游客对旅游景区的口碑评价具有片面性和模糊性。本文方法是基于大量用户评论并结合朴素贝叶斯理论作出定量评价,评价结果经验证有较高的可信度。总结而言,本文取得了以下成果:①本文从定量角度对张家界国家森林公园的网络口碑作出了评价,除2018年外,该景区近几年的网络口碑整体呈良好状态;②进一步明确了景区独特风景对游客的吸引力,应加强宣传;③控制人流是提升景区网络口碑的关键。
当然,本文也存在一些不足:①本文采集的数据属于离线状态,因此对决策者而言,得出的结论具有延时性或者滞后性;②对采集的数据进行人工筛选,增加了本文方法的操作成本,是本文方法难以推广的主要原因。下一步将研究如何自动筛选有效的在线评论,并将数据采集过程实时化,从而提高结论的時效性。
参考文献:
[1] DUAN W,GU B,W HINSTON A B. The dynamics of online word-of-mouth and product sales——an empirical investigation of the movie industry[J]. Journal of Retailing,2008,84(2):233-242.
[2] 陈蓓蕾. 基于网络和信任理论的消费者在线口碑传播实证研究[D]. 杭州:浙江大学,2008.
[3] 林巧,戴维奇. 旅游目的地网络口碑信任度影响因素研究[J]. 北京第二外国语学院学报,2008(7):15-22.
[4] YIN D,BOND S D,ZHANG H. Anxious or angry? effects of discrete emotions on the perceived helpfulness of online reviews[J]. Mis Quarterly, 2013,38: 539-560.
[5] NECULA S C,P?V?LOAIA V D,STR?MBEI C,et al. Enhancement of e-commerce websites with semantic web technologies[J]. Sustainablity,2018,10(6):1955.
[6] HAQUE M E, TOZAL M E, ISLAM A. Helpfulness prediction of online product reviews[C]. Proceedings of the ACM symposium on document engineering,2018:1-4.
[7] 梅蕾,邱淑凤,张景. 网络口碑对旅游消费者决策行为的影响研究[J]. 西安财经学院学报,2017,30(3):76-81.
[8] 唐建荣,丁紫瑶,许文婷,等. 网络口碑对企业业绩的影响研究——以在线旅游行业为例[J]. 科学决策,2017(6):77-94.
[9] 魏宝祥,孔闪闪. 网络信息对旅游者决策影响研究——国内外研究比较的视角[J]. 人文地理,2016,31(5):7-16.
[10] 马明. 旅游地网络口碑再传播影响因素[J]. 地域研究与开发,2015,34(1):81-86.
[11] 蔺国伟,白凯. 网络口碑对潜在赴藏旅游者从众行为的影响[J]. 人文地理,2015,30(6):138-145.
[12] 许亚元,姚国荣. 基于在线点评的黄山风景区旅游形象感知研究[J]. 世界地理研究,2016,25(2):158-168.
[13] 朱翠兰,侯志强. 基于网络口碑的旅游目的地形象感知——以厦门市为例[J]. 热带地理,2013,33(4):489-495.
[14] 张若愚. 基于文本情感分析的江西省5A级景区网络口碑综合评价[D]. 上海:华东交通大学,2017.
[15] 邱燕. 基于爬虫技术的山岳型旅游景区网络口碑评价研究[J]. 安徽农业大学学报:社会科学版,2019,28(2):43-50.
[16] 李刚. 基于BP神经网络的负面情感评论、产品舆情危机应对、网络口碑传导路径及仿真研究[J]. 南大商学评论,2018(4):193-215.
[17] 徐建国,蔺珍,张鹏,等. 网络舆情热点获取与分析算法研究[J]. 软件导刊,2019,18(5):93-97.
[18] 申自强. 一种基于图文融合的跨模态社交媒体情感分析方法[J]. 软件导刊,2019,18(1):9-13,16.
[19] 罗慧钦,陆向艳,张雄宝,刘峻. 基于隐朴素贝叶斯的商品评论情感分类方法[J]. 计算机工程与设计,2017,38(1):203-208.
[20] 马浩翔. 基于机器学习的定量网络口碑分类预测[D]. 合肥:中国科学技术大学,2019.
(责任编辑:孙 娟)
转载注明来源:https://www.xzbu.com/8/view-15067946.htm