基于评论挖掘在线短租市场产品排序研究
来源:用户上传
作者:
摘要:结合在线短租市场固有的特点,分析信息质量对于消费者信息采纳和决策行为的作用机制。在研究方法上,选择了多属性决策模型对目标商品进行排序,确定产品总效用、产品特征-情感和权重,利用TOPSIS算法,对目标商品进行排序。结合在线短租市场特点基础上,对大量在线评论数据进行处理,多维度考虑评论信息对产品排序的影响。
关键词:在线短租;信息采纳模型;评论挖掘;TOPSIS算法
中图分类号:F27文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.15.032
1问题描述
本文主要考虑评论信息对电子商务网站产品排序影响。设目标产品集为X={X1,X2,…,Xm},目标产品的在线评论集合为Ei= {e1i,e2i,…,eQii},Qi表示产品i的评论数量,i= 1,2,…,m;q= 1,2,…,Qi。用C = {C1,C2,…,Cn}表示评论中涉及的产品属性的集合;U(eqi)表示评论eqi的总效用;用ω表示产品属性的权重向量,可以用向量表示为ω=(ω1,ω2,…,ωn)T,则ωj≥0且∑nj=1ωj=1。
本文需要解决的问题是,通过现在的在线评论信息Ei,抽取出产品的属性,即集合C,以及每个产品属性所代表的权重ω,并通过这些信息,对目标产品进行排序。
2模型构建
本文结合在线短租市场在线评论的特点,结合消费者购买决策五阶段模型和信息采纳模型,构建模型。在模型构建中,简化了共识性因素对产品排序的影响,将研究重点放在中心路径上,研究在线评论信息的质量对于产品排序的影响,模型思路框架见图1。
3在线评论效用
3.1评论长度
本文将评论长度具体量化为评论中所包含的字符数量。通常来说,评论文本越长,则其中包含的内容也就越丰富,涉及的维度也就越多,其中包含的有用信息也越多,代表越强的可信度。因此,较长的评论文本可以一定程度上增加阅读者的感知有用性,降低购买的不确定性。
num=count(word)(1)
u1eqi=ln(num+1)ln(num*+1)(2)
其中,word代表评论中所包含的文字数量,num*代表在线评论中长度最长的评论的文字数,可表示为num*=max (num),且0≤u1(eqi))≤1。
3.2评论时效性
评论时效性指评论消息发布与被阅读两者之间的时间差。差值越小,意味着评论越新,即评论的时效性越强。虽然不同市场的表现规律不同,但是不同维度的异质性稳定性随着时间的推移而降低。
u2 (eqi)=exp (Tqi-TnowTnow-T*i)(3)
其中,Tqi表示消费者发表评论的时间,Tnow表示消费者进行产品选择的时间,即产品评论被阅读的时间,T*i表示该产品评论中,最早发表的时间,也就是说,T*i= min { Tqi},特别地,当Tqi=T*i时,u2(eqi)=0.37,可见,0.37≤u2 (eqi))≤1。
3.3图片评论数
评论信息中,除了包含文字信息外,还会包含图片信息,且图片信息是对文字信息的内容补充。根据大量文献研究表明,图片评论数对在线评论有用性有正向影响。另外来说,图片信息由于其包含的内容更加直观、真实,有助于帮助消费者对产品本身有更好的了解。因此,图片评论信息可以加强阅读者的感知有用性。
u3eqi=exp (N-N*N*)(4)
其中,N代表评论中包含的图片数量,N*=max (N),代表在线评论中最多的圖片数量。特别地,当N=0时,u3 (eqi)= 0.37,可见,0.37≤u3 (eqi))≤1。
4产品特征-情感配对
4.1产品特征抽取
商品特征是评论信息的重要组成部分之一,同时也是消费者关注的具体内容。对于一件有形的商品来说,它的特征可以是商品外观、质量、服务态度等各个方面,消费者对一个产品的喜好,归根到底是对产品的各项特征的喜好。产品特征就是指产品所包含的各类属性,包括它的包装、功能、质量、外形、服务等,这些都是吸引消费者做出选择的关键性因素。因此,我们对产品的在线评论进行分析,就是探究在线评论中包含哪些吸引消费者的特征。
本文产品特征抽取采用的是关联规则的方法,通过寻找频繁项集实现产品特征的抽取。本文采用的是Apriori算法,通过算法抽取评论中具有频繁项集作为产品特征,在算法的应用中,频繁项集仅考虑3项及其以下项集,同时,通过最小支持度对频繁项集进行筛选。
4.2产品特征-情感倾向词对抽取
情感倾向是用户进行评论时,就产品的某个特征,发表的具有主观性的评价语言,这些评论语言都具有感觉色彩,因此在评论分析中,需要找到产品特征所对应的情感词。一般情况下来说,情感词和产品特征都是成对出现的,为了确保产品特征和情感词两者之间存在对应关系,我们通过权重对两者进行衡量,用pair<feature,opinion,weight>,简写为pair<f,o,d,n,weight>,在实际应用中,认定只有当weight取值高于0.25时,才可以认为这对特征词和情感词之间存在配对关系。
4.3情感极性判定
4.3.1构建情感词典
情感词典是分析情感词极性的基础,是一种基于语义的方法,它可以用于计算词语、句子或者文档的情感极性。本文的情感词典构建来源于HowNet、NTUSD以及评论语料。其中,HowNet和NTUSD提供不针对具体领域的,具有通用性的情感词。由于本文是对在线评论进行情感分析,其中会涉及到很多网络词汇,因此在HowNet和NTUSD的基础上,结合网络词汇加入到词典中。将情感词分为褒义、中性和贬义这三个集合,分别用符号O +,O'和O-表示,部分含义如表1所示。 4.3.2判断情感极性
文本进行词性标注后,本文以其中的形容词作为情感词进行分析,通过LTP语言技术平台,进行依存句法分析,存储属性-情感词对,再根据情感词典的方法对情感极性进行判断。设Oqij表示评论eqi中关于属性Cj的情感词,P(Oqij) 表示情感词Oqij的极性,公式为
P(Oqij)=10-1若Oqij∈V+若Oqij∈V'若Oqij∈V-(5)
4.3.3处理程度副词
消费者在发表评论时,不仅会用情感词表示产品的特征,同时还会使用程度副词加强情感。参照HowNet程度副词表,按照表达的情感程度,可以将它划分为两类,用deg(Oqij)来表示,则deg(Oqij) = 1,2,含义如表2所示,公式表示为
deg(Oqij)=12Oqij∈Φ1Oqij∈Φ2(6)
其中,Φ1代表情感强度为1的副词集合,Φ2代表情感强度为2的副词集合。
4.3.4处理否定词
情感词可以充分表达消费者的情感倾向,但是,其中的否定词对情感倾向的极性有关键影响。当情感词之前出现否定词词,所表示的情感极性有可能就完全相反。在否定词处理中,主要考虑以下两种情况,一是否定词是对另一否定词的否定,即出现两个否定词时,并不会影响情感极性;但是当只有一个否定词时,则是对情感极性的完全否定,情感极性完全相反。因此认为可以以否定词出现的个数来判断否定词对情感极性的影响。令N表示情感词Oqij前否定词的个数。因此,关于就评论eqi,其表达的关于产品属性Cj的情感强度可用下式来衡量:
Scoreeqi)= P(Oqij)* deg(Oqij)*(-1)qijN(7)
在数据处理中,若评论信息中并未出现关于属性Cj的情感词,则我们认为该评论信息的情感值为ψ,可用公式表示为Scoreeqi=ψ。但是,若评论信息中未出现任何属性值,那么认为该评论对产品的所有属性表达的情感相同。可见,当Scoreeqi≠ψ时,Scoreeqi= -2,-1,0,1,2。
5基于TPOSIS算法的产品排序模型
Technique for Order Preference by Similarity to an Ideal Solution是1981年,由C.L.Hwang联合K.Yoon提出的,简称为TOPSIS算法。TOPSIS算法主要用于对有限数量的目标产品进行优劣排序。TOPSIS算法中,首先计算在理想状态下的最优目标,其次通过各目标产品与理想最优解之间的距离来进行判断,同时,该方法要求各效用函数具有单调递增(或递减)性。
5.1在线评论效用计算
评论eqi的总效用为
U(eqi)=αu1(eqi)+βu2(eqi)+γu3(eqi)(8)
i= 1,2,…,m;q = 1,2,…,Q;;其中,α,β,γ≥0 且α+β+γ= 1。
5.2产品属性权重
在产品特征处理过程中,已经将产品的特征进行频繁项集处理,得到产品的属性集合。用yqij表示评论eqi中包含的属性集合,若评论eqi中未提取出属性词,则yqij=φ。若评论中某属性出现的频率越高,则代表该属性受到更多的人重视,即该属性在消费者心中的权值越高,以统计的方法,将各属性集合所在评论的效用进行累加,并以此代表属性的权重,则属Cj的权重可表示为
wj=∑mi=1∑Qiq=1Ueqiτjeqi∑nj=1∑mi=1∑Qiq=1Ueqiτjeqi(9)
其中:τjeqi=1,0,yqij≠φyqij=φ;∑mi=1∑Qiq=1U(eqi)τj(eqi)表示包含屬性Cj集合的评论的总效用值。
5.3构建决策矩阵
用H = { H1 =-2,H2 =-1,H3 = 0,H4 = 1,H5= 2}表示评论信息中,产品特征所代表的情感等级集合。为了表达产品在不同情感等级上的差异性,本文采用随机形式表达消费者的情感倾向。
首先,记ξij表示产品Xi关于属性Cj的随机评价值,那么ξij就可以用公式10表示其概率分布函数。
Pξij=Hk=pkij,k=1,2,…,5(10)
其中,
pkij=∑Qiq=1ψk(Scoreeqij)∑Nk=1∑Qiq=1ψk(Scoreeqij)(11)
ψkScoreeqij=1,0,Scoreeqij=HkScoreeqij≠Hk,pkij∈[0,1]且∑Nk=1pkij=1,其中,N代表需要决策的产品数。因此,我们可以求出针对目标产品的离散概率分布函数,即决策矩阵,用M=[P(ξij)]m*n表示,具体表达形式间表3。
5.4消费者购买决策模型
首先,确定关于候选商品Xi对商品特征Cj的特征值的累积分布函数,则ξij的累积分布函数如下:
Fijx=∑ξijSymbolcB@
xP(ξij)(12)
根据公式(12),可以得到累计分布函数形式的决策矩阵M︿=[P(ξij)]m*n,进而可以求出目标产品的正负理想分布函数,用函数F+j(x)和F-j(x)表示。
由于本文是对产品的优劣进行排序,因此采用的是效益型指标的确定方式。具体求解方式如下:
F+j=maxFij(x)|i=1,2,…,m,j=1,2,…,n(13)
F-j=minFij(x)|i=1,2,…,m,j=1,2,…,n(14)
由公式5-10和公式5-11,可确定正理想点F+和负理想点F-。
F+=F+1x,F+2x,…,F+nx(15) F-=F-1x,F-2x,…,F-nx(16)
结合产品特征所对应的权重ω=(ω1,ω2,…,ωn),可求得目标产品Pi的正负理想点距离,用函数D+i和D-i表示。
D+i=∑nj=1ωj*∫ΩjFijx-F+jxdx,i=1,2,…,m(17)
D-i=∑nj=1ωj*∫ΩjFijx-F-jxdx,i=1,2,…,m(18)
其中,Ωj=[H1,Hk],k=1,2,3,4,5。
根据已经求出的正负理想点距离,可求得关于目标产品Pi的贴近度,用函数CCi表示。
CCi=D-iD-i+D+i,i=1,2,…,m(19)
显然我们可以看出,贴进度CCi的取值越大,代表目标产品Pi与正理想点的距离越近,同时离负理想点的距离越远,也就说明目标产品Pi越好。因此,最后可以根据CCi取值的大小判断目标产品的优劣。
6數据验证
在数据验证阶段,选择途家网为代表进行研究。本文随机选择5家店铺,获取这5家店铺的在线评论数据,依据上文提到的技术手段和算法对数据进行分析,然后应用多属性决策模型对这5家店铺进行排序。
本文在途家网中,选择城市为大理,根据首页推荐随机挑选前5家店铺,但店铺选择的过程中,尽量考虑店铺的价格在同一个区间范围内,根据推荐页的店铺情况来看,除部分店铺的价格在100元以下或者一些别墅套件在500元以上,其他大多数的店铺价格均保持在100-300之间,其中以100-200之间尤其多,因此将店铺的价格确定在100-200,最终确定的店铺分别为:大理古城小猫民宿(X1)、闲暇小筑(X2)、大理古城边的小院子合院(X3),洱海边雅致双床房(X4),泊新民宿-情侣蜜月阳光大床房(X5),价格分别为:116、134、179、170、188。在抓取在线评论的同时,也抓取了其他信息如下:(1)评论发布者的用户名;(2)评论者点评时间;(3)图片评论数。通过Gooseaker获得这5家店铺的在线评论信息,每家店铺收集的在线评论数据如表4所示。
则可根据(公式12~19)计算得到关于产品X1,X2,X3,X4,X5的贴进度分别为CC1=0.301,CC2=0.411,CC3=0.565,CC4=0.169,CC5=0.538。因此,候选商品的排序为X3>X5>X2>X1>X4,即X3的综合评价较好,潜在消费者可以选择X3进行。
7结论
本文结合在线短租市场的特点,通过对在线评论的处理,研究评论信息对产品排序的影响,通过对现有的评论信息进行处理,并依据TOPSIS算法得到了最公正的产品排序。该方法的主要特点在于:评论信息数据量大,同时也易于获取,本文考虑了在线评论的效用、产品特征和情感倾向对消费者的影响,多维度分析,弥补了现有方法对在线评论信息处理过于粗糙的缺点。
参考文献
[1]姜广田.解决随机多属性决策问题的若干理论与方法研究[D].沈阳:东北大学,2010.
[2]张艳辉,李宗伟.在线评论有用性的影响因素研究:基于产品类型的调节效应[J].管理评论,2016,28(10):123-132.
[3]李金海,何有世,马云蕾,等.基于在线评论信息挖掘的动态用户偏好模型构建[J].情报杂志,2016,35(9):192-198.
[4]张艳丰,李贺,翟倩,等.基于模糊TOPSIS分析的在线评论有用性排序过滤模型研究——以亚马逊手机评论为例[J].图书情报工作,2016,(13):109-117.
[5]李永海.一种使用在线评论信息的商品购买决策分析方法[J].运筹与管理,2018.
转载注明来源:https://www.xzbu.com/2/view-14895565.htm