基于微博热度的大学生思政教育精准化发现方法
来源:用户上传
作者:王诗宜
摘要:微博是当代年轻人表达观点的主要平台之一,如何利用微博信息进行精准化思政教育是一个值得研究的课题。文章将微博的传播特性和时间特性与聚类算法进行融合,同时根据时间序列将微博集合分为多个增量子集,实现K值的动态自适应和增量化聚类。并分析了微博的点赞、评论、转发特性,提出合适的微博热度计算公式,更好地描述微博热度,进而合理地进行热点发现。
关键词:聚类;自适应;舆情发现;思政教育
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2022)32-0064-04
1 概述
微博是当代年轻人表达观点的主要平台之一,如何利用微博信息进行精准化思政教育是一个值得研究的课题。微内容[1]的兴起,因其在时间效率和空间效率上的优势,快速改变着信息的生产和传播。其中,微博就是互联网微内容中一种主流媒介形式[2],提供了一个开放的平台,其简短的写作风格,使用户发布信息的门槛极度降低,爆炸式信息的产生成为可能;加上微博强大的可操作性、快速评论、一键转发,使得信息接收用户可以短时间内完成信息的获取和观点的互动,并且通过用户关系网以几何的增长速度散布出去,这种便捷性、即时性、互动性也进一步加快了微内容形势的发展。虽然微博对于热点话题的排名与推荐[3],但是主要是根据词频进行简单的统计,效果不理想,对于发起的热门话题,是按时间进行倒序排序,较早的有影响力的微博被最新的微博挤压下去,难以再现,更有甚者,广告推销的微博借助热门话题的标签,挤进热门话题榜,大大降低了话题质量。
2017年教育部印发的《高校思想政治工作质量提升工程实施纲要》中指出高校思想政治教育要“坚持问题导向,注重精准施策。”随着时代在变迁,社会在变化,大学生正确价值观的树立作为思想政治教育的一部分,也应与时俱进、不断创新才能更好地落到实处。微博是及时了解和发现大学生价值观的重要场所,在新冠肺炎疫情的大背景下,如何利用微博平台的碎片化信息,正确引导大学生的价值观,提升大学生思想政治教育成效是高校亟待解决的一项重要课题。本文通过对微博不同于一般文本的特性的研究,比如转发评论这种社交性强的传播特点,以及热点爆发时微博所呈现出来的时间特性,将之于热点发现技术相结合,以更好地发现热门话题。本文贡献如下:(1)提出了一种微博热度的计算方法;(2)对K-means聚类算法进行了优化;(3)探索了在新媒体的环境下大学生思政教育的改革方法。
2 相关工作
针对新浪微博、腾讯微博等有多方面的研究与应用,大多集中在舆论监控、情感分析、信息推荐和热点发现等方面[4-11]。蒋洪梅分析了微博在舆论传播中的影响力,总结了微博客与舆论的相关性[12],探讨使用微博引导民众的舆论倾向。杨亮等[13]察觉到当一件重大事情发生,民众微博中会出现较多的情感词汇,反映了民众的态度,并以此提出了情感分布语言模型,通过语段里的语气词等表达感情的特征来发掘热门话题。在繁杂的信息中想要快速发掘有用信息是很难的,所以利用信息传播论总结了一种微博话题推荐方法,在综合考虑了信息量、阅读成本和阅读时效性的因素之后,针对性进行微博热点推荐。
金浏河等[14]对多个主流网络媒体与“新冠肺炎疫情”相关的话题展开舆情分析,可视化、纵深化地对本次疫情冲击下的大学生舆情素养、舆情特征、舆情趋势等问题进行探索。苗瑞丹等[15]提出海量数据的挖掘分析,定性与定量结合的画像方式以及画像标签的建立模式,为精准思政提供了技术可能。周琴等[16]针对2018年~2021年高校突发事件网络舆情进行文本分析后发现,高校网络舆情突发性强、涉及面广、影响性大,社交媒体平台加速网络舆情的生成与传播,处置不当极易催生二次舆情。刘纯嘉[17]对10000条微博评论数据进行情感极性标注工作,制作出一个高校舆情数据集,并对热点问题的高校舆情进行了分析,取得很好的效果。
3 方法
3.1 微博热度计算
微博作为网络话题的一种重点表现形式,可以理解为一种随着时间推移的信息流,热点话题就蕴含在其中,当一条微博发布后,由于一系列原因,可能是用户的影响力或是内容的流行性,微博被广泛关注,存着大量点赞转发评论现象,或者其他用户发表同主题微博,当大量同主题微博爆发式出现时,就形成了热点话题。总结影响微博热度的因素,主要分为两大方面:微博的传播特性和微博的时间效应。
3.1.1微博的传播特性
不同于新闻网站、博客、论坛等其他的网络信息平台,微博最重要的特点就是其强大的社交属性,它以用户的社交圈为传播途径完成覆盖面极广的网状传播,并且除了文本信息之外,还有丰富的元数据信息,比如点赞、评论和转发。微博传播特性包括:
(1) 点赞数:反映了其他用户对微博的喜爱和认可,这是最简单省时的方式,反应用户之间的互动和对话题的共鸣,但程度只是一般级别;
(2) 评论数:反映了微博用户对于此话题的互动程度,这是比点赞更高一层的互动行为,当对话题达到一定喜爱的程度才会与博主进行进一步的互动,也是在话题热度的重要体现;
(3) 转发数:反映了此话题的传播热度,这种用户行为直接造成话题的传播,也是形成热点话题的基础。
根据以上微博热度影响因素的分析,微博的热度可以分为静态因素和动态因素,静态是指点赞、评论、转发等自有因素,动态是随着时间的变化,因此,本文提出一种单条微博热度计算如公式(1):
[H=u?H0] (1)
nlc202301131358
其中,[u]为微博时间效应因子,[H0]为微博静态基础热度。
a. 时间效应因子[u]
[u]是随着微博的发表时间越久远,时间效应越小,具体如公式(2):
[u=et-t0α] (2)
其中,[t]为微博的发表时间,[t0]为当前时间,[α]为时间系数。
b. 静态基础热度[H0]
[H0]是不随时间变化的,只跟微博的点赞评论转发情况有关,具体如公式(3):
[H0=logf+1+r-r0r-r0+c] (3)
其中,[f]为关注者个数,[r]为转发数,[c]是评论数,[r0]是平衡因子,取[f]的千分之一,表明当用户的粉丝数越高时,转发量要达到一个基础的转发数才能算是一条有意义的微博,以此在一定程度上减弱名人效应。
3.1.2微博的时间效应
除了微博的传播机制不同,微博还有明显的时间效应。微博对用户来说是一个关注事物的展示和内心情绪的表达平台,用户发布的永远是他当前最关注的或最新发现的内容,以求在社交平台上获得好友的共鸣。而当热点事件的过去,其热度会随之趋于平淡最终降低,也就是随着热点事件的爆发、演变和消亡的时间过程,微博的热度是会变化的,而且变化是以一种较为急剧的形式呈现的,这将成为微博热点发现的重要突破口。
3.2 自适应的增量聚类算法
微博话题是一个演变的过程,每天都会产生大量的微博,有新的话题,有前段时间的热点,在通过聚类来发现微博热点的过程中,后续的微博不断加入,聚类必须以增量的形式进行,而K-means聚类的[k]值也必须随着后续微博的主题数而变化,根据以上需求,本文改进了经典算法,解决初始[k]值、增量聚类和[k]值自适应的问题。算法整体流程图如图1所示。
结合上文所述微博特点进行的改进,主要有以下几点:
3.2.1初始[k]值和聚类中心
K-means算法,[k]值的选取很关键,而聚类之前微博主题的个数是无从得知的,所以需要通过其他途径获取[k]值,本文采用最基本的层次聚类,设定一定阈值,将微博凝聚成若干个类簇,这样对于每条微博都是局部最优,然后以此作为K-means的输入,迭代获得全局最优解。
3.2.2增量聚类
微博具有时序性,为了发现微博话题的变化情况,需要每隔一个时间观察一次热点的变化,所以本文将一定时间跨度的微博集按照固定时间间隔划分为若干个增量,使用第一个进行层次凝聚,形成初始类簇中心,之后的子集在此基础上进行K-means聚类,每次迭代后都会对热点的变化完成记录。
3.2.3[ k]值自适应
随着新产生的微博的加入,微博的话题内容和话题个数都会随之变化,所以在聚类的过程中,[k]也不是固定不变的,本文通过设定阈值,在每次迭代的过程中,如果一条微博和类簇间的相似度小于阈值θ,则不进行归类,而是加入临时列表,在一次迭代完成后,通过计算与现有类簇的相异度来决定是否产生新的话题,即如果临时列表里的某条微博与现有类簇的相异度大于阈值[α],则形成一新的类簇,[k]值加1,直至所有增量完成聚类。
4 实验
4.1 数据集
本文的测试数据集来自新浪微博,通过爬虫程序按选定关键词进行爬取,时间范围为2020年1月1日到2021年12月31日。通过对这些微博初步筛选,保留原创消息,去除少于10个字的消息,删除重复微博和广告微博,再从结果中挑选12个主题,总计44869条微博,以此作为测试集语料。
4.2 数据预处理
4.2.1中文分词
分词器ICTCLAS[48]是中科院推出的中文分词器,包括中文分词、词性标注等模块。本次实验的中文分词工具就是选用了中科院分词器的Java版实现。此外ICTCLAS分词工具还提供自定义用户词典功能,以达到具体领域内的更好分词效果,本文中选用搜狗输入法词库中的领域词汇,共149568个,以提高分词效果。
4.2.2去停用词
停用词选取网上整理的3000多个词汇,包括标点符号、无意义数字、语气助词,称谓词等,对微博分词之后的结果,进行去停用词,并过滤掉词频低于5的词语,形成最后的单条微博特征词集合。
4.2.3计算权值
将分词并去停用词之后的词语集合,计算TF-IDF值,形成初步处理后的原始VSM向量,这也是本次实验各个对比方法改进前的文档向量。
4.3 实验结果
以微博的#每日高速路况#热度作为实验的基线,对比热点发现的效果。首先,我们以3天为单位,将上述预料分为11个增量,第一个增量进行层次聚类,得到[K=2],阈值取[α=0.3],[θ=0.8],每次增量集迭代完成计算和记录类簇热度,结果如图2所示。其中,蓝色线条表示#疫情大学生返乡#话题,灰色线条表示#每日高速路况#。通过实验,我们发现2020年1月13日至25日之间,微博关于疫情大学生返乡的事件有过激烈的讨论,短期内微博热度升高。
接着,对时间进行了更细粒度的划分,以1天为单位分为13个增量,时间范围2020年4月3日至2020年4月15日,聚类和阈值与之前相同。每次增量集迭代完成计算和记录类簇热度,结果如图3所示。其中,蓝色线条表示#山东理工大学虐猫事件#话题,灰色线条表示#每日高速路况#。图中显示,4月9日和4月10日热度明显升高,并成为热点事件。通过对比微博热搜榜,发现4月10日时,#山东理工大学虐猫事件#进入了热搜榜,而笔者的算法在9日便发现了该热点,体现了算法的先进性。
nlc202301131358
大学生在虚拟世界和现实交织生活,以微博为首的网络信息对其的思维、生活、学习以及行为等各方面影响颇深,尤以价值观的树立为甚。这种影响是双面的,一方面若能明辨网络上的信息并合理吸收,可以正面引导大学生的思维,树立大学生正确的价值观;另一方面,若是对网络上的信息不假思索地轻信,则可能会导致大学生偏离、否定主流意识形态,形成错误的价值观。通过笔者的方法可以第一时间发现热点,及早掌握舆论风向,并为大学思政工作提供有效帮助。
5 总结
本文提出了微博热点发现的改进方向,结合微博特性,将传统的K-means聚类算法改成了增量的形式,并且完成了K值自适应。同时,结合层次聚类,解决了K-means启动时依赖人为设定K值和初始聚类中心的不足。此外还提出了微博热度计算公式,以便更准确地描述微博类簇的热度。最后,通过设计实验,定性地验证了话题发掘的结果,实验表明本文方法可以有效发现热点。
参考文献:
[1] 张静. 基于微博的网络热点发现模型及平台研究[D]. A中科技大学, 2010.
[2] 李岩.基于微博的网络热点发现研究[D].镇江:江苏科技大学,2013.
[3] 李永道.微博热点话题发现方法研究[D].南京:南京师范大学,2013.
[4] Beil F, Ester M, Xu X. Frequent term-based text clustering[C]//Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2002: 436-442.
[5] 王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40.
[6] 胡吉祥,许洪波,刘悦,等.重复串特征提取算法及其在文本聚类中的应用[J].计算机工程,2007,33(2):65-67.
[7] Gabrilovich E.Feature generation for textual information retrieval using world knowledge[J].ACM SIGIR Forum,2007,41(2):123.
[8] Hotho A,Staab S,Stumme G.Ontologies improve text document clustering[C]//Third IEEE International Conference on Data Mining.Melbourne,FL,USA.IEEE,2003:541-544.
[9] Brusco M J,K?hn H F.Comment on “Clustering by passing messages between data points”[J].Science,2008,319(5864):726.
[10] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436.
[11] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research,2003,3(1):993-1022.
[12] 蒋洪梅.微博客的特点及其舆论影响力[J].新闻爱好者,2011(5):85-86.
[13] 杨亮,林原,林鸿飞.基于情感分布的微博热点事件发现[J].中文信息学报,2012,26(1):84-90,109.
[14] 金浏河,施健.疫情冲击下大学生网络舆情演化趋势与高校思政引导――基于互联网多平台数据的计量分析[J].高教学刊,2022,8(21):1-7.
[15] 苗瑞丹,王真.大数据画像技术助推精准思政的技术可能、现实挑战和对策思考[J].思想教育研究,2022(7):41-46.
[16] 周琴,夏友福.高校突发事件网络舆情的应对策略探析――基于2018―2021年141个高校舆情事件的分析[J].传媒论坛,2022,5(16):82-84.
[17] 刘纯嘉.面向高校舆情的中文文本情感倾向性分析[D].南昌:江西师范大学,2020.
【通联编辑:王力】
nlc202301131358
转载注明来源:https://www.xzbu.com/8/view-15444088.htm