山东科学 ›› 2014, Vol. 27 ›› Issue (6): 73-77.doi: 10.3976/j.issn.1002-4026.2014.06.012

• 论文 • 上一篇    下一篇

面向网络舆情分析的语义相似度算法研究

魏飞,杨春波,刘守鹏   

  1. 滨州医学院,山东 烟台 264003
  • 收稿日期:2014-05-14 出版日期:2014-12-20 发布日期:2014-12-20
  • 作者简介:魏飞(1981-),男,硕士,研究方向为算法设计、网络安全和图像处理。Email:peterfei3000@163.com
  • 基金资助:
    烟台市社会科学规划研究项目(2012-SH-11)

Network public opinion analysis oriented semantic similarity algorithm

WEI Fei, YANG Chun-bo, LIU Shou-peng   

  1. Binzhou Medical University, Yantai 264003, China
  • Received:2014-05-14 Online:2014-12-20 Published:2014-12-20

摘要: 本文对广义向量空间模型进行了改进,并利用《知网》义原提出了一种基于义原空间的文本相似度计算方法。此方法根据TFIDF权重,将文中特征项转化为义原空间中的向量,通过求义原向量之间的夹角余弦值的方式,实现文本相似度的计算。最后进行文本聚类对比实验,结果表明,该方法可以很好地解决舆情分析中的语义漂移问题,使得网络舆情分析的效果有了较大提高。

关键词: 知网, 网络舆情, 相似度

Abstract: We improve the generalized vector space model, and present an original meaning space based text similarity computing method with the “HowNet” sememe. The method converts a feature into a vector in a sememe space with TFIDF weight, and calculates text similarity by the cosine of the angle between different sememe vectors. We eventually perform text clustering and comparative experiments. Experimental results show that the method can well solve the problem of semantic drift of public opinion analysis, and its effect can be significantly improved.

Key words: similarity, HowNet, internet public opinion

中图分类号: 

  • TP393

开放获取 本文遵循知识共享-署名-非商业性4.0国际许可协议(CC BY-NC 4.0),允许第三方对本刊发表的论文自由共享(即在任何媒介以任何形式复制、发行原文)、演绎(即修改、转换或以原文为基础进行创作),必须给出适当的署名,提供指向本文许可协议的链接,同时表明是否对原文作了修改,不得将本文用于商业目的。CC BY-NC 4.0许可协议详情请访问 https://creativecommons.org/licenses/by-nc/4.0