J4 ›› 2010, Vol. 23 ›› Issue (5): 50-54.

• 目录 • 上一篇    下一篇

基于向量空间模型的中文文档预处理系统设计

 张亦辉1, 石冰2, 李新3   

  1. 1. 济南铁道职业技术学院, 2. 山东大学软件学院 3. 滨州职业学院
  • 收稿日期:2010-07-18 出版日期:2010-10-20 发布日期:2010-10-20

Design of a Vector Space Model Based Chinese Document Pretreatment System

 ZHANG Yi-Hui1, SHI Bing2, LI Xin3   

  1. 1. Jinan Institute of Railway Technology 2. School of Software, Shandong University 3. Binzhou Vocational College
  • Received:2010-07-18 Online:2010-10-20 Published:2010-10-20

摘要:

       本文主要讨论基于向量空间模型的中文文档预处理的系统设计,通过改造字典提高中文语句流词义识别的速度,设置同义词典进行特征表示和提取,改进TFIDF表示法完成权值计算。实验表明,经过改进之后,工作效率和查询准确度有所提高。

关键词: WEB文本挖掘, 向量空间模型, 中文文档预处理系统

中图分类号: 

  • TP391

开放获取 本文遵循知识共享-署名-非商业性4.0国际许可协议(CC BY-NC 4.0),允许第三方对本刊发表的论文自由共享(即在任何媒介以任何形式复制、发行原文)、演绎(即修改、转换或以原文为基础进行创作),必须给出适当的署名,提供指向本文许可协议的链接,同时表明是否对原文作了修改,不得将本文用于商业目的。CC BY-NC 4.0许可协议详情请访问 https://creativecommons.org/licenses/by-nc/4.0