J4 ›› 2010, Vol. 23 ›› Issue (5): 50-54.

• 目录 • 上一篇    下一篇

基于向量空间模型的中文文档预处理系统设计

 张亦辉1, 石冰2, 李新3   

  1. 1. 济南铁道职业技术学院, 2. 山东大学软件学院 3. 滨州职业学院
  • 收稿日期:2010-07-18 出版日期:2010-10-20 发布日期:2010-10-20

Design of a Vector Space Model Based Chinese Document Pretreatment System

 ZHANG Yi-Hui1, SHI Bing2, LI Xin3   

  1. 1. Jinan Institute of Railway Technology 2. School of Software, Shandong University 3. Binzhou Vocational College
  • Received:2010-07-18 Online:2010-10-20 Published:2010-10-20

摘要:

       本文主要讨论基于向量空间模型的中文文档预处理的系统设计,通过改造字典提高中文语句流词义识别的速度,设置同义词典进行特征表示和提取,改进TFIDF表示法完成权值计算。实验表明,经过改进之后,工作效率和查询准确度有所提高。

关键词: WEB文本挖掘, 向量空间模型, 中文文档预处理系统

中图分类号: 

  • TP391