J4 ›› 2010, Vol. 23 ›› Issue (5): 50-54.
张亦辉1, 石冰2, 李新3
ZHANG Yi-Hui1, SHI Bing2, LI Xin3
摘要:
本文主要讨论基于向量空间模型的中文文档预处理的系统设计,通过改造字典提高中文语句流词义识别的速度,设置同义词典进行特征表示和提取,改进TFIDF表示法完成权值计算。实验表明,经过改进之后,工作效率和查询准确度有所提高。
中图分类号:
TP391
开放获取 本文遵循知识共享-署名-非商业性4.0国际许可协议(CC BY-NC 4.0),允许第三方对本刊发表的论文自由共享(即在任何媒介以任何形式复制、发行原文)、演绎(即修改、转换或以原文为基础进行创作),必须给出适当的署名,提供指向本文许可协议的链接,同时表明是否对原文作了修改,不得将本文用于商业目的。CC BY-NC 4.0许可协议详情请访问 https://creativecommons.org/licenses/by-nc/4.0