啥是分词技术呀?通俗的解释就是如何将短语或词组合理的分解并释义出正式解释(郭长老的白话文,不清楚的自己百度一下)。官方是这样说的:中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
任何文档都可以看做是一些连续的词的集合,但是中文没有明显的分界线。举个例子,学历史学好,人很容易区分怎么分词,学/历史学/好;计算机没有人类这样的智慧,计算机会错分如:学历/史学/好。索引时计算机会根据上面的情形出相关搜索,这样用户搜索历史学就不能准确得到想要的答案。由此可见。分词的技术很大程度影响搜索的结构。

