啥是分词技术?分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:
(1)存储语法库,和词汇库配合分出句子中的词汇;
(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;
(4)对无法分词的句子,把每个字当作词来处理。
以上为百度百科摘抄的,郭长老的解释就是计算机按照用户的思维方式给出最佳答案。当然郭长老把计算机想的太人性化,至于搜索引擎用到什么技术,百度说的很清楚咯。
分词技术是核心算法,我们只知皮毛便可,关键词问题是我们如何利用分词技术做到标题以及文章没有歧义。简单做法就是想好的标题输入百度,看看百度有没有相匹配的内容,会不会输入的词或短语给百度造成疑惑,没问题就ok。

