0921

搜索引擎分词技术

啥是分词技术?分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:

(1)存储语法库,和词汇库配合分出句子中的词汇;

(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;

(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;

(4)对无法分词的句子,把每个字当作词来处理。

以上为百度百科摘抄的,郭长老的解释就是计算机按照用户的思维方式给出最佳答案。当然郭长老把计算机想的太人性化,至于搜索引擎用到什么技术,百度说的很清楚咯。

分词技术是核心算法,我们只知皮毛便可,关键词问题是我们如何利用分词技术做到标题以及文章没有歧义。简单做法就是想好的标题输入百度,看看百度有没有相匹配的内容,会不会输入的词或短语给百度造成疑惑,没问题就ok。

标签: , 作者:郭长老|分类:共同关注|时间:09-09-21

欢迎光临战略·SEO团队官网

点击Q我

战略seo团队认为,中国互联网已经跨过了建站时代。正在大步迈向网站推广、网络营销时代,而基于搜索引擎的优化、营销、推广[SEO/SEM]将成为最重要的应用技能。网站优化、推广、网络营销将成为互联网时代的新动力。战略SEO将与您一同学习、探讨、研究相关问题。