当前您在:首页 > SEO教学 > 什么是中文分词?搜索引擎如何中文分词?

什么是中文分词?搜索引擎如何中文分词?

来源:村仔SEO博客 热度:

分词就是具有动词及形容词二者特征的词,尤指以-ing或-ed,-d,-t,-en或-n结尾的英语动词性形容词,具有形容词功能,同时又表现各种动词性特点,这是百度对分词的简单介绍,中文分词也就是针对中文汉字的分词,中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。具体的下面村仔SEO博客来与大家分享一番。

什么是中文分词?搜索引擎如何中文分词?

什么是中文分词?

目前的分词手段主要是依靠字典和统计学的方法。由于索引是按照关键词建索引的,索引分词的效果直接决定了索引词以及检索的效果。因此例如将文档“学历史学好”错分成“学历/史学/好”,索引索引时,只会对“学历”,“史学”,“好”这3个索引词建立它们与该文档的关联关系。这样查询“历史学”这个关键词时,无法检索出这个文档可见分词质量在很大程度上影响了搜索的结果和效果。

搜索引擎如何中文分词?

任何文档都可以看做是一些连续的词的集合。然后中文没有明显的词间分隔,这一点和英文不同。当

然英文也有难点,列如时态和词性的变化等。在中文语法中,词汇是由两个或者多个汉子组成的。并且句子是连续书写的,句子间由标点分隔。这就要求在自动分析中文文本前,首先将整据切割成小的词汇单元,这就是中文分词。

举个例子来说明分词的难度,对于“学历史学好”这个句子,作为人来说,很容易正确切分“学/历史学/好”然而计算机要具有这种智慧还是要有很多工作要做的。否则可能会分成“学历/史学/好”

1. 通过字典实现分词

在中文分词中主要体系了3种难分类型

A. 交集型歧义

“从小学”这个词可能有多种切分方法。

Eg:“从小学电脑”----> 正确切分为“从小/学/电脑”

B. 组合型歧义

“中将”这个词可能有多种切分方法

Eg:“美军中将竞公然说”------->正确切分为“美军/中将/竟公然说”

“新建地铁中将禁止商业摊点”---->正确切分为“新建/地铁/中/将/禁止/商业摊点”

C. 混合型歧义

同时包含上面两种歧义,则为混合型歧义。

对于“人才能”,可以能切分“人才/能”,“人/才能”和“人/才/能”

利用字典分词,将字典做成一个前缀结构的数据结构,这种方法称为“最大正向匹配法”,通常称为“MM法”。

后缀结构树分词,这种方称为“逆向最大匹配”,也叫”RMM法”。两种方法原理相同,不同的是分词的扫描方向。

这种分词也可以称为“贪婪算法”,贪婪在于总是认为最大匹配的词汇最优,或者说最大匹配可以使得切方出的词汇最少。而较少的索引词可以降低索引系统的工作量和最终索引文件的大小。

2.通过统计学方法实现分词

虽然字典分词解决了分词的大部分问题,但由于字典收录词数的限制,分词还需要具有新词发现的能力,补充到新发现的普遍被采用的各种词汇到字典中,其中包括演艺明姓名和网络流行语。甚至股票代码和火车车次都有可能成为新词发现的目标。

事实上,发现新出现的词汇过程相当复杂,需要很多基于概率及信息学方面的知识,在本书中不展开深入研究。基本的原理就是探索那些经常一同出现的字。总是相互出现的字很有可能构成一个词。为此需要分析和探索大量网友内容,这种分析与探索过程都是离线完成,最后还要一个人工确认的过程。

中文分词技术还在不断的发展,还没有哪一种分词算法能够解决一切问题。SEO优化做排名也需要考虑分词的问题,分词越多可以获得的搜索就会越多。但是也不能盲目的做。

1.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;
2.网友投稿可能会经我们编辑修改或补充。
转载请注明出处:http://www.cunzaiseo.com/seojiaoxue/38.html

上一篇:【杭州建德市SEO】如何建立网站内链?建立网站内链结构的基本方式 下一篇:百度索引量是什么意思?怎么提高索引量?
说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!
相关文章
热门文章
  • script标签是什么意思?
    script标签是什么意思? script标签用于定义客户端脚本,比如JavaScript,script元素既可以包含脚本语句,也可以通过src属性指向外部脚本文件。必需的type属性规
  • 【杭州西湖区SEO】如何提高用户的体验度?
    由于现在搜索引擎漏洞百出,现在的seo几乎是一团乱水,一个毫无体验的网站,一个几乎,没有任何内容的网站,都能上搜索引擎的首页,但搜索引擎一旦
  • head标签中包含的标签有哪些?都有哪些用法?
    head标签中包含的标签有哪些?都有哪些用法? 1.base标签 所有浏览器均支持base标签 定义和用法 base标签为页面上的所有链接规定默认地址或默认目标。 通
  • description是什么意思?description标签正确用法
    description是什么意思? 对于seo来说都知道description就是页面的描述,description对网站关键词排名有着至关重要的作用,我们常说的TDK三大标签中的D就是descri
  • inurl是什么意思?
    inurl是什么意思?inurl:指令用于搜索查询词出现在URL中的页面。百度和Google都支持inurl:旨令。inurl:指令支持中文和英文。比如搜索“inurl:搜索引擎优化”,
  • body标签是什么意思?
    body标签是什么意思? body 元素是定义文档的主体。body 元素包含文档的所有内容(比如文本、超链接、图像、表格和列表等等。)body是用在网页中的一种