您现在的位置是:首页 > SEO教学 > SEO教学
TF-IDF算法原理公式以及对SEO优化的重要性
来源:村仔SEO博客 2020-08-19 人已围观
简介:TF-IDF(术语频率与文档频率成反比)是一种统计量度,用于评估单词与文档集合中的文档的相关性。这可以通过乘以两个度量来完成:一个单词在文档中出现多少次,以及单词在一组文档
TF-IDF(术语频率与文档频率成反比)是一种统计量度,用于评估单词与文档集合中的文档的相关性。这可以通过乘以两个度量来完成:一个单词在文档中出现多少次,以及单词在一组文档中的反向文档出现频率。
TF-IDF算法原理公式
它有许多用途,最重要的是在自动文本分析中,并且对于自然语言处理(NLP)的机器学习算法中的单词评分非常有用。
TF-IDF被发明用于文档搜索和信息检索。作用是统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF-IDF如何计算?
通过将两个不同的指标相乘来计算文档中单词的TF-IDF:
该词频文档中的单词。有多种计算此频率的方法,最简单的方法是单词出现在文档中的原始实例计数。然后,有一些方法可以根据文档的长度或文档中最常用单词的原始频率来调整频率。
单词在一组文档中的逆文档频率。这意味着单词在整个文档集中有多普遍或少见。距离0越近,一个单词越常见。可以通过以下方法来计算该指标:将文档总数除以包含一个单词的文档数,然后计算对数。
因此,如果该单词非常普遍并且出现在许多文档中,则该数字将接近0。否则,它将接近1。
将这两个数字相乘会得出文档中单词的TF-IDF分数。分数越高,该单词在该特定文档中越相关。
用更正式的数学术语来说,来自文档集D 的文档d中单词t 的TF-IDF得分计算如下:
TF-IDF算法原理公式
为什么在机器学习中使用TF-IDF?
使用自然语言的机器学习面临一个主要障碍–它的算法通常处理数字,而自然语言则是文本。因此,我们需要将该文本转换为数字,或者称为文本矢量化。这是机器学习过程中用于分析文本的基本步骤,并且不同的矢量化算法会严重影响最终结果,因此您需要选择一种能够提供所需结果的算法。
将单词转换为数字后,以机器学习算法可以理解的方式将TF-IDF分数馈入诸如Naive Bayes和Support Vector Machines之类的算法,从而大大改善了诸如单词计数之类的更基本方法的结果。
为什么这样做?简而言之,单词向量将文档表示为数字列表,而语料库的每个可能单词都带有一个。向量化文档是获取文本并创建这些向量之一,向量的编号以某种方式表示文本的内容。TF-IDF使我们能够提供一种将文档中每个单词与代表该文档中每个单词的相关性的数字相关联的方法。然后,具有相似且相关词的文档将具有相似的向量,这正是我们在机器学习算法中寻找的东西。
百度专利中使用TFIDF的实锤,请查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》。搜索算法来去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有点不同,它是目前最核心的搜索算法之一。
用户体验得分(可以通过刷快排提高)的比率,百度在40%左右,Google则没有找到相关快排技术文档。
所以说,在中国做SEO:排名得分=40%的内容质量(TFIDF)+40%的用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度不言而喻。
TF-IDF的应用
确定关键词与文档或TD-IDF的相关性在许多方面都很有用,例如:
信息检索
TF-IDF发明用于文档搜索,可用于提供与您要搜索的内容最相关的结果。假设您有一个搜索引擎,有人在寻找SEO。结果将按照相关性顺序显示。也就是说,最相关的SEO文章将排名较高,因为TF-IDF给SEO一词带来了更高的分数。
相关文章
随机博文
H标签的常见用法有哪些?怎么使用?
H标签的常见用法有哪些?H标签怎么使用?H标签的优化方法?可能很多人会有这些疑虑。在本文中村仔SEO将把H标签在...什么是沙盒效应?如何判断网站是否处于沙盒期?
什么是沙盒效应? 所谓的沙盒效应就是指搜索引擎对新网站进行短暂的观察期,经过一段时间的考验,期间网站会被...织梦网站robots文件应该禁止哪些(常见织梦网站robots文件写法)
网上robots的写法,说法一大堆,也不知谁对谁错,那么织梦robots文件具体应该禁止哪些文件呢?今天村仔SEO大概总结...一个入行十年的SEOer的35个SEO经验
当我第一次开始搜索引擎优化就好像是在昨天,但实际上我已经做了整整十年。十年是一个相当长的时期,即使世事...【杭州上城区SEO】网站robots文件制作技巧方法
对于一个新的网站的时候,我们前期需要做好robot协议设定,因为这对于我们的新站是必不可少的,这样可以快速让我...核心关键词如何选择和定位(核心关键词选取的原则)
说到核心关键词的选择和定位可能很多SEOer都会有一定见解,那么核心关键词如何选择和定位?今天聊聊小编的方法吧...如何通过IP来判断是不是百度蜘蛛?
站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢?可以通过DNS反查方式来解决这个问题。根据平台不同验...如何提高百度权重(快速提高百度权重方法)
为什么要提高百度权重? 目前百度作为最大的中文搜索引擎,很多中文站点都需要搜索引擎检索和收录,每个站点都...
文章评论
- 全部评论(0)
