搜索引擎判定相似文章网页的原理-网络营销-优质IT资源分享社区

yutingzhidong
总版主
总版主
  • UID2
  • 粉丝18
  • 关注1
  • 发帖数11
  • 社区居民
  • 忠实会员
  • 原创写手
阅读:169回复:0

搜索引擎判定相似文章网页的原理

楼主#
更多 发布于:2016-06-14 11:52

 在上一篇文章中马海祥现已具体的介绍了运用TF-IDF算法主动获取文章关键字的原理。接下来,咱们再来研究一下另一个相关的疑问。这个疑问也是咱们做SEO的最关心的,有些时候,咱们除了要理解怎么找到并获取文章关键字,咱们还需要找到与原文章类似的别的文章。比方,咱们平时在查找引擎的新闻栏目下查找某条新闻的时候,在主新闻下方,还供给了多条类似的新闻。如下图所示:




为了找出类似的文章,咱们就需要用到另外一个公式原理了,那就是“余弦类似性(cosine similiarity)”。
一、啥是"余弦类似性"?
余弦类似性是指经过丈量两个向量内积空间的夹角的余弦值来度量它们之间的类似性。0度角的余弦值是1,而别的任何视点的余弦值都不大于1;而且其最小值是-1。然后两个向量之间的视点的余弦值断定两个向量是不是大致指向一样的方向。两个向量有一样的指向时,余弦类似度的值为1;两个向量夹角为90°时,余弦类似度的值为0;两个向量指向彻底相反的方向时,余弦类似度的值为-1。在对比过程中,向量的规划巨细不予考虑,仅仅考虑到向量的指向方向。余弦类似度一般用于两个向量的夹角小于90°以内,因而余弦类似度的值为0到1之间。
值得注意的是余弦类似度能够用在任何维度的向量对比中,它尤其在高维正空间中的运用尤为频频。例如在信息检索中,每个词条具有不一样的度,一个文档是由一个由有权值的特征向量表明的,权值的核算取决于词条在该文档中呈现的频率。余弦类似度因而能够给出两篇文档其主题方面的类似度。
二、查找引擎是怎么断定类似文章的?
下面,马海祥还是以举比方的方法来阐明怎么才能找出类似文章?
为了简略起见,咱们先从语句着手。
语句A:我喜爱看电视,不喜爱看影片。
语句B:我不喜爱看电视,也不喜爱看影片。
那么咱们怎样才能核算出上面两句话的类似程度呢?
马海祥主张的基本思路是:假如这两句话的用词越类似,它们的内容就应该越类似。因而,能够从词频下手,核算它们的类似程度。
第1步:分词
语句A:我/喜爱/看/电视,不/喜爱/看/影片。
语句B:我/不/喜爱/看/电视,也/不/喜爱/看/影片。
第2步:列出所有的词
我,喜爱,看,电视,影片,不,也。
第3步:核算词频
语句A:我 1,喜爱 2,看 2,电视 1,影片 1,不 1,也 0。
语句B:我 1,喜爱 2,看 2,电视 1,影片 1,不 2,也 1。
第4步:写出词频向量
语句A:[1, 2, 2, 1, 1, 1, 0]
语句B:[1, 2, 2, 1, 1, 2, 1]
到这里,疑问就成为了怎么核算这两个向量的类似程度。
咱们能够把它们幻想成空间中的两条线段,都是从原点([0, 0,
...])动身,指向不一样的方向。两条线段之间构成一个夹角,假如夹角为0度,意味着方向一样、线段重合;假如夹角为90度,意味着构成直角,方向彻底不类似;假如夹角为180度,意味着方向正好相反。因而,咱们能够经过夹角的巨细,来判别向量的类似程度。夹角越小,就代表越类似,如下图所示:




以二维空间为例,上图的a和b是两个向量,咱们要核算它们的夹角θ。余弦定理通知咱们,能够用下面的公式求得:








假定a向量是[x1, y1],b向量是[x2, y2],那么马海祥觉得就能够将余弦定理改写成下面的方式:








数学家也现已证实,余弦的这种核算方法对n维向量也建立。假定A和B是两个n维向量,A是 [A1, A2, ..., An] ,B是 [B1, B2,
..., Bn] ,则A与B的夹角θ的余弦等于:




运用这个公式,咱们就能够得到,语句A与语句B的夹角的余弦,如下图所示:




余弦值越挨近1,就表明夹角越挨近0度,也就是两个向量越类似,这就叫“余弦类似性”。所以,上面的语句A和语句B是很类似的,事实上它们的夹角大约为20.3度。
由此,咱们就得到了“找出类似文章”的一种算法:
(1)运用TF-IDF算法,找出两篇文章的关键字;
(2)每篇文章各取出若干个关键字(比方20个),合并成一个调集,核算每篇文章关于这个调集中的词的词频(为了防止文章长度的区别,能够运用相对词频);
(3)生成两篇文章各自的词频向量;
(4)核算两个向量的余弦类似度,值越大就表明越类似。










[font=Tahoma  ]优质IT资源分享社区为你提供此文。
本站有大量优质SEOSEMSMM MMM 等网络营销相关教程视频,资料等资源,包含SEO SEM SMM
MMM等网络营销基础教程,高级进阶教程等等,教程视频资源涵盖传智播客,极客学院,达内,北大青鸟,猎豹网校等等IT职业培训机构的培训教学视频,价值巨大。欢迎点击下方链接查看。

网络营销教程视频
优质IT资源分享社区(www.itziyuan.top)
一个免费,自由,开放,共享,平等,互助的优质IT资源分享网站。
专注免费分享各大IT培训机构最新培训教学视频,为你的IT学习助力!

!!!回帖受限制请看点击这里!!!
!!!资源失效请在此版块发帖说明!!!

[PS:按 CTRL+D收藏本站网址~]

微信小程序开发

——“优质IT资源分享社区”管理员专用签名~

本版相似帖子

游客