搜索引擎对相似图片搜索识别的原理-网络营销-优质IT资源分享社区

yutingzhidong
总版主
总版主
  • UID2
  • 粉丝22
  • 关注1
  • 发帖数11
  • 社区居民
  • 忠实会员
  • 原创写手
阅读:256回复:0

搜索引擎对相似图片搜索识别的原理

楼主#
更多 发布于:2016-06-14 11:51

 最近一个朋友在跟我聊网站流量的时候,说他的前段时刻刚做了一个图像网站,经过3个月的奋斗,流量现已超越800ip了,这让人有点难以想象,不过细细想来也有也许是因为baidu的2013年星火计划的因素。在前段时刻baidu刚刚发布的《2013年中国网站运营开展趋势陈述》中对2013年网站运营趋势剖析曾清晰标明对图像资本开展的重要性。在列出的四条中也正式声明:
用户对图像的各种需求大幅增加,图像资本也大幅增加,baidu会加大对图像资本的使用与协作
“2012年用户对图像类的需求在高速增加,且互联网中的图像资本也在大幅增加,为了非常好的满足用户体验,且将优异的图像资本非常好的展现给用户,在2013年baidu会加大对图像资本的使用与协作。”
详细概况检查《2012年中国网站开展状况及2013年网站运营开展趋势汇总》。
那么关于咱们这些非专业美工的查找引擎优化人员来说,能够不去学习怎么ps图像,可是必定要知道查找引擎是怎么区分图像的。记住我曾经曾发布一篇《Google图像查找区分技能的原理》的文章,给大家介绍了图像区分技能的原理,今天同样也凭借马海祥博客的平台给大家介绍两种最简略的类似图像查找原理。




一、色彩散布法
每张图像都能够生成色彩散布的直方图(color histogram)。假如两张图像的直方图很挨近,就能够以为它们很类似。




任何一种色彩都是由红绿蓝三原色(RGB)构成的,所以上图共有4张直方图(三原色直方图 + 终究构成的直方图)。
假如每种原色都能够取256个值,那么全部色彩空间共有1600万种色彩(256的三次方)。针对这1600万种色彩对比直方图,核算量真实太大了,因而需求选用简化办法。能够将0~255分红四个区:0~63为第0区,64~127为第1区,128~191为第2区,192~255为第3区。这意味着红绿蓝别离有4个区,一共能够构成64种组合(4的3次方)。
任何一种色彩必定归于这64种组合中的一种,这么就能够统计每一种组合包括的像素数量。




上图是某张图像的色彩散布表,将表中终究一栏获取出来,构成一个64维向量(7414, 230, 0, 0, 8, ..., 109, 0, 0,
3415, 53929)。这个向量即是这张图像的特征值或许叫"指纹"。
所以,寻觅类似图像就变成了找出与其最类似的向量。这能够用皮尔逊相关系数或许余弦类似度算出。
二、内容特征法
除了色彩构成,还能够从对比图像内容的类似性下手。
首要,将原图转成一张较小的灰度图像,假定为50x50像素。然后,断定一个阙值,将灰度图像转成是非图像。




假如两张图像很类似,它们的是非概括应该是附近的。所以,疑问就变成了,第一步怎么断定一个合理的阙值,准确出现照片中的概括?
显着,前景色与背景色反差越大,概括就越显着。这意味着,假如咱们找到一个值,能够使得前景色和背景色各自的“类内区别最小” (minimizing the
intra-class variance),或许“类间区别最大”(maximizing the inter-class
variance),那么这个值即是抱负的阙值。
1979年,日本专家大津展之证实晰,“类内区别最小”与“类间区别最大”是同一件事,即对应同一个阙值。他提出一种简略的算法,能够求出这个阙值,这被称为“大津法”(Otsu's
method)。下面即是他的核算办法。
假定一张图像共有n个像素,其间灰度值小于阙值的像素为 n1 个,大于等于阙值的像素为 n2 个( n1 + n2 = n )。w1 和 w2
表明这两种像素各自的比重。
w1 = n1 / n
w2 = n2 / n
再假定,一切灰度值小于阙值的像素的平均值和方差别离为 μ1 和 σ1,一切灰度值大于等于阙值的像素的平均值和方差别离为 μ2 和
σ2。所以,能够得到
类内区别 = w1(σ1的平方) + w2(σ2的平方)
类间区别 = w1w2(μ1-μ2)^2
能够证实,这两个式子是等价的:得到“类内区别”的最小值,等同于得到“类间区别”的最大值。不过,从核算难度看,后者的核算要容易一些。
下一步用“穷举法”,将阙值从灰度的最低值到最高值,顺次取一遍,别离代入上面的算式。使得“类内区别最小”或“类间区别最大”的那个值,即是终究的阙值。




有了50x50像素的是非缩略图,就等于有了一个50x50的0-1矩阵。矩阵的每个值对应原图的一个像素,0表明黑色,1表明白色。这个矩阵即是一张图像的特征矩阵。
两个特征矩阵的不一样之处越少,就代表两张图像越类似。这能够用“异或运算”完成(即两个值当中只要一个为1,则运算成果为1,不然运算成果为0)。对不一样图像的特征矩阵进行“异或运算”,成果中的1越少,即是越类似的图像。








[font=Tahoma  ]优质IT资源分享社区为你提供此文。
本站有大量优质SEOSEMSMM MMM 等网络营销相关教程视频,资料等资源,包含SEO SEM SMM
MMM等网络营销基础教程,高级进阶教程等等,教程视频资源涵盖传智播客,极客学院,达内,北大青鸟,猎豹网校等等IT职业培训机构的培训教学视频,价值巨大。欢迎点击下方链接查看。

网络营销教程视频
优质IT资源分享社区(www.itziyuan.top)
一个免费,自由,开放,共享,平等,互助的优质IT资源分享网站。
专注免费分享各大IT培训机构最新培训教学视频,为你的IT学习助力!

!!!回帖受限制请看点击这里!!!
!!!资源失效请在此版块发帖说明!!!

[PS:按 CTRL+D收藏本站网址~]

微信小程序开发

——“优质IT资源分享社区”管理员专用签名~

本版相似帖子

游客