首先明确几个概念:
第一个概念:图像搜索,包括两类,一类是文本搜图像,输入为文本,输出为图像,大部分常见的图像搜索引擎都是用文本搜图像;另外一类是以图搜图,输入是图像,输出也是图像,这个问题问的应该是以图搜图;
对于以图搜图而言,需要明确第二个概念,什么是相同图像?一副图像,可能会被编辑修改,包括图像格式、编码方式、图像分辨率改变,也包括裁剪、加不同文字、水印、加噪声和亮度色度调整等操作,因此,相同图一般会定义为near-duplicate图像,也就是说,认为同一幅图像经过一系列变化后,得到的图像都认为是相同图。
第三个概念是相似图,这个概念不好定义,很主观,这里简单定义为如果两幅图像,不是由一副图像变化而来,但是,其包含的内容被人认为会有相近之处,则认为是相似图像,比如,同一个物体从不同角度拍摄的两幅图像,或者都是飞机翱翔与天空的照片,或者都是一个草地上羊群的照片。从图搜图这个应用的角度,只要用户觉得输出的图像和输入图像在语义上有关联,能产生某种共鸣就可以认为是相似图,比如都是很有趣的图像也可以看作是相似图;
下面,我先回答第二个问题;为什么现在还没有搜图引擎?
目前以图搜图的搜索引擎是存在的,我认为最好的是google的http://image.google.com,最近刚刚上线的版本效果很赞,其新特点是,第一,支持给出相近图功能,其解决了以前的图搜图引擎无法找不到相同图情况下,会没有结果返回的情况,这对于搜索引擎而言是很不好的用户体验;第二,支持拖拽功能,宋美也提到了,这一点也是很好的用户体验;第三,数据库很大,google的数据库在10b张以上(仅仅是个人估计),所以,大部分图片都有结果返回;第四,提供图片附近的相关文字(这个功能其它引擎也有,不算是新特性,但是很重要,因为,这是图像已经作为信息的一种载体了);
除了google,影响较大的是tineye,效果上主要是不具备google的上述前三个特点,此外还有Gazopa,以及以颜色搜图像的http://labs.ideeinc.com/multicolr/,微软还有个基于手绘骨架(sketch)搜索的MindFinder(当然这个还是个实验室产品);国内,主要是百度识图,以及淘宝相关支持图像搜商品的taotaosou或者图想,但是这些效果都不是很理想;
关于第一个问题,余弦定理我理解应该指的是余弦距离(cos)吧,这一点我和陈义的观点有点不同,探讨一下。对于图搜图这个应用而言,通常的商用引擎数据规模至少到要b才好用,需要计算输入图像和库里面索引图像的距离,如果采用余弦距离这种距离度量,在特征维度几百的情况下,运算量基本就是无法接受的了。所以,真正的商用引擎肯定不会用余弦距离来定义两幅图像之间的距离。一般情况,会采用visual word和向量空间模型的方式,然后进行bit化,将每维特征转换为一个bit,然后距离一般也会转换为计算bit之间是否相同的方式,当然大的框架上,还有有由粗到精的机制。
关于图搜图的优势,和大家探讨:
图像作为输入方式的主要优势在于,能够表达很隐晦不容易用文字表达的意图,比如,看到一双鞋子,如果不知道牌子其实是很难在网上找到的,但是,如果用图像则可以比较容易找到,对于衣服等也是这样。此外,也存在找到一张老照片,想了解其相关的历史故事或者知识的情况,比如抗战时期的一张照片,通过图像搜索很可能会找到其相关的网页和背景知识。
此外,移动互联网时代,手机拍照变得十分容易,手机图像作为一种输入方式,在一位维形码和二维条形码上已经有很多成熟应用,手机输入一定不会局限于这两种技术,还会有其它的相关产品出现;
图搜图的用途:
1,用于版权保护和封禁内容,这一点对于图像搜索和视频搜索都试用,可以找到是否有人在冒用你的图片或者视频,对于商家也可以通过图像找到是否有用户在销售你的商品,此外,对于一些国家禁止的内容,包括色情和反动,图搜图和视频检索都有用武之地;
2,用于商品搜索;
3,用于获取图像相关信息;
4,寻找相近图像进行浏览或者寻找相近素材,比如由低分辨率图像找到高分辨率图像,又加水印图像寻找原始版本图像;
当然以图搜图技术目前还不是很成熟,难度很大,但是,这是一个方向。大家可以试用一下http://image.google.com,这基本代表了目前图搜图的最高水平。
参考:
1,http://blog.sina.com.cn/s/blog_4caedc7a0100lr8w.html
2,http://irising.me/2011/06/4823/
3,http://www.paigus.com/37.html
感兴趣可以搜索他的微博和站酷。
下图作品名称:草地上的船、午间读书会、大雪过后、金色池塘、
做一个梦、在远方、仲夏日之梦、我的小小天堂
随便一个可以提现的狗屁软件(电子钱包啊,各种赚钱兼职App啊)都需要这样的实名照片,员工数据库随便就可以拷贝走,你说呢…
匿名用户说是“示例图片”。太以偏概全了。示例图片的比例最多不超过20%。剩下的都是真实【手持身份证】照片。属于可以直接通过大部分低等级网站身份验证的程度(网银/支付宝/网商银行等大概率不过,因为还需要同时绑定该身份证的银行卡。而银行有柜台操作会卡掉假身份证)。
一些假身份滥用严重的地方(典型如虚拟货币交易所的KYC身份验证,几乎都是假身份)甚至能出现找10张,张张都被“已经注册”的情况。
对于没有大陆身份证,同时需要使用大陆网站又不想把身份信息泄露人来说。百度【手持身份证】非常好用。
而且即便搜索不出来,大陆人的身份信息也非常便宜。通常1~5rmb即可买到全套。批发的话价格甚至能低至几毛一套。
webp格式的图片在于体积小。
WebP 无损压缩比 PNG小 26% ,有损压缩比 JPEG小 25-34% 。对于使用大量图片的网站,切换成webp格式图片能减少网络传输的流量,并减少宝贵的几毫秒加载时间。
WebP 的另一个主要优势是它的多功能性——它结合了透明度和动画。这很重要,因为通常您找不到相同格式的这些功能:在 WebP 之前,您必须将 PNG 用于透明背景,将 GIF 用于动画,并且不能同时支持两者。
对于百度这种体量的网站来说,每小1KB的体积都是巨大的流量节省,这都是白花花的银子。
好了,本次科普就到这里,如果你还有其他想要了解的知识,给我们留言吧,我们会在第一时间进行回答哟~
关注我们了解更多资讯