图像的检索技术毕业设计

第一章前言

随着多媒体技术及 Internet网络的迅速发展，图像来源不断扩大，大容量高速存储系统为图像的海量存储提供了基本保障，各行各业对图像的使用越来越多，图像信息资源的管理和检索也就显得越来越重要。但由于Internet 本身结构上、管理上的问题，想要在Internet 准确、快速、全面地找到自己所想要的图像，却变成了件非常不容易的事。

由于Internet现有的问题：内容没有结构；网上信息量庞大且还在不断的增加。因此，网络产生了搜索引擎。虽然这些给网络用户提供了不少的帮助，但由于但离准确、快速、全面地搜索自己所要的图像还相当遥远，所以对图像检索还要作很大的研究。

根据国内外现有的搜索引擎和国际上的有关研究小组的种种资料表明，现有的网络资源和搜索引擎有如下特点：

(1)索引的数据种类丰富，如文字、图像、声音等多媒体。数据的存取协议也是多种多样的，如HTTP、FTP、News、Gopher等；

(2)索引数据量大，以致不可能有某个数据库能包括整个Internet的索引，目前最大的搜索引擎，其中的索引也只不过覆盖了Internet的一小部分；

(3)资源消耗太大，系统需要将HTML文件传送至本地然后分析，大量占用昂贵的网络带宽和CPU资源，增加被搜索结点的负担。另外由于现有的搜索引擎一般是集中式的，所以搜索引擎服务器本身的硬件配置也极高，才能处理庞大的数据量和及时地响应用户的查询请求；

(4)不能有效解决索引失效问题，很多时候，搜索引擎会返回无效的查询结果；

(5)各检索工具各行其事，不能相互协作，在一定意义上讲是一种资源的浪费。

1.2现有的图像检索技术 

近年来随着用户对网上图像搜索要求的不断增长，各种图像搜索引擎应运而生，它们各自以不同的工作方式为用户提供各种检索途径，使网上图像信息的搜索变得非常简单，尽管还不很完善，却已经可以满足用户的大多数要求。

1.2.1搜索引擎的工作原理

最基本的搜索引擎的结构，是由Spider不停地从Web网上收集数据，存放在搜索引擎的数据库中。用户通过搜索引擎服务器上的Web接口，提出搜索请求，Web Server通过CGI或其它技术访问数据库，并将用户的搜索请求转换成相应的数据存取语句，送给数据库引擎处理，并把查询结果通过网页显示给用户。

网络搜索的基本原理是通过网络机器人定期在web网页上爬行，然后发现新的网页，把它们取回来放到本地的数据库中，用户的查询请求可以通过查询本地的数据库来得到。

一般来说网络信息检索的实现机制一般有两种，一种是通过手工方式对网页进行索引，它的缺点是Web的覆盖率比较低，同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配，而不是通过全文的匹配进行的。第二种是对网页进行自动的索引，这种能实现自动的文档分类，实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。

在现在所有运行的搜索工具来说，一般都有一个Robot定期的访问一些站点，来检查这些站点的变化，同时查找新的站点。一般站点有一个robot.txt文件用来说明服务器不希望Robot访问的区域，Robot 都必须遵守这个规定。如果是自动索引的话，Robot在得到页面以后，需要对该页面根据其内容进行索引，根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的，典型的元数据包括标题、IP地址、一个该页面的简要的介绍，关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有一定的标准，但是很多站点都采用自己的模板。文档提取机制和索引策略对Web搜索引擎的有效性有很大的关系。高级的搜索选项一般包括：布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。同时包括该文档所在的URL地址。

另外有一些关于某一个主题的专门的引擎，它们只对某一个主题的内容进行搜索和处理，这样信息的取全率和精度相对就比较高。

目前，图像搜索引擎主要通过以下两种方法识别图像：

(1)自动查找图像文件。通过两个HTML标签，即IMGSRC和HREF来检测是否存在可显示的图像文件，IMGSRC表示“显示下面的图像文件”，导向的是嵌入式图像；而HREF则表示“下面是一个链接”，导向的是被链接的图像。搜索引擎通过检查文件扩展名来判断其导向的是否为图像文件，如果文件扩展名是.gif或.jpg，即是一个可显示的图像。

(2)人工干预找出图像。进行分类，由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系，但劳动强度太大，因此要限制处理图像的数量。

由于图像不同于文本，需要人们按照各自的理解来说明其蕴含的意义，因此图像检索比文本的查询和匹配要困难得多。

1.2.2 图像搜索引擎的检索途径

1.关键词检索

传统的图像检索技术是基于关键字的精确匹配检索，系统内的图像用关键字标识，检索线索是与标识相一致的关键字，即输入是关键字，输出是图像。它又包括两种途径：

(1)基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索，这是目前图像搜索引擎采用最多的方法。在找出图像文件后，图像搜索引擎通过查看文件名或路径名确定文件内容，也可以通过查看图像的标题来匹配检索词。

(2)基于手工标注的检索。手工对图像的内容（如物体、背景、颜色等）进行描述并分类，将其标注为一系列关键字，并建立索引。检索时，将主要在这些描述词中搜索用户输入的关键字。这种查询方式是比较准确的，一般可以获得较好的查准率，但需人工参与，劳动强度大，因而限制了可处理的图像数量。另外，由于图像所包含的信息量庞大，不同用户对于同一张图像的看法又不尽相同，导致了对图像的标注缺乏统一标准。

2. 图像可视属性的检索

而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜色、形状、纹理等特征，建立特征索引库，其输入为用户要查找的图像的大致特征描述或示例，通过一定相似性匹配规则，输出为与之具有相近特征的图像，按相似程度排列，供用户选择，从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题，交由系统去解决。

这是一种基于图像本身特征层次的检索，特别适用于检索目标明确的查询要求，但目前这种较成熟的检索技术主要应用于图像数据库的检索。在图像搜索引擎中应用这种检索技术还有一定困难，但己有部分图像搜索引擎尝试了这种检索方法。

1.2.3对几个基本引擎的分析

(1)InfoSeek是一个简单但是功能强大的索引，它的一个优点是有一个面向主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题短语相互参照，而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关性。同时它也支持对图象的查询。它能够漫游Web,Usenet,Usenet FAQs等等。不支持布尔操作，但是可以使用符号"+"和"-"。

(2)AltaVista 是一个大容量的，基于Robot 索引的Search Engine。它能帮你在WWW网上搜索你所需要的网页，新闻组，图像，视频音频片段。AltaVista 还支持多种语言和简单的自然语言查询。AltaVista 覆盖面约为WWW 网上可索引的网页的30%

(3)Scour成立于1998年，自称是第一个基于web的多媒体搜索引擎。虽严格讲，它并非是一个图像搜索引擎，但可以将检索限制在图像搜索上。

它的工作原理是在文件名、路径名或ALT标签中搜索检索词。主要使用关键词检索，可以用"＋"或"－"来增加或排除关键词，使用尽可能少的关键词会更有效。在高级检索中，可以将检索结果图像限制在GIF、BMP、JPEG等格式中。检索结果显示简图、图像类型（如GIF、BMP）、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等，并同时给出图像文件的URL和源站点的URL。

主要缺陷是标引深度不足，查准率较低，但查全率较好。

(4) 这是由NCRTEC组织开发的一个"真正人工建立的完全的关键词式索引"。 Amazing Picture Machine后面的教师负责选择图像丰富的站点，然后对每幅选定的图像内容进行描述，给出关键词。因此它的最大特点就是人工干预，关键词检索是主要的检索手段。

Amazing Picture Machine的搜索结果将显示一个简短的标题、有关图像的说明（如彩色或黑白）、文件的大小、文件类型及象素多少等，但不显示简图。单击该标题可得到原图像，但需由该URL回溯才能找出源站点。

由于人工干预检索过程，它的查准率极好，但这也限制了它的查全率。它的检索范围很有限，只包括web上人工选择的部分站点。

(5)Lycos对所收录的图像进行了详尽的内容描述，并支持短语检索，从而使其查准率大大提高。它根据文件扩展名识别图像，在描述词、文件名、目录名或ALT字段中查询检索词。结果显示的信息极为丰富，包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。点击简图将得到原图及更多的信息，如著作权人和更多的相关图像。比较而言它的检索效果很好，速度也很快。

1.2.4 搜索引擎的基本要点

(1)索引文档的容量：现在最大的搜索引擎可能包含了超过100,000,000个链接，但这也只是整个Web网上的一小部分。因为收集资料的Robot，只能从“已知”的链接开始收集网页资料，而只有一小部分Web网页和这些“已知”的网页有连接；现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引；

(2)覆盖面：地理覆盖面和主题覆盖面；

(3)索引更新频率：不同的搜索引擎，索引更新频率相差很大，有的是几周，有的是一年。索引更新频率有两种定义，一种比较少用的定义是新的网页能被收录进索引数据库中，另一种是同一页多少时间才被检查一次，有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作；

(4)采集过程：采集过程有宽度优先、深度优先两种算法；一般认为宽度优先对扩大内容的覆盖面有利，深度优先算法有助于提供更多的细节资料；

(5)索引算法：有的搜索引擎只处理元标记和一小部分文档内容，而有一些搜索引擎则是对全文进行索引；

(6)结果显示：有的搜索引擎只显示网页的标题，有些则有更详细的一些信息，比如网页的内容，更新日期等；

(7)查询算法：一个优秀的查询算法是很重要的，最基本的布尔查询，短语查询，有的搜索引擎还提供指定属性的查询，比如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法；

(8)用户界面：很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例。

1.3 图像检索的发展方向

图像检索技术给用户提供了一个在互联网上搜索感兴趣图像资源的有效手段，基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中，出现了三个不同的研究着眼点。

(1)基于文本的检索研究

立足于文本，对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。

(2)基于内容的检索研究

立足于图像内容，对图像进行分析和检索。相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。不过，基于内容的图像检索建立在多媒体信息的内容语义上，能够更为客观地反映媒体本质的特征。

(3)基于文本内容结合的检索研究

结合文本和内容，二者虽侧重不同但却互相补充。如果能将二者结合起来取长补短，则网络的图像检索技术必有新的进展。已有的图像搜索引擎在信息的自动加工和标引方面都有待提高，需要开发出计算机自动识别和标引图像的算法和技术，以完善现有的检索功能，并与已有的成熟的图像库检索技术相结合，这是今后应该研究的一个课题。而且，图像库检索技术也应面向网络，利用网络技术进行改造，提供新的WWW访问界面代替原来的应用系统界面。同时将巨大的图像库资源利用网络实现共享

(4)对基于内容编码技术的研究

可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。

目前，国际上还没有通用的基于内容的编码标准。20世纪90年代初，国际上就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索，到综合利用多种图像特征进行检索，大量原型系统已经推出，其中，部分已投入到实际应用中以检验其有效性。同时，MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中，即将成为国际标准中的一员。因此，应尽快对MPEG-7标准进行研究，分析其编码的实质，在此基础上进一步研究基于内容检索的系统，使我国基于内容的图像检索尽快走向实际应用阶段。

(5)对用户查询接口的研究

这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性，人在系统中是主动的。除了提供示例和描绘查询基本接口之外，用户的查询接口应提供丰富的交互能力，使用户在主动的交互过程中表达对图像语义的感知，调整查询参数及其组合，最终获得满意的查询结果。用户的查询接口应该是直观易用的，底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量，如何从交互过程中获取用户的内容感知，以便选择合适的检索特征等问题。

一个优秀的搜索引擎必须处理以下几个问题：

(1)网页的分类

(2)自然语言的处理

(3)搜索策略的调度和协作

(4)面向特定用户的搜索。

因此，现在有很多的网络检索工具，也就是说搜索引擎采用了智能的检索手段来增强它的检索能力，而图片检索正是其中的一大块内容。

随着网上多媒体的广泛应用，对图像的检索需求将会越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化，图像信息的加工、处理和检索标准的出台，网上的图像检索技术将会日趋完善，而图像搜索引擎也将成为Internet上的新宠。

第二章基于Web的图像搜索

在网络技术和计算机技术高速发展、多媒体应用越来越普及的现在，图像检索和图像应用已成了如今网页中不可缺少的重要部分。在能够实现对网页中文本信息提取的同时，如何再为用户抽取所需的图片资料是信息检索中一个值得研究的问题。现有的检索技术基于关键词匹配进行检索，往往存在查不全、查不准、检索质量不高的现象，特别是在网络信息时代，利用关键词匹配很难满足人们检索的要求。当然现在的人们也可以利用图像的内容特征去搜索所需的图片信息，但现在这项技术就是到现在也还不够成熟，其搜索效率还是不能令人满意。

如今在Web中处理图像检索有很多成熟的技术，如基于Web的数据仓库、Web数据挖掘、Web数据源集成技术等。为此，必须为Web建立适当的数据模型，利用数据模型有效地从Web中获取信息。为了处理Web的中文数据，还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等，其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。实现上述技术需要扎实的积累和自然语言处理功底。

而如何利用现有成熟的传统的图片检索手段，研究出快捷方便而且能迅速提高检索效率的方法，本文将依据现有的搜索引擎和检索手段的研究找到网页中文本与图像之间的内在特点和联系，改进原有的文本搜索使用的模式和方法，提出新的文本相似的匹配算法，并引入检索的反馈技术，把这些技术引入到图像检索中，使得搜索手段更易于实现和提高检索效率。

2.1文本与图像之间的关系

在文本检索中，搜索引擎主要考虑Web页中相关文字信息以及它的语义，这些文本信息反映出网页的内容，但不完全与网页中图片的内容一致。在HTML网页中，根据HTML语言的格式，捕获反映图片信息的文字信息，分析这些文本的语义具有重要的意义。如在HTML文档中<img>标记以及其周围的文字信息，与网页中的插图的内容有着密切的联系。

2.1.1表示图像内容的文本标记

为了能识别嵌入网页中图片的内容，必须仔细检索HTML文档中能反映出图像内容的标记与其中的文本。经过对HTML网页格式的分析与对大量实际网页的研究，可知以下几个方面的标记与文本和图像内容有着最为密切的联系。

(1)图像的说明，这些文本出现在图像的周围，用一句过多句话表示出图像的内容，当图像被置于表格中时，同一单元或相邻单元格内的文字也常用与表示图像的含义。

(2)图像的标题，通常用一个关键词表示图像信息。

(3)图像的标签，使用一段短语说明图片的摘要信息，图片无法显示时用标签的文本取代图片，显示摘要信息。

(4)网页的标题，该标题反映出网页的中心内容，作为表现网页内容的图片与网页的标题之间也有着一定的联系。

以上讨论的是HTML中文档和嵌入网页中图像文本信息的关系，当然还存在其他的文本与多媒体信息和图像有关。但是作为搜索引擎要考虑的方面，既要保证抽取信息的准确性，也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据，会引入检索时的躁声干扰，降低搜索效率。

2.1.2 文本的权值比较

以上讨论了网页中对图像信息的描述，在图像的检索中，首先是要建立描述图片内容特征的查询语句，然后比较、区分描述信息与查询语句之间的异同，获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度，同时与图像信息的联系程度也不一样。图像标题和网页标题是简单的词条，两者中相对来说图像标题更接近图像的主题内容。图像的标签和图像的说明是文本信息对图像内容的描述，后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要求时，它们所占的权值应该是有所不同的。根据信息的重要程度，他们所占的权值大小按次序如下：

Image Caption>Image Title>Image Alternate>Page Title

2.2 图像信息检索

Web搜索引擎采用何种检索模型，它所提供检索质量将直接影响到检索的效果。现在使用较多的是布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型。这里采用的是近年来使用较多且效果较好的一种信息检索模型：向量空间模型。

2.2.1 检索模型与相似度

在用向量空间模型进行检索的时候，首先把描述网页中的图片的文字信息看作是有序的词条序列，这样把以上归纳的信息分别称为：ICW，ITW，IAW，PTW。在应用模型时，我首先要将这些信息向量化，把文档映射为一个特征向量V(d)=(t₁,ω₁(d)；…；t_n, ω_n(d))，其中t_i(i=1,2, …,n)为一列互不雷同的词条项，ω_i(d)为t_i在d中的权值, 一般被定义为t_i在d中出现频率tf_i(d)的函数，即