本文主要從Web地圖服務(wù)搜索引擎的工作步驟以及主要工作流程方面闡述了其工作的原理以及體系結(jié)構(gòu)。

　　OGC WMS規(guī)范定義了三個(gè)接口，分別是GetCapabilities、GetMap和GetFeatureInfo。其中前兩個(gè)接口是必須實(shí)現(xiàn)的。GetCapabilities接口用來獲取服務(wù)器元數(shù)據(jù)，它是計(jì)算機(jī)和人都可以理解的、關(guān)于WMS的信息內(nèi)容和可以接受的請(qǐng)求參數(shù)的描述。當(dāng)向一個(gè)WMS服務(wù)器發(fā)送GetCapabilities請(qǐng)求時(shí)，返回服務(wù)級(jí)元數(shù)據(jù)的XML文檔，是對(duì)服務(wù)信息內(nèi)容和可接受請(qǐng)求參數(shù)的一種描述。這些文檔是根據(jù)Web地圖服務(wù)規(guī)范所規(guī)定的DTD的格式編寫的，同時(shí)，文檔中各圖層都是以相同的方式進(jìn)行描述的。這樣，我們就可以對(duì)服務(wù)器返回的信息做統(tǒng)一的處理。

　　基于上述分析，在理論上，我們可以讓一個(gè)高效的網(wǎng)絡(luò)蜘蛛程序?qū)ヂ?lián)網(wǎng)中所有的URL發(fā)送GetCapabilities請(qǐng)求。通過對(duì)響應(yīng)信息的分析來判斷對(duì)方是否是符合OGC WMS規(guī)范的網(wǎng)絡(luò)地圖服務(wù)器。這樣，我們就可以提取出整個(gè)互聯(lián)網(wǎng)中幾乎所有的WMS服務(wù)器信息。Web地圖服務(wù)搜索引擎主要有如下兩個(gè)步驟：

　　(1)從互聯(lián)網(wǎng)上發(fā)現(xiàn)、搜集有用URL信息，利用高性能的Spider程序去自動(dòng)地在互聯(lián)網(wǎng)中搜索信息。“網(wǎng)絡(luò)蜘蛛”工作的方式，是查看一個(gè)頁面，并從中提取出相關(guān)URL詳細(xì)，然后它再從該頁面的所有URL中出發(fā)，爬行到相關(guān)頁面，重復(fù)這過程，直到把爬過的所有URL信息都收集回來。

　　(2)對(duì)收集回來的所有URL地址都發(fā)送一個(gè)符合GetCapabilities規(guī)范的HTTP請(qǐng)求，收集所有的請(qǐng)求響應(yīng)文檔。對(duì)響應(yīng)文檔進(jìn)行解析，再以結(jié)構(gòu)化的形式將其存儲(chǔ)到本地?cái)?shù)據(jù)庫中供用戶檢索。

　　上面簡(jiǎn)述了Web地圖服務(wù)搜索引擎的工作原理，從這里不難看出Web地圖服務(wù)搜索引擎的基本構(gòu)成是URL搜索器(Web Spider)、WMS響應(yīng)文檔解析與存儲(chǔ)器和用于結(jié)構(gòu)化存儲(chǔ)WMS服務(wù)器元數(shù)據(jù)信息的Capabilities數(shù)據(jù)庫。Web地圖服務(wù)搜索引擎體系結(jié)構(gòu)如圖3-1所示。

　　圖3-1 Web地圖服務(wù)搜索引擎體系結(jié)構(gòu)圖

　　URL搜索器主要負(fù)責(zé)從互聯(lián)網(wǎng)中搜索到所有可以搜索到的URL鏈接地址，并將其儲(chǔ)存到臨時(shí)數(shù)據(jù)庫中。URL搜索器主要以一個(gè)網(wǎng)絡(luò)蜘蛛為基礎(chǔ)，周期性的對(duì)整個(gè)互聯(lián)網(wǎng)進(jìn)行全面的爬行。

　　WMS響應(yīng)文檔解析與存儲(chǔ)器主要負(fù)責(zé)對(duì)臨時(shí)數(shù)據(jù)庫中的URL發(fā)送符合GetCapabilities規(guī)范的HTTP請(qǐng)求，判斷出有效的WMS鏈接，再對(duì)WMS響應(yīng)文檔進(jìn)行解析，并提取出相關(guān)的信息存儲(chǔ)于Capabilities數(shù)據(jù)庫中。

　　Capabilities數(shù)據(jù)庫負(fù)責(zé)以結(jié)構(gòu)化的形式儲(chǔ)存和管理WMS原數(shù)據(jù)信息。

　　WEB地圖服務(wù)搜索引擎的主要工作流程是：首先從網(wǎng)絡(luò)蜘蛛開始，Spider程序每隔一定的時(shí)間自動(dòng)啟動(dòng)并讀取網(wǎng)頁URL服務(wù)器上的URL列表，抓取各URL所指定的網(wǎng)頁，解析出該網(wǎng)頁中的URL地址，并將當(dāng)前頁上的所有超鏈接存入到URL服務(wù)器中。在進(jìn)行網(wǎng)頁抓取的同時(shí)，對(duì)當(dāng)前URL地址發(fā)送GetCapabilities請(qǐng)求，再由WMS響應(yīng)文檔解析儲(chǔ)存器對(duì)響應(yīng)文檔進(jìn)行解析然后將解析結(jié)構(gòu)以結(jié)構(gòu)化的形式存入數(shù)據(jù)庫。（李軒）