教妳使用solr搭建妳的全文檢索

　Solr 是壹個可供企業使用的基於 Lucene 的開箱即用的搜索服務器對Lucene不熟？那麽建議先看看下面兩篇文檔

　實戰Lucene 第部分初識 Lucene lo lucene /

　用Lucene加速Web搜索應用程序的開發 lucene /

　 壹 solr介紹

　solr是基於Lucene Java搜索庫的企業級全文搜索引擎目前是apache的壹個項目它的官方網址在 solr需要運行在壹個servlet 容器裏例如tomcat solr在lucene的上層提供了壹個基於HTTP/XML的Web Services 我們的應用需要通過這個服務與solr進行交互

　 二 solr安裝和配置

　關於solr的安裝和配置這裏也有兩篇非常好的文檔作者同時也是 Lucene Java 項目的提交人和發言人

　使用Apache Solr實現更加靈巧的搜索 solr /l

　 solr /l

　下面主要說說需要註意的地方

　Solr的安裝非常簡單下載solr的zip包後解壓縮將dist目錄下的war文件改名為solr war直接復制到tomcat 的webapps目錄即可註意壹定要設置solr的主位置有三種方法我采用的是在tomcat裏配置java p/env/solr/home的壹個JNDI指向solr的主目錄（example目錄下）建立/tomcat /conf/Catalina/localhost/solr xml文件

　觀察這個指定的solr主位置裏面存在兩個文件夾 conf和data 其中conf裏存放了對solr而言最為重要的兩個配置文件schema xml和solrconfig xml data則用於存放索引文件

　schema xml主要包括types fields和其他的壹些缺省設置

　solrconfig xml用來配置Solr的壹些系統屬性例如與索引和查詢處理有關的壹些常見的配置選項以及緩存擴展等等

　上面的文檔對這兩個文件有比較詳細的說明非常容易上手註意到schema xml裏有壹個

　的配置這裏將url字段作為索引文檔的唯壹標識符非常重要

　 三加入中文分詞

　對全文檢索而言中文分詞非常的重要這裏采用了qieqie庖丁分詞（非常不錯））集成非常的容易我下載的是 alpha 版本其中它支持最多切分和按最大切分創建自己的壹個中文TokenizerFactory繼承自solr的BaseTokenizerFactory

　/** * Created by IntelliJ IDEA * User: ronghao * Date: * Time: : : * 中文切詞對庖丁切詞的封裝 */ public class ChineseTokenizerFactory extends BaseTokenizerFactory { /** * 最多切分默認模式 */ public static final String MOST_WORDS_MODE = most words ; /** * 按最大切分 */ public static final String MAX_WORD_LENGTH_MODE = max word length ; private String mode = null; public void setMode(String mode) { if (mode==null||MOST_WORDS_MODE equalsIgnoreCase(mode) || default equalsIgnoreCase(mode)) { this mode=MOST_WORDS_MODE; } else if (MAX_WORD_LENGTH_MODE equalsIgnoreCase(mode)) { this mode=MAX_WORD_LENGTH_MODE; } else { throw new IllegalArgumentException( 不合法的分析器Mode 參數設置: + mode); } } @Override public void init(Map args) { super init(args); setMode(args get( mode )); } public TokenStream create(Reader input) { return new PaodingTokenizer(input PaodingMaker make() createTokenCollector()); } private TokenCollector createTokenCollector() { if( MOST_WORDS_MODE equals(mode)) return new MostWordsTokenCollector(); if( MAX_WORD_LENGTH_MODE equals(mode)) return new MaxWordLengthTokenCollector(); throw new Error( never happened ); } }

　在schema xml的字段text配置裏加入該分詞器

　< *** yzer type= index >

　</ *** yzer>

　< *** yzer type= query >

　</ *** yzer>

　</fieldtype>

　完成後重啟tomcat 即可在

　體驗到庖丁的中文分詞註意要將paoding *** ysis jar復制到solr的lib下註意修改jar包裏字典的home

　 四與自己應用進行集成

　Solr安裝完畢現在可以將自己的應用與solr集成其實過程非常的簡單應用增加數據——>根據配置的字段構建add的xml文檔——>post至solr/update

　應用刪除數據à根據配置的索引文檔唯壹標識符構建delete的xml文檔——>post至solr/update

　檢索數據à構建查詢xml—>get至/solr/select/——>對solr返回的xml進行處理——>頁面展現