Ⅰ solr索引tika文件時txt的中文無法import
注意,txt文件編碼請保證是UTF-8編碼,默認txt文件的編碼是GBK,掃描之前最好進行轉碼
Ⅱ solr 5.x 中文分詞哪個好
這個問題簡單說來就是,對於一個連續的中文query,queryparser將Analyzer返回的Term序列構成了PhraseQuery(也有可能是MultiPhraseQuery),而PhraseQuery默認的匹配規則是要求Term序列在索引的文檔中完全順序匹配。這對於英文查詢來說是可以接
Ⅲ solr3.5.0怎麼操作pdf
PDF全稱Portable Document Format,是一種電子文件格式。這種文件格式與操作系統平台無關,也就是說,PDF文件不管是在Windows,Unix還是在蘋果公司的Mac OS操作系統中都是通用的。這一特點使它成為在Internet上進行電子文檔發行和數字化信息傳播的理想文檔格式。越來越多的電子圖書、產品說明、公司文告、網路資料、電子郵件開始使用PDF格式文件。PDF格式文件目前已成為數字化信息事實上的一個工業標准。
Adobe公司設計PDF文件格式的目的是為了支持跨平台上的,多媒體集成的信息出版和發布,尤其是提供對網路信息發布的支持。為了達到此目的, PDF具有許多其他電子文檔格式無法相比的優點。PDF文件格式可以將文字、字型、格式、顏色及獨立於設備和解析度的圖形圖像等封裝在一個文件中。該格式文件還可以包含超文本鏈接、聲音和動態影像等電子信息,支持特長文件,集成度和安全可靠性都較高。
PDF文件使用了工業標準的壓縮演算法,通常比PostScript文件小,易於傳輸與儲存。它還是頁獨立的,一個PDF文件包含一個或多個「頁」,可以單獨處理各頁,特別適合多處理器系統的工作。此外,一個PDF文件還包含文件中所使用的PDF格式版本,以及文件中一些重要結構的定位信息。正是由於 PDF文件的種種優點,它逐漸成為出版業中的新寵。
對普通讀者而言,用PDF製作的電子書具有紙版書的質感和閱讀效果,可以「逼真地」展現原書的原貌,而顯示大小可任意調節,給讀者提供了個性化的閱讀方式。由於PDF文件可以不依賴操作系統的語言和字體及顯示設備,閱讀起來很方便。這些優點使讀者能很快適應電子閱讀與網上閱讀,無疑有利於計算機與網路在日常生活中的普及。Adobe公司以PDF文件技術為核心,提供了一整套電子和網路出版解決方案,其中包括用於生成和閱讀PDF文件的商業軟體Acrobat和用於編輯製作PDF文件的Illustrator等。 Adobe還提供了用於閱讀和列印亞洲文字,即中日韓文字所需的字型包。
以下介紹的是PDF( Portable Document Format )常用的工具。
PDF閱讀工具
官方閱讀工具:Adobe Acrobat Reader 中文版
類型:免費軟體
主頁:adobe.com
支持的平台:Windows 系列/移動平台/MAC/Unix/Linux
簡介:
官方出品的閱讀器,允許閱讀PDF文檔,填寫PDF表格,查看PDF文件信息。穩定性和兼容性好。缺點是體積龐大,啟動速度慢。
最佳替代工具:Foxit Reader
類型:免費軟體
主頁:foxitsoftware.com
支持的平台:Windows 系列/移動平台/Linux
簡介:
能實現絕大部分的閱讀功能。綠色軟體,無需安裝。體積小巧,不到2M。
Ⅳ 請問 solr 中文分詞使用那種好
IKAnalyzer更新比Paoding快。現在可以支持Solr3.4。
Ⅳ java框架solr用哪個版本的好
solr-4.10.2,當下幾個出名的分詞器IKAnalyzer已支持該版本。現在開發的產品需要使用搜索功能,lucene是首選,於是再度研究了一翻,沒有多大難度。同時也不在直接使用lucene庫,而是使用solr,大大簡化了創建索引與查詢索引的難度。solr這種分布式索引方式對性能的控制更加有把握,因為它支持多核、復制功能,我們還可以寫代碼實現讀寫分離等性能擴展功能。itJob
Ⅵ solr3.5中如何用java代碼為PDF,Office等文件添加索引
1、將解壓包中的solr-4.7.1/dist/solr-4.7.1.war復制到tomcat_dir/webapps/目錄,並命名為solr.war。
2、將solr-4.7.1/example/lib/ext/目錄下的jar文件復制到tomcat/lib目錄下,將solr-4.7.1/example/resources/下的log4j.properties文件復制到tomcat_dir/lib目錄下;
切把 solr-4.7.1/example/solr,復制到tomcat_dir/bin下。
3、修改tomcat_dir/conf/server.xml
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8" />
4、創建solr.xml,存放在路徑:tomcat/conf/Catalina/localhost/solr.xml,內容:
<Context path="/solr" docBase="C:\Tomcat 7.0\webapps\solr.war"
debug="0" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="C:\Tomcat 7.0\bin\solr\" override="true" />
</Context>
PS:上面的docBase和value路徑中不能存在中文字元,否則會出現404錯誤。
5、將C:\Tomcat 7.0\webapps下的solr.war包,啟動項目解壓;然後再添加幾個jar包:
solr-4.7.1\dist\solr-dataimporthandler-4.7.1.jar;
solr-4.7.1\dist\solr-dataimporthandler-extras-4.7.1.jar;
還要載入資料庫驅動包:mysql-connector-java-3.1.13-bin.jar
6、在C:\Tomcat 7.0\bin\solr\collection1\conf 下的solrconfig.xml增加以下資料庫配置:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
7、將tomcat\bin\solr\collection1\conf下增加data-config.xml文件,內容如下:
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://192.168.1.221:3306/tmsdb"
user="root"
password="123456"/>
<document name="content">
<entity name="node" query="select id,author,title,content from solrdb">
<field column="id" name="id" />
<field column="author" name="author" />
<field column="title" name="title" />
<field column="content" name="content" />
</entity>
</document>
</dataConfig>
8、增加中文分詞器,ik-analyzer的配置如下:
①目前的中文分詞主要有兩種
1,基於中科院ICTCLAS的隱式馬爾科夫hhmm演算法的中文分詞器,例如smartcn等。(不支持自定義擴展詞庫)
2,基於正向迭代最細粒度切分演算法(正向最大匹配並且最細分詞)例如IK,庖丁等(支持自定義擴展詞庫)
安裝分詞前,可以去下載IK的分詞包 :
IK-Analyzer-4.7.1-0.0.1-SNAPSHOT.jar
下載完畢後,將此包放進tomcat\solr的\WEB-INF\lib下面:tomcat\webapps\solr\WEB-INF\lib 。
下面需要在solr的schemal.xml進行分詞器注冊:
<!-- 配置IK分詞器 -->
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!-- 分詞-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用詞過濾根據情況使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->
</analyzer>
<analyzer type="query">
<!-- 分詞-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用詞過濾根據情況使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->
</analyzer>
</fieldType>
最後還得配置一個引用欄位就OK了
<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>
②它的安裝部署十分簡單,將IKAnalyzer2012.jar部署亍項目的lib目錄中;IKAnalyzer.cfg.xml不stopword.dic文件放置在class根目錄(對於web項目,通常是WEB-I NF/classes目彔,同hibernate、log4j等配置文件相同)下即可 ;然後配置solr4.7中schema.xml配置解析器:
<schema name="example" version="1.1">
……
<fieldType name="text" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>
Ⅶ solr 索引pdf文件,如果去除內容前面的描述信息
只要uniqueKey相同,solr自動會覆蓋的,舉個例子uniqueKey為id 1.舊索引: id:document name:wyc content:hello 2.新索引: id:document name:wyc content:world 提交新索引,就會把舊索引覆蓋掉
Ⅷ solr5和solr4的區別
目前我在項目中用的是4,區別沒看日誌不太清楚,對我而言就是我用的那個中文分詞器,Solr 6版本是不支持的,雖然可以改源碼變成支持
Ⅸ solr有人會的嗎
沒聽說過
Ⅹ solr 6.4.1版本怎麼樣
1 解壓solr壓縮包,得到目錄 solr-6.4.1\server\solr-webapp\webapp
2 在eclipse裡面新建maven項目solr,在把solr-6.4.1\server\solr-webapp\webapp目錄下的所有東西都拷貝到maven項目的src/main/webapp目錄下,因為solr-6.4.1\server\solr-webapp\webapp目錄就相當於maven項目的src/main/webapp目錄。( 注意,此處有的教程錯誤的將solr-webapp文件夾進行拷貝,這會導致solr啟動不了)
3 把以下jar包拷貝到maven項目的src/main/webapp/WEB-INF/lib下
solr-6.4.1\server\lib\ext 下的所有jar包
solr-6.4.1\dist 下solr-dataimporthandler jar 包,solr-dataimporthandler-extras-6.2.0.jar 包
solr-6.4.1\server\lib下的5個jar包(