solr中文pdf_solr350怎麼操作pdf

Ⅰ solr索引tika文件時txt的中文無法import

注意，txt文件編碼請保證是UTF-8編碼，默認txt文件的編碼是GBK，掃描之前最好進行轉碼

Ⅱ solr 5.x 中文分詞哪個好

這個問題簡單說來就是，對於一個連續的中文query，queryparser將Analyzer返回的Term序列構成了PhraseQuery（也有可能是MultiPhraseQuery），而PhraseQuery默認的匹配規則是要求Term序列在索引的文檔中完全順序匹配。這對於英文查詢來說是可以接

Ⅲ solr3.5.0怎麼操作pdf

PDF全稱Portable Document Format，是一種電子文件格式。這種文件格式與操作系統平台無關，也就是說，PDF文件不管是在Windows，Unix還是在蘋果公司的Mac OS操作系統中都是通用的。這一特點使它成為在Internet上進行電子文檔發行和數字化信息傳播的理想文檔格式。越來越多的電子圖書、產品說明、公司文告、網路資料、電子郵件開始使用PDF格式文件。PDF格式文件目前已成為數字化信息事實上的一個工業標准。
Adobe公司設計PDF文件格式的目的是為了支持跨平台上的，多媒體集成的信息出版和發布，尤其是提供對網路信息發布的支持。為了達到此目的， PDF具有許多其他電子文檔格式無法相比的優點。PDF文件格式可以將文字、字型、格式、顏色及獨立於設備和解析度的圖形圖像等封裝在一個文件中。該格式文件還可以包含超文本鏈接、聲音和動態影像等電子信息，支持特長文件，集成度和安全可靠性都較高。
PDF文件使用了工業標準的壓縮演算法，通常比PostScript文件小，易於傳輸與儲存。它還是頁獨立的，一個PDF文件包含一個或多個「頁」，可以單獨處理各頁，特別適合多處理器系統的工作。此外，一個PDF文件還包含文件中所使用的PDF格式版本，以及文件中一些重要結構的定位信息。正是由於 PDF文件的種種優點，它逐漸成為出版業中的新寵。
對普通讀者而言，用PDF製作的電子書具有紙版書的質感和閱讀效果，可以「逼真地」展現原書的原貌，而顯示大小可任意調節，給讀者提供了個性化的閱讀方式。由於PDF文件可以不依賴操作系統的語言和字體及顯示設備，閱讀起來很方便。這些優點使讀者能很快適應電子閱讀與網上閱讀，無疑有利於計算機與網路在日常生活中的普及。Adobe公司以PDF文件技術為核心，提供了一整套電子和網路出版解決方案，其中包括用於生成和閱讀PDF文件的商業軟體Acrobat和用於編輯製作PDF文件的Illustrator等。 Adobe還提供了用於閱讀和列印亞洲文字，即中日韓文字所需的字型包。
以下介紹的是PDF（ Portable Document Format ）常用的工具。
PDF閱讀工具
官方閱讀工具：Adobe Acrobat Reader 中文版
類型：免費軟體
主頁：adobe.com
支持的平台：Windows 系列/移動平台/MAC/Unix/Linux
簡介:
官方出品的閱讀器，允許閱讀PDF文檔，填寫PDF表格，查看PDF文件信息。穩定性和兼容性好。缺點是體積龐大，啟動速度慢。
最佳替代工具：Foxit Reader
類型：免費軟體
主頁：foxitsoftware.com
支持的平台：Windows 系列/移動平台/Linux
簡介：
能實現絕大部分的閱讀功能。綠色軟體，無需安裝。體積小巧，不到2M。

Ⅳ 請問 solr 中文分詞使用那種好

IKAnalyzer更新比Paoding快。現在可以支持Solr3.4。

Ⅳ java框架solr用哪個版本的好

solr-4.10.2，當下幾個出名的分詞器IKAnalyzer已支持該版本。現在開發的產品需要使用搜索功能，lucene是首選，於是再度研究了一翻，沒有多大難度。同時也不在直接使用lucene庫，而是使用solr，大大簡化了創建索引與查詢索引的難度。solr這種分布式索引方式對性能的控制更加有把握，因為它支持多核、復制功能，我們還可以寫代碼實現讀寫分離等性能擴展功能。itJob

Ⅵ solr3.5中如何用java代碼為PDF，Office等文件添加索引

1、將解壓包中的solr-4.7.1/dist/solr-4.7.1.war復制到tomcat_dir/webapps/目錄，並命名為solr.war。

2、將solr-4.7.1/example/lib/ext/目錄下的jar文件復制到tomcat/lib目錄下，將solr-4.7.1/example/resources/下的log4j.properties文件復制到tomcat_dir/lib目錄下;
切把 solr-4.7.1/example/solr，復制到tomcat_dir/bin下。

3、修改tomcat_dir/conf/server.xml
<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8" />

4、創建solr.xml，存放在路徑：tomcat/conf/Catalina/localhost/solr.xml，內容：
<Context path="/solr" docBase="C:\Tomcat 7.0\webapps\solr.war"
debug="0" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="C:\Tomcat 7.0\bin\solr\" override="true" />
</Context>

PS：上面的docBase和value路徑中不能存在中文字元，否則會出現404錯誤。

5、將C:\Tomcat 7.0\webapps下的solr.war包，啟動項目解壓；然後再添加幾個jar包：
solr-4.7.1\dist\solr-dataimporthandler-4.7.1.jar;
solr-4.7.1\dist\solr-dataimporthandler-extras-4.7.1.jar;
還要載入資料庫驅動包：mysql-connector-java-3.1.13-bin.jar

6、在C:\Tomcat 7.0\bin\solr\collection1\conf 下的solrconfig.xml增加以下資料庫配置：
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">

<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>

7、將tomcat\bin\solr\collection1\conf下增加data-config.xml文件，內容如下：
<dataConfig>

<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://192.168.1.221:3306/tmsdb"
user="root"
password="123456"/>
<document name="content">
<entity name="node" query="select id,author,title,content from solrdb">
<field column="id" name="id" />
<field column="author" name="author" />
<field column="title" name="title" />
<field column="content" name="content" />
</entity>
</document>
</dataConfig>

8、增加中文分詞器，ik-analyzer的配置如下：
①目前的中文分詞主要有兩種
1，基於中科院ICTCLAS的隱式馬爾科夫hhmm演算法的中文分詞器，例如smartcn等。（不支持自定義擴展詞庫）
2，基於正向迭代最細粒度切分演算法（正向最大匹配並且最細分詞）例如IK，庖丁等（支持自定義擴展詞庫）
安裝分詞前，可以去下載IK的分詞包：
IK-Analyzer-4.7.1-0.0.1-SNAPSHOT.jar

下載完畢後，將此包放進tomcat\solr的\WEB-INF\lib下面：tomcat\webapps\solr\WEB-INF\lib 。
下面需要在solr的schemal.xml進行分詞器注冊:


<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>


</analyzer>
<analyzer type="query">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>


</analyzer>
</fieldType>

最後還得配置一個引用欄位就OK了
<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>

②它的安裝部署十分簡單，將IKAnalyzer2012.jar部署亍項目的lib目錄中；IKAnalyzer.cfg.xml不stopword.dic文件放置在class根目錄（對於web項目，通常是WEB-I NF/classes目彔，同hibernate、log4j等配置文件相同）下即可；然後配置solr4.7中schema.xml配置解析器：
<schema name="example" version="1.1">

……
<fieldType name="text" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>

Ⅶ solr 索引pdf文件，如果去除內容前面的描述信息

只要uniqueKey相同，solr自動會覆蓋的，舉個例子uniqueKey為id 1.舊索引： id：document name：wyc content：hello 2.新索引: id：document name：wyc content：world 提交新索引，就會把舊索引覆蓋掉

Ⅷ solr5和solr4的區別

目前我在項目中用的是4,區別沒看日誌不太清楚，對我而言就是我用的那個中文分詞器，Solr 6版本是不支持的，雖然可以改源碼變成支持

Ⅸ solr有人會的嗎

沒聽說過

Ⅹ solr 6.4.1版本怎麼樣

1 解壓solr壓縮包，得到目錄 solr-6.4.1\server\solr-webapp\webapp
2 在eclipse裡面新建maven項目solr，在把solr-6.4.1\server\solr-webapp\webapp目錄下的所有東西都拷貝到maven項目的src/main/webapp目錄下，因為solr-6.4.1\server\solr-webapp\webapp目錄就相當於maven項目的src/main/webapp目錄。（注意，此處有的教程錯誤的將solr-webapp文件夾進行拷貝，這會導致solr啟動不了）
3 把以下jar包拷貝到maven項目的src/main/webapp/WEB-INF/lib下
solr-6.4.1\server\lib\ext 下的所有jar包
solr-6.4.1\dist 下solr-dataimporthandler jar 包，solr-dataimporthandler-extras-6.2.0.jar 包
solr-6.4.1\server\lib下的5個jar包（

導航:首頁 > 文檔加密 > solr中文pdf

solr中文pdf

與solr中文pdf相關的資料