solr中文pdf_solr350怎么操作pdf

Ⅰ solr索引tika文件时txt的中文无法import

注意，txt文件编码请保证是UTF-8编码，默认txt文件的编码是GBK，扫描之前最好进行转码

Ⅱ solr 5.x 中文分词哪个好

这个问题简单说来就是，对于一个连续的中文query，queryparser将Analyzer返回的Term序列构成了PhraseQuery（也有可能是MultiPhraseQuery），而PhraseQuery默认的匹配规则是要求Term序列在索引的文档中完全顺序匹配。这对于英文查询来说是可以接

Ⅲ solr3.5.0怎么操作pdf

PDF全称Portable Document Format，是一种电子文件格式。这种文件格式与操作系统平台无关，也就是说，PDF文件不管是在Windows，Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。
Adobe公司设计PDF文件格式的目的是为了支持跨平台上的，多媒体集成的信息出版和发布，尤其是提供对网络信息发布的支持。为了达到此目的， PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息，支持特长文件，集成度和安全可靠性都较高。
PDF文件使用了工业标准的压缩算法，通常比PostScript文件小，易于传输与储存。它还是页独立的，一个PDF文件包含一个或多个“页”，可以单独处理各页，特别适合多处理器系统的工作。此外，一个PDF文件还包含文件中所使用的PDF格式版本，以及文件中一些重要结构的定位信息。正是由于 PDF文件的种种优点，它逐渐成为出版业中的新宠。
对普通读者而言，用PDF制作的电子书具有纸版书的质感和阅读效果，可以“逼真地”展现原书的原貌，而显示大小可任意调节，给读者提供了个性化的阅读方式。由于PDF文件可以不依赖操作系统的语言和字体及显示设备，阅读起来很方便。这些优点使读者能很快适应电子阅读与网上阅读，无疑有利于计算机与网络在日常生活中的普及。Adobe公司以PDF文件技术为核心，提供了一整套电子和网络出版解决方案，其中包括用于生成和阅读PDF文件的商业软件Acrobat和用于编辑制作PDF文件的Illustrator等。 Adobe还提供了用于阅读和打印亚洲文字，即中日韩文字所需的字型包。
以下介绍的是PDF（ Portable Document Format ）常用的工具。
PDF阅读工具
官方阅读工具：Adobe Acrobat Reader 中文版
类型：免费软件
主页：adobe.com
支持的平台：Windows 系列/移动平台/MAC/Unix/Linux
简介:
官方出品的阅读器，允许阅读PDF文档，填写PDF表格，查看PDF文件信息。稳定性和兼容性好。缺点是体积庞大，启动速度慢。
最佳替代工具：Foxit Reader
类型：免费软件
主页：foxitsoftware.com
支持的平台：Windows 系列/移动平台/Linux
简介：
能实现绝大部分的阅读功能。绿色软件，无需安装。体积小巧，不到2M。

Ⅳ 请问 solr 中文分词使用那种好

IKAnalyzer更新比Paoding快。现在可以支持Solr3.4。

Ⅳ java框架solr用哪个版本的好

solr-4.10.2，当下几个出名的分词器IKAnalyzer已支持该版本。现在开发的产品需要使用搜索功能，lucene是首选，于是再度研究了一翻，没有多大难度。同时也不在直接使用lucene库，而是使用solr，大大简化了创建索引与查询索引的难度。solr这种分布式索引方式对性能的控制更加有把握，因为它支持多核、复制功能，我们还可以写代码实现读写分离等性能扩展功能。itJob

Ⅵ solr3.5中如何用java代码为PDF，Office等文件添加索引

1、将解压包中的solr-4.7.1/dist/solr-4.7.1.war复制到tomcat_dir/webapps/目录，并命名为solr.war。

2、将solr-4.7.1/example/lib/ext/目录下的jar文件复制到tomcat/lib目录下，将solr-4.7.1/example/resources/下的log4j.properties文件复制到tomcat_dir/lib目录下;
切把 solr-4.7.1/example/solr，复制到tomcat_dir/bin下。

3、修改tomcat_dir/conf/server.xml
<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8" />

4、创建solr.xml，存放在路径：tomcat/conf/Catalina/localhost/solr.xml，内容：
<Context path="/solr" docBase="C:\Tomcat 7.0\webapps\solr.war"
debug="0" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="C:\Tomcat 7.0\bin\solr\" override="true" />
</Context>

PS：上面的docBase和value路径中不能存在中文字符，否则会出现404错误。

5、将C:\Tomcat 7.0\webapps下的solr.war包，启动项目解压；然后再添加几个jar包：
solr-4.7.1\dist\solr-dataimporthandler-4.7.1.jar;
solr-4.7.1\dist\solr-dataimporthandler-extras-4.7.1.jar;
还要加载数据库驱动包：mysql-connector-java-3.1.13-bin.jar

6、在C:\Tomcat 7.0\bin\solr\collection1\conf 下的solrconfig.xml增加以下数据库配置：
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">

<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>

7、将tomcat\bin\solr\collection1\conf下增加data-config.xml文件，内容如下：
<dataConfig>

<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://192.168.1.221:3306/tmsdb"
user="root"
password="123456"/>
<document name="content">
<entity name="node" query="select id,author,title,content from solrdb">
<field column="id" name="id" />
<field column="author" name="author" />
<field column="title" name="title" />
<field column="content" name="content" />
</entity>
</document>
</dataConfig>

8、增加中文分词器，ik-analyzer的配置如下：
①目前的中文分词主要有两种
1，基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器，例如smartcn等。（不支持自定义扩展词库）
2，基于正向迭代最细粒度切分算法（正向最大匹配并且最细分词）例如IK，庖丁等（支持自定义扩展词库）
安装分词前，可以去下载IK的分词包：
IK-Analyzer-4.7.1-0.0.1-SNAPSHOT.jar

下载完毕后，将此包放进tomcat\solr的\WEB-INF\lib下面：tomcat\webapps\solr\WEB-INF\lib 。
下面需要在solr的schemal.xml进行分词器注册:


<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>


</analyzer>
<analyzer type="query">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>


</analyzer>
</fieldType>

最后还得配置一个引用字段就OK了
<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>

②它的安装部署十分简单，将IKAnalyzer2012.jar部署亍项目的lib目录中；IKAnalyzer.cfg.xml不stopword.dic文件放置在class根目录（对于web项目，通常是WEB-I NF/classes目彔，同hibernate、log4j等配置文件相同）下即可；然后配置solr4.7中schema.xml配置解析器：
<schema name="example" version="1.1">

……
<fieldType name="text" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>

Ⅶ solr 索引pdf文件，如果去除内容前面的描述信息

只要uniqueKey相同，solr自动会覆盖的，举个例子uniqueKey为id 1.旧索引： id：document name：wyc content：hello 2.新索引: id：document name：wyc content：world 提交新索引，就会把旧索引覆盖掉

Ⅷ solr5和solr4的区别

目前我在项目中用的是4,区别没看日志不太清楚，对我而言就是我用的那个中文分词器，Solr 6版本是不支持的，虽然可以改源码变成支持

Ⅸ solr有人会的吗

没听说过

Ⅹ solr 6.4.1版本怎么样

1 解压solr压缩包，得到目录 solr-6.4.1\server\solr-webapp\webapp
2 在eclipse里面新建maven项目solr，在把solr-6.4.1\server\solr-webapp\webapp目录下的所有东西都拷贝到maven项目的src/main/webapp目录下，因为solr-6.4.1\server\solr-webapp\webapp目录就相当于maven项目的src/main/webapp目录。（注意，此处有的教程错误的将solr-webapp文件夹进行拷贝，这会导致solr启动不了）
3 把以下jar包拷贝到maven项目的src/main/webapp/WEB-INF/lib下
solr-6.4.1\server\lib\ext 下的所有jar包
solr-6.4.1\dist 下solr-dataimporthandler jar 包，solr-dataimporthandler-extras-6.2.0.jar 包
solr-6.4.1\server\lib下的5个jar包（

导航:首页 > 文档加密 > solr中文pdf

solr中文pdf

与solr中文pdf相关的资料