Ⅰ solr索引tika文件时txt的中文无法import
注意,txt文件编码请保证是UTF-8编码,默认txt文件的编码是GBK,扫描之前最好进行转码
Ⅱ solr 5.x 中文分词哪个好
这个问题简单说来就是,对于一个连续的中文query,queryparser将Analyzer返回的Term序列构成了PhraseQuery(也有可能是MultiPhraseQuery),而PhraseQuery默认的匹配规则是要求Term序列在索引的文档中完全顺序匹配。这对于英文查询来说是可以接
Ⅲ solr3.5.0怎么操作pdf
PDF全称Portable Document Format,是一种电子文件格式。这种文件格式与操作系统平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。
Adobe公司设计PDF文件格式的目的是为了支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的支持。为了达到此目的, PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。
PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。它还是页独立的,一个PDF文件包含一个或多个“页”,可以单独处理各页,特别适合多处理器系统的工作。此外,一个PDF文件还包含文件中所使用的PDF格式版本,以及文件中一些重要结构的定位信息。正是由于 PDF文件的种种优点,它逐渐成为出版业中的新宠。
对普通读者而言,用PDF制作的电子书具有纸版书的质感和阅读效果,可以“逼真地”展现原书的原貌,而显示大小可任意调节,给读者提供了个性化的阅读方式。由于PDF文件可以不依赖操作系统的语言和字体及显示设备,阅读起来很方便。这些优点使读者能很快适应电子阅读与网上阅读,无疑有利于计算机与网络在日常生活中的普及。Adobe公司以PDF文件技术为核心,提供了一整套电子和网络出版解决方案,其中包括用于生成和阅读PDF文件的商业软件Acrobat和用于编辑制作PDF文件的Illustrator等。 Adobe还提供了用于阅读和打印亚洲文字,即中日韩文字所需的字型包。
以下介绍的是PDF( Portable Document Format )常用的工具。
PDF阅读工具
官方阅读工具:Adobe Acrobat Reader 中文版
类型:免费软件
主页:adobe.com
支持的平台:Windows 系列/移动平台/MAC/Unix/Linux
简介:
官方出品的阅读器,允许阅读PDF文档,填写PDF表格,查看PDF文件信息。稳定性和兼容性好。缺点是体积庞大,启动速度慢。
最佳替代工具:Foxit Reader
类型:免费软件
主页:foxitsoftware.com
支持的平台:Windows 系列/移动平台/Linux
简介:
能实现绝大部分的阅读功能。绿色软件,无需安装。体积小巧,不到2M。
Ⅳ 请问 solr 中文分词使用那种好
IKAnalyzer更新比Paoding快。现在可以支持Solr3.4。
Ⅳ java框架solr用哪个版本的好
solr-4.10.2,当下几个出名的分词器IKAnalyzer已支持该版本。现在开发的产品需要使用搜索功能,lucene是首选,于是再度研究了一翻,没有多大难度。同时也不在直接使用lucene库,而是使用solr,大大简化了创建索引与查询索引的难度。solr这种分布式索引方式对性能的控制更加有把握,因为它支持多核、复制功能,我们还可以写代码实现读写分离等性能扩展功能。itJob
Ⅵ solr3.5中如何用java代码为PDF,Office等文件添加索引
1、将解压包中的solr-4.7.1/dist/solr-4.7.1.war复制到tomcat_dir/webapps/目录,并命名为solr.war。
2、将solr-4.7.1/example/lib/ext/目录下的jar文件复制到tomcat/lib目录下,将solr-4.7.1/example/resources/下的log4j.properties文件复制到tomcat_dir/lib目录下;
切把 solr-4.7.1/example/solr,复制到tomcat_dir/bin下。
3、修改tomcat_dir/conf/server.xml
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8" />
4、创建solr.xml,存放在路径:tomcat/conf/Catalina/localhost/solr.xml,内容:
<Context path="/solr" docBase="C:\Tomcat 7.0\webapps\solr.war"
debug="0" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="C:\Tomcat 7.0\bin\solr\" override="true" />
</Context>
PS:上面的docBase和value路径中不能存在中文字符,否则会出现404错误。
5、将C:\Tomcat 7.0\webapps下的solr.war包,启动项目解压;然后再添加几个jar包:
solr-4.7.1\dist\solr-dataimporthandler-4.7.1.jar;
solr-4.7.1\dist\solr-dataimporthandler-extras-4.7.1.jar;
还要加载数据库驱动包:mysql-connector-java-3.1.13-bin.jar
6、在C:\Tomcat 7.0\bin\solr\collection1\conf 下的solrconfig.xml增加以下数据库配置:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
7、将tomcat\bin\solr\collection1\conf下增加data-config.xml文件,内容如下:
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://192.168.1.221:3306/tmsdb"
user="root"
password="123456"/>
<document name="content">
<entity name="node" query="select id,author,title,content from solrdb">
<field column="id" name="id" />
<field column="author" name="author" />
<field column="title" name="title" />
<field column="content" name="content" />
</entity>
</document>
</dataConfig>
8、增加中文分词器,ik-analyzer的配置如下:
①目前的中文分词主要有两种
1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库)
2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库)
安装分词前,可以去下载IK的分词包 :
IK-Analyzer-4.7.1-0.0.1-SNAPSHOT.jar
下载完毕后,将此包放进tomcat\solr的\WEB-INF\lib下面:tomcat\webapps\solr\WEB-INF\lib 。
下面需要在solr的schemal.xml进行分词器注册:
<!-- 配置IK分词器 -->
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!-- 分词-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用词过滤根据情况使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->
</analyzer>
<analyzer type="query">
<!-- 分词-->
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
<!-- 禁用词过滤根据情况使用-->
<!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->
</analyzer>
</fieldType>
最后还得配置一个引用字段就OK了
<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>
②它的安装部署十分简单,将IKAnalyzer2012.jar部署亍项目的lib目录中;IKAnalyzer.cfg.xml不stopword.dic文件放置在class根目录(对于web项目,通常是WEB-I NF/classes目彔,同hibernate、log4j等配置文件相同)下即可 ;然后配置solr4.7中schema.xml配置解析器:
<schema name="example" version="1.1">
……
<fieldType name="text" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>
Ⅶ solr 索引pdf文件,如果去除内容前面的描述信息
只要uniqueKey相同,solr自动会覆盖的,举个例子uniqueKey为id 1.旧索引: id:document name:wyc content:hello 2.新索引: id:document name:wyc content:world 提交新索引,就会把旧索引覆盖掉
Ⅷ solr5和solr4的区别
目前我在项目中用的是4,区别没看日志不太清楚,对我而言就是我用的那个中文分词器,Solr 6版本是不支持的,虽然可以改源码变成支持
Ⅸ solr有人会的吗
没听说过
Ⅹ solr 6.4.1版本怎么样
1 解压solr压缩包,得到目录 solr-6.4.1\server\solr-webapp\webapp
2 在eclipse里面新建maven项目solr,在把solr-6.4.1\server\solr-webapp\webapp目录下的所有东西都拷贝到maven项目的src/main/webapp目录下,因为solr-6.4.1\server\solr-webapp\webapp目录就相当于maven项目的src/main/webapp目录。( 注意,此处有的教程错误的将solr-webapp文件夹进行拷贝,这会导致solr启动不了)
3 把以下jar包拷贝到maven项目的src/main/webapp/WEB-INF/lib下
solr-6.4.1\server\lib\ext 下的所有jar包
solr-6.4.1\dist 下solr-dataimporthandler jar 包,solr-dataimporthandler-extras-6.2.0.jar 包
solr-6.4.1\server\lib下的5个jar包(