导航:首页 > 编程语言 > pythontika

pythontika

发布时间:2022-12-29 19:11:46

java爬虫的话有哪些框架

像比较新的webmagic

python脚本 将DOC格式转换成pdf 没问题 但是将TXT格式转换成PDF 会出现路乱码,请大虾指点下

用什么 w32com啊。用python的一个开源包。或者是用apache的tika(java)版本。或者是你用openoffice。

用了python就和winows再见吧。因为只有linux上才是最好用的。然后就和开源结亲了。各种包,基本上应有尽有。

你的这个问题其实挺简单的。很可能是编码的问题。建议你先将txt转换成doc,再将doc转换成pdf。这样就绕过去了。问题不一定要强行解决。学着绕过去。

⑶ 有没有好一点的读取pdf的python包

最近在做一些数据分析的任务,很多都是pdf文件,试过pdfminer,pypdf2。pdfminer可以较好地读出里面的文字内容,但是一旦碰到类似于表格的排版,就会分块按列来读,导致解析出来的结果排班很乱。比如下面图片中的内容

解析出来是:

教育背景

2011.09-2015.06

重庆大学

工作经历

软件工程

而我预期的是:

教育背景

2011.09-2015.06 重庆大学 软件工程

工作经历

pypdf2效果更一般,很多中文字和符号都不能识别。Textract,Tika我也试过,都不行。请问大家有没有更好的python PDF包呢?或者是我的处理方式不对?我的代码如下:

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
from subprocess import call
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile, check_extractable=True)
device.close()
content = retstr.getvalue()
retstr.close()
return content

你可以试一下在线pdf装换试试效果

效果好的话用再selenium来处理

在用其他包转你需要的

我觉得你的那个包不好用是不是因为没有那种字体啊?

⑷ 什么是mongodb,zookeeper,redis,solr

Name HBase Memcached MongoDB Redis Solr
Description Wide-column store based on Apache Hadoop and on concepts of BigTable In-memory key-value store, originally intended for caching One of the most popular document stores In-memory database with configurable options performance vs. persistency A widely usedenterprise search engine based onApache Lucene
Developer Apache Software Foundation Danga Interactive MongoDB, Inc Salvatore Sanfilippo Apache Software Foundation
Initial release 2008 2003 2009 2009 2004
License Open Source Open Source Open Source Open Source Open Source
Implementation language Java C C++ C Java
Server operating systems Linux Linux Linux Linux All OS with a Java VM and a servlet container
Unix Unix
OS X OS X
Windows Windows Windows Windows
FreeBSD Solaris BSD
Database model Wide column store Key-value store Document store Key-value store Search engine
Data scheme schema-free schema-free schema-free schema-free yes
Typing no no yes no yes
Secondary indexes no no yes no yes
SQL no no no no no
APIs and other access methods Java API Proprietary protocol proprietary protocol using JSON proprietary protocol Java API
RESTful HTTP API RESTful HTTP API
Thrift
Supported programming languages C C C C
C# .Net C# C# .Net
C++ C++ C++ C++
Groovy ColdFusion Groovy Clojure
Java Java Java Java Java
Erlang Erlang Erlang Erlang
Python Python Python Python Python
Scala Lua Scala Scala Scala
Ruby Ruby Ruby Ruby
PHP PHP PHP PHP PHP
JavaScript JavaScript JavaScript
Perl Perl Perl Perl
OCaml Lua Lua any language that supports sockets and either XML or JSON
Lisp Lisp Lisp
Dart Dart
ColdFusion
Go Go
Actionscript Objective-C
Haskell Haskell
Smalltalk Smalltalk
Clojure Tcl
MatLab
PowerShell
Prolog
Server-side scripts yes no JavaScript Lua Java plugins
Triggers yes no no no no
Partitioning methods Sharding none Sharding none Sharding

Replication methods selectable replication factor none Master-slave replication Master-slave replication cloud/distributed (via Zookeeper)
Master-slave replication
MapRece yes no yes no no
Consistency concepts Immediate Consistency Eventual Consistency Eventual Consistency
Immediate Consistency
Foreign keys no no no no no
Transaction concepts no no no optimistic locking optimistic locking

Concurrency yes yes yes yes yes
Durability yes no yes yes yes
User concepts Access Control Lists (ACL) yes Users can be defined with full access or read-only access very simple password-based access control
Specific characteristics Redis very much emphasize performance. In any design decisions performance has priority over features or memory requirements. Architecture: Lives in web stack, ships by default with Jetty. Connectors, JDBC, multiple languages, true morphological CJK, binary document filters (Tika), Entity Extraction (UIMA)
Typical application scenarios Mostly used for caching Applications that can hold all data in memory, and that have high performance requirements.

⑸ 如何在mac上用python批量将word文件转成txt文件 / 网络技术编程

python实现起来可能没有现成解决方案。因为py库可能没有全面的office套件解析器。

mac想批量转,很容易。

  1. 安装openoffice。

  2. 终端执行 soffice --headless --convert-to txt my_file.doc/.docx

    如果批量将当前目录下所有doc转为txt,则写过简单shell:

    for i in `ls *doc`; do soffice --headless --convert-to txt $i ; done; 即可。

  3. 以上同时适用linux。

⑹ Python office 文件转 pdf 有没有什么好的方案

用什么 w32com啊。用python的一个开源包。或者是用apache的tika(java)版本。或者是你用openoffice。

用了python就和winows再见吧。因为只有linux上才是最好用的。然后就和开源结亲了。各种包,基本上应有尽有。

你的这个问题其实挺简单的。很可能是编码的问题。建议你先将txt转换成doc,再将doc转换成pdf。这样就绕过去了。问题不一定要强行解决。学着绕过去。

⑺ 求尽量多的英语单词

动物squirrel 松鼠
kangaroo 袋鼠
crocodile 鳄鱼
lobster 龙虾
crucian 鲫鱼
cuttlefish 乌贼
chimpanzee 黑猩猩
gorilla 大猩猩
orangutan 猩猩
gibbon 长臂猿
sloth 獭猴
horse 马
mare 母马
colt, foal 马驹,小马
pony 矮马
thoroughbred 纯种马
mustang 野马
mule 骡
ass, donkey 驴
Giraffe 长颈鹿
Deer 鹿
Leopard 豹
Chimpanzees 黑猩猩
Kangaroo 袋鼠
Ox 牛
Hedgehog 刺猬
Rhinoceros 犀牛
Camel 骆驼
Hippopotamus 河马
Crocodile 鳄鱼
Rabbit 兔子
Tortoise 乌龟
Squirrel 松鼠
Zebra 斑马
Crane 鹤
Penguin 企鹅
Ostrich 鸵鸟
Ladybird 雌鸟
adder, viper 蝰蛇
albatross 信天翁
alligator 短吻鳄, 美洲鳄
alpaca 羊驼
anchovy 凤尾鱼
anglerfish 安康鱼
anopheles 按蚊,疟蚊
anteater 食蚁兽
antilope 羚羊
armadillo 犰狳
ass, donkey 驴
badger 獾
bald eagle 白头鹰
beaver 河狸
bedbug, bug 臭虫
beetle 甲虫, 金龟子
billy 雄山羊
bird of paradise 极乐鸟, 天堂鸟
bison 美洲野牛
blackbird 乌鸫
boa 王蛇
boar 雄猪, 种猪
brood 鸡的统称
buck 公兔
buffalo 水牛
bull, ox 雄牛
bullfrog 牛蛙
bullock, steer 小阉牛
bumble bee 大黄蜂
cabbage butterfly 纹白蝶
caiman, cayman 凯门鳄
calf 小牛, 牛犊
calf( pl. calves) 年幼的牛
canary 金丝雀
carp 鲤鱼
centipede 蜈蚣
chaffinch 苍头燕雀
chameleon 变色龙,避役
chimpanzee 黑猩猩
chinchilla 南美栗鼠
chub 鲢鱼
cicada 蝉
clam 蚌
cob 雄天鹅
cobra 眼镜蛇
cod 鳕鱼
colt, foal 马驹,小马
condor 秃鹰
copperhead 美洲腹蛇
coral snake 银环蛇
cormorant 鸬鹚
crayfish 小龙虾, 喇蛄
crucian 鲫鱼
cuckoo 杜鹃,布谷鸟
cuttloefish 乌贼
cygnet 小天鹅
dormouse 睡鼠
dromedary 单峰驼
drone 雄蜂
ckbill, platypus 鸭嘴兽
eagle 鹰
eel 鳗鱼
ferret 雪貂
flea 跳蚤
flock 绵羊的统称
foal, colt, filly 幼马
gannet 塘鹅
gavial 印度鳄
gazelle 小羚羊
gelding 阉割的马
giant salamander 娃娃鱼, 鲵
gibbon 长臂猿
gilt 小母猪
giraffe 长颈鹿
glowworm, firefly 萤火虫
golden eagle 鹫
goldfinch 金翅雀
goose 雌鹅
goose 鹅
gopher 囊地鼠
gorilla 大猩猩
gosling 幼鹅
grass snake 草蛇
grasshopper 蚱蜢
grouse 松鸡
guanaco 原驼
Guinea pig 豚鼠
guinea, fowl 珍珠鸡
gull, seagull 海鸥
hake 无须鳕
hare 野兔
hawk, falcon 隼
hedgehog 刺猬
hermit crab 寄居蟹
heron 苍鹰
herring 青鱼, 鲱
hinny 驴骡
hippopotamus 河马
hog 阉猪, 肥猪
horse 马
horsefly, gadfly 厩蝇,牛虻
hummingbird 蜂雀
hyena, hyaena 鬣狗
iguana 鬣蜥
Japanese beetle 日本金龟子
jenny ass 雌驴
kangaroo 袋鼠
kid 年幼的山羊
kingfisher 翠鸟
kite 鹞
koala 考拉, 树袋熊
ladybird 瓢虫
lamb 羊羔,羔羊
large prawn 大对虾
lark 百鸟,云雀
lion 狮
lizard 蜥蜴
llama 大羊驼
locust 蝗虫
louse, lice 虱子, 白虱
lynx 猞猁
macaw 金刚鹦鹉
mackerel 鲭,鲐
magpie 喜鹊
male ant 雄蚁
mallard 野鸭, 凫
mare 母马
marmot 土拨鼠
moccasin 嗜鱼蛇
mole 鼹鼠
moth 蛾
mouse 家鼠
mule 骡
mullet 乌鱼, 黑鱼
mussel 淡菜,贻贝
mustang 野马
nanny 雌山羊
nightingale 夜莺
Norway lobster 蝉虾
octopus 章鱼
orangutan 猩猩
ostrich 鸵鸟
otter 水獭
owl 枭,猫头鹰
oyster 牡蛎
pale clouded yellow 纹黄蝶
panther, puma 美洲豹
parakeet 长尾鹦鹉
partridge 石鸡, 鹧鸪
pelican 鹈鹕
penguin 企鹅
perch 鲈鱼
pheasant 雉, 野鸡
pig, swine 猪
pigeon 野鸽
piglet, shoat 年幼的猪
pike 梭子鱼
plaice 鲽
plover 千鸟
pony 矮马
porcupine 箭猪, 豪猪
porpoise 大西洋鼠海豚
poult 小火鸡
praying mantis 螳螂
ptarmigan 雷鸟
pup 年幼的狗
python 蟒蛇
quail 鹌鹑
queen ant 蚁后
queen bee 蜂王
rattlesnake 响尾蛇
ray 鳐鱼
red mullet, surmullet 羊鱼
reindeer 驯鹿
rhinoceros 犀牛
robin 知更鸟
sailfish 旗鱼
salamander, triton, newt 蝾螈
salmon 鲑鱼
sardine 沙丁鱼
scallop 扇贝
scops owl 角枭,耳鸟
scorpion 蝎子
sea bream 海鲷
sea horse 海马
sea turtle 海龟
sea urchin 海胆
seal 海豹
shark 鲨鱼
sheep 绵羊
shrimp 对虾
silkworm moth 蚕蛾
silverfish 蠹虫
skipjack 鲣鱼
sloth 獭猴
snipe 鹬
sole 舌鳎
sow 雌猪
spider crab 蜘蛛蟹
spiny lobster, rock lobster 大螯虾
squid 枪乌贼,鱿鱼
squirrel 松鼠
stallion 雄马
starling 八哥
stink bug 椿象
stork 鹳
sturgeon 鲟鱼
sulphur butterfly 白蝴蝶
sunfish 翻车鱼
swallow 燕子
swallowtail 凤尾蝶
swift 褐雨燕
swordfish 剑鱼
tabby, she-cat, grimalkin 雌猫
tarantula 多毛毒蜘蛛
tarpon 大海鲢
teal 小野鸭
termite 蚁
thoroughbred 纯种马
thrush 画眉
toad 蟾蜍
tom 雄火鸡
tomcat 雄猫
tomcat 雄猫, 公猫
tortoise 玳瑁
trout 鳟鱼
tuatara 古蜥蜴
tunny, tuna 金枪鱼
turbot 大菱鲆
turkey 火鸡
turtle dove 斑鸠
vicuna 小羊驼
vole 田鼠
vulture 秃鹫
wall lizard 壁虎
walrus 海象
wasp 黄蜂, 胡蜂
water buffalo 水牛
weasel 鼬,黄鼠狼
whale 鲸
white ant 白蚁
whitethroat 白喉雀
whiting 小无须鳕
wiggler 孑孓
woodpecker 啄木鸟
worker ant 工蚁
yak 牦牛
stallion 雄马
mare 雌马
foal, colt, filly 幼马
gelding 阉割的马
donkey, ass 驴
donkey 雄驴
jenny ass 雌驴
hinny 驴骡
mule 马骡
herd 牛的统称
water buffalo 水牛
yak 牦牛
服装名001,里料:LINING

002,面料:FABRIC

003,平纹:TAFFETA

004,斜纹:TWILL

005,缎面:SATIN / CHARMEUSE

006,绡:LUSTRINE

007,提花:JACQUARD

008,烂花:BURNT-OUT

009,春亚纺:PONGEE

010,格子:CHECK

011,条子:STRIPE

012,双层:DOUBLE – LAYER

013,双色:TWO – TONE

014,花瑶: FAILLE

015,高士宝:KOSHIBO

016,雪纺:CHIFFON

017,乔其:GEORGETTE

018,塔丝隆:TASLON

019,弹力布:SPANDEX/ELASTIC/STREC/LYCRA

020,牛仔布:JEANET

021,牛津布:OXFORD

022,帆布:CAMBRIC

023,涤棉:P/C

024,涤捻:T/R

025,白条纺:WHITE STRIPE

026,黑条纺:BLACK STRIPE

027,空齿纺:EMPTY STRIPE

028,水洗绒/桃皮绒:PEACH SKIN

029,卡丹绒:PEACH TWILL

030,绉绒:PEACH MOSS

031,玻璃纱:ORGANDY

032,涤纶:PLOYESTER

033,锦纶:NYLON/POLYAMIDE

034,醋酸:ACETATE

035,棉; COTTON

036,人棉:RAYON

037,人丝:VISCOSE

038,仿真丝:IMITATED SILK FABRIC

039,真丝:SILK

040,氨纶:SPANDEX/ELASTIC/STREC/LYCRA

041,长丝:FILAMENT

042,短纤:SPUN

043,黑丝:BLACK YARN

044,阳离子:CATION

045,三角异形丝:TRIANGLE PROFILE

046,空气变形丝:AIR-JET TEXTURING YARN

047,超细纤维:MICRO – FIBRIC

048,全拉伸丝:FDY (FULL DRAWN YARN)

049,预取向丝:POY(PREORIENTED YARN)

050,拉伸变形丝:DTY(DRAW TEXTURED YARN)

051,牵伸加捻丝: DT (DRWW TWIST)

服装面料英语(二)

052,靛蓝青年布:Indigo chambray

053,人棉布植绒:Rayon cloth flocking

054,PVC植绒:PVC flocking

055,针织布植绒:Knitting cloth flocking

056,珠粒绒:Claimond veins

057,倒毛:Down pile making

058,平绒:velveteen (velvet-plain)

059,仿麂皮:Micro suede

060,牛仔皮植绒:Jeans flocking

061,尼丝纺:Nylon taffeta (Nylon shioze)

062,尼龙塔夫泡泡纱:Nylon seersucker taffeta

063,素面植绒:plain flocking

064,印花植绒:flocking(flower)

065,雕印植绒:Embossing flocking

066,皮革沟底植绒:Leather imitation flocking

067,牛仔植绒雕印:Embossing jeans flocking

068,兔羊绒大衣呢:Angora cachmere overcoating

069,双面呢:double-faced woolen goods羊毛

070,立绒呢:cut velvet

071,顺毛呢:over coating

072,粗花呢:costume tweed

073,弹力呢:lycra woolen goods

074,塔丝绒: Nylon taslon

075,塔丝绒格子:N/Taslon ripstop

076,桃皮绒:polyester peach skin

077,涤塔夫:polyester taff
一、蔬菜
string bean 四季豆
pea 豌豆
green soy bean 毛豆
soybean sprout 黄豆芽
mung bean sprout 绿豆芽
bean sprout 豆芽
kale 甘蓝菜
cabbage 包心菜; 大白菜
broccoli 花椰菜
mater convolvulus 空心菜
dried lily flower 金针菜
mustard leaf 芥菜
celery 芹菜
tarragon 蒿菜
beetroot 甜菜根
lettuce 生菜
spinach 菠菜
leek 韭菜
caraway 香菜
preserved szechuan pickle 榨菜
salted vegetable 雪里红
lettuce 莴苣
asparagus 芦荟
bamboo shoot 竹笋
dried bamboo shoot 笋干
carrot 胡萝卜
water chestnut 荸荠
long crooked squash 菜瓜
loofah 丝瓜
pumpkin 南瓜
bitter gourd 苦瓜
cucumber 黄瓜
white gourd 冬瓜
gherkin 小黄瓜
yam 山芋
taro 芋头
champignon 香菇
needle mushroom 金针菇
dried mushroom 冬菇
tomato 番茄
eggplant 茄子
potato, spud 马铃薯
lotus root 莲藕
agaric 木耳
white fungus 百木耳
ginger 生姜
garlic 大蒜
garlic bulb 蒜头
green onion 葱
onion 洋葱
scallion, leek 青葱
wheat gluten 面筋
miso 味噌

二、水果:
pineapple 凤梨
watermelon 西瓜
papaya 木瓜
betelnut 槟榔
chestnut 栗子
coconut 椰子
ponkan 碰柑
tangerine 橘子
mandarin orange 橘
sugar-cane 甘蔗
muskmelon 香瓜
shaddock 柚子,文旦
juice peach 水蜜桃
pear 梨子
peach 桃子
carambola 杨桃
cherry 樱桃
persimmon 柿子
apple 苹果
mango 芒果
fig 无花果
water caltrop 菱角
almond 杏仁
plum 李子
honey-dew melon 哈密瓜
loquat 枇杷
olive 橄榄
rambutan 红毛丹
rian 榴梿
strawberry 草莓
grape 葡萄
grapefruit 葡萄柚
lichee 荔枝
longan 龙眼
wax-apple 莲雾
guava 番石榴
banana 香蕉

⑻ Lucene实战的目录

目录
第1部分Lucene核心
第1章初识Lucene 3
1.1应对信息爆炸 4
1.2Lucene是什么 5
1.2.1Lucene能做些什么 6
1.2.2Lucene的历史 7
1.3Lucene和搜索程序组件 9
1.3.1索引组件 10
1.3.2搜索组件 13
1.3.3搜索程序的其他模块 16
1.3.4Lucene与应用程序的整合点 18
1.4Lucene实战:程序示例 18
1.4.1建立索引 19
1.4.2搜索索引 22
1.5理解索引过程的核心类 25
1.5.1IndexWriter 25
1.5.2Directory 25
1.5.3Analyzer 26
1.5.4Document 26
1.5.5Field 27
1.6理解搜索过程的核心类 27
1.6.1IndexSearcher 27
1.6.2Term 28
1.6.3Query 28
1.6.4TermQuery 28
1.6.5TopDocs 29
1.7小结 29
第2章构建索引30
2.1Lucene如何对搜索内容进行建模 31
2.1.1文档和域 31
2.1.2灵活的架构 32
2.1.3反向规格化(Denormalization) 32
2.2理解索引过程 33
2.2.1提取文本和创建文档 33
2.2.2分析文档 34
2.2.3向索引添加文档 34
2.3基本索引操作 35
2.3.1向索引添加文档 35
2.3.2删除索引中的文档 38
2.3.3更新索引中的文档 39
2.4域选项 41
2.4.1域索引选项 41
2.4.2域存储选项 42
2.4.3域的项向量选项 42
2.4.4Reader、TokenStream和byte[ ]域值 42
2.4.5域选项组合 43
2.4.6域排序选项 44
2.4.7多值域 44
2.5对文档和域进行加权操作 45
2.5.1文档加权操作 45
2.5.2域加权操作 46
2.5.3加权基准(Norms) 47
2.6索引数字、日期和时间 48
2.6.1索引数字 48
2.6.2索引日期和时间 49
2.7域截取(Field truncation) 50
2.8近实时搜索(Near-real-time search) 51
2.9优化索引 51
2.10其他Directory子类 52
2.11并发、线程安全及锁机制 55
2.11.1线程安全和多虚拟机安全 55
2.11.2通过远程文件系统访问索引 56
2.11.3索引锁机制 57
2.12调试索引 59
2.13高级索引概念 60
2.13.1用IndexReader删除文档 61
2.13.2回收被删除文档所使用过的磁盘空间 62
2.13.3缓冲和刷新 62
2.13.4索引提交 63
2.13.5ACID事务和索引连续性 65
2.13.6合并段 66
2.14小结 68
第3章为应用程序添加搜索功能70
3.1实现简单的搜索功能 71
3.1.1对特定项的搜索 72
3.1.2解析用户输入的查询表达式:QueryParser 73
3.2使用IndexSearcher类 76
3.2.1创建IndexSearcher类 76
3.2.2实现搜索功能 78
3.2.3使用TopDocs类 78
3.2.4搜索结果分页 79
3.2.5近实时搜索 79
3.3理解Lucene的评分机制 81
3.3.1Lucene如何评分 81
3.3.2使用explain()理解搜索结果评分 83
3.4Lucene的多样化查询 84
3.4.1通过项进行搜索:TermQuery类 85
3.4.2在指定的项范围内搜索:TermRangeQuery类 86
3.4.3在指定的数字范围内搜索:NumericRangeQuery类 87
3.4.4通过字符串搜索:PrefixQuery类 88
3.4.5组合查询:BooleanQuery类 88
3.4.6通过短语搜索:PhraseQuery类 91
3.4.7通配符查询:WildcardQuery类 93
3.4.8搜索类似项:FuzzyQuery类 94
3.4.9匹配所有文档:MatchAllDocsQuery类 95
3.5解析查询表达式:QueryParser 96
3.5.1Query.toString方法 97
3.5.2TermQuery 97
3.5.3项范围查询 98
3.5.4数值范围搜索和日期范围搜索 99
3.5.5前缀查询和通配符查询 99
3.5.6布尔操作符 100
3.5.7短语查询 100
3.5.8模糊查询 101
3.5.9MatchAllDocsQuery 102
3.5.10分组查询 102
3.5.11域选择 103
3.5.12为子查询设置加权 103
3.5.13是否一定要使用QueryParse 103
3.6小结 104
第4章Lucene的分析过程 105
4.1使用分析器 106
4.1.1索引过程中的分析 107
4.1.2QueryParser分析 109
4.1.3解析vs分析:分析器何时不再适用 109
4.2剖析分析器 110
4.2.1语汇单元的组成 111
4.2.2语汇单元流揭秘 112
4.2.3观察分析器 115
4.2.4语汇单元过滤器:过滤顺序的重要性 119
4.3使用内置分析器 121
4.3.1StopAnalyzer 122
4.3.2StandardAnalyzer 122
4.3.3应当采用哪种核心分析器 123
4.4近音词查询 123
4.5同义词、别名和其他表示相同意义的词 126
4.5.1创建SynonymAnalyzer 127
4.5.2显示语汇单元的位置 131
4.6词干分析 132
4.6.1StopFilter保留空位 133
4.6.2合并词干操作和停用词移除操作 134
4.7域分析 134
4.7.1多值域分析 135
4.7.2特定域分析 135
4.7.3搜索未被分析的域 136
4.8语言分析 139
4.8.1Unicode与字符编码 139
4.8.2非英语语种分析 140
4.8.3字符规范化处理 140
4.8.4亚洲语种分析 141
4.8.5有关非英语语种分析的其他问题 143
4.9Nutch分析 144
4.10小结 146
第5章高级搜索技术147
5.1Lucene域缓存 148
5.1.1为所有文档加载域值 149
5.1.2段对应的reader 149
5.2对搜索结果进行排序 150
5.2.1根据域值进行排序 150
5.2.2按照相关性进行排序 153
5.2.3按照索引顺序进行排序 154
5.2.4通过域进行排序 154
5.2.5倒排序 155
5.2.6通过多个域进行排序 156
5.2.7为排序域选择类型 157
5.2.8使用非默认的locale方式进行排序 157
5.3使用MultiPhraseQuery 158
5.4针对多个域的一次性查询 160
5.5跨度查询 162
5.5.1跨度查询的构建模块:SpanTermQuery 165
5.5.2在域的起点查找跨度 166
5.5.3彼此相邻的跨度 167
5.5.4在匹配结果中排除重叠的跨度 169
5.5.5SpanOrQuery类 170
5.5.6SpanQuery类和QueryParser类 171
5.6搜索过滤 172
5.6.1TermRangeFilter 173
5.6.2NumericRangeFilter 174
5.6.3FieldCacheRangeFilter 174
5.6.4特定项过滤 174
5.6.5使用QueryWrapperFilter类 175
5.6.6使用SpanQueryFilter类 175
5.6.7安全过滤器 176
5.6.8使用BooleanQuery类进行过滤 177
5.6.9PrefixFilter 178
5.6.10缓存过滤结果 178
5.6.11将filter封装成query 179
5.6.12对过滤器进行过滤 179
5.6.13非Lucene内置的过滤器 180
5.7使用功能查询实现自定义评分 180
5.7.1功能查询的相关类 180
5.7.2使用功能查询对最近修改过的文档进行加权 182
5.8针对多索引的搜索 184
5.8.1使用MultiSearch类 184
5.8.2使用ParallelMultiSearcher进行多线程搜索 186
5.9使用项向量 186
5.9.1查找相似书籍 187
5.9.2它属于哪个类别 190
5.9.3TermVectorMapper类 193
5.10使用FieldSelector加载域 194
5.11停止较慢的搜索 195
5.12小结 196
第6章扩展搜索198
6.1使用自定义排序方法 199
6.1.1针对地理位置排序方式进行文档索引 199
6.1.2实现自定义的地理位置排序方式 200
6.1.3访问自定义排序中的值 203
6.2开发自定义的Collector 204
6.2.1Collector基类 205
6.2.2自定义Collector:BookLinkCollector 206
6.2.3AllDocCollector类 207
6.3扩展QueryParser类 208
6.3.1自定义QueryParser的行为 208
6.3.2禁用模糊查询和通配符查询 209
6.3.3处理数值域的范围查询 210
6.3.4处理日期范围 211
6.3.5对已排序短语进行查询 213
6.4自定义过滤器 215
6.4.1实现自定义过滤器 215
6.4.2搜索期间使用自定义过滤器 216
6.4.3另一种选择:FilterQuery类 217
6.5有效载荷(Payloads) 218
6.5.1分析期间生成有效载荷 219
6.5.2搜索期间使用有效载荷 220
6.5.3有效载荷和跨度查询 223
6.5.4通过TermPositions来检索有效载荷 223
6.6小结 223
第2部分Lucene应用
第7章使用Tika提取文本227
7.1Tika是什么 228
7.2Tika的逻辑设计和API 230
7.3安装Tika 231
7.4Tika的内置文本提取工具 232
7.5编程实现文本提取 234
7.5.1索引Lucene文档 234
7.5.2Tika工具类 237
7.5.3选择自定义分析器 238
7.6Tika的局限 238
7.7索引自定义的XML文件 239
7.7.1使用SAX进行解析 239
7.7.2使用Apache Commons Digester进行解析和索引 242
7.8其他选择 244
7.9小结 245
第8章Lucene基本扩展246
8.1Luke:Lucene的索引工具箱 247
8.1.1Overview标签页:索引的全局视图 248
8.1.2浏览文档 249
8.1.3使用QueryParser进行搜索 251
8.1.4Files and Plugins标签页 252
8.2分析器、语汇单元器和语汇单元过滤器 253
8.2.1SnowballAnalyzer 255
8.2.2Ngram过滤器 256
8.2.3Shingle过滤器 258
8.2.4获取捐赠分析器 258
8.3高亮显示查询项 259
8.3.1高亮显示模块 259
8.3.2独立的高亮显示示例 262
8.3.3使用CSS进行高亮显示处理 263
8.3.4高亮显示搜索结果 264
8.4FastVector Highlighter类 266
8.5拼写检查 269
8.5.1生成提示列表 269
8.5.2选择最佳提示 271
8.5.3向用户展示搜索结果 272
8.5.4一些加强拼写检查的考虑 273
8.6引人注目的查询扩展功能 274
8.6.1MoreLikeThis 274
8.6.2FuzzyLikeThisQuery 275
8.6.3BoostingQuery 275
8.6.4TermsFilter 276
8.6.5DuplicateFilter 276
8.6.6RegexQuery 276
8.7构建软件捐赠模块(contrib mole) 277
8.7.1源代码获取方式 277
8.7.2contrib目录的Ant插件 277
8.8小结 278
第9章Lucene高级扩展279
9.1链式过滤器 280
9.2使用Berkeley DB存储索引 282
9.3WordNet同义词 284
9.3.1建立同义词索引 285
9.3.2将WordNet同义词链接到分析器中 287
9.4基于内存的快速索引 289
9.5XML QueryParser:超出“one box”的搜索接口 289
9.5.1使用XmlQueryParser 291
9.5.2扩展XML查询语法 295
9.6外围查询语言 296
9.7Spatial Lucene 298
9.7.1索引空间数据 299
9.7.2搜索空间数据 302
9.7.3Spatial Lucene的性能特点 304
9.8远程进行多索引搜索 306
9.9灵活的QueryParser 309
9.10其他内容 312
9.11小结 313
第10章其他编程语言使用Lucene314
10.1移植入门 315
10.1.1移植取舍 316
10.1.2选择合适的移植版本 317
10.2CLucene(C++) 317
10.2.1移植目的 318
10.2.2API和索引兼容 319
10.2.3支持的平台 321
10.2.4当前情况以及未来展望 321
10.3Lucene-Net(C#和其他.NET编程语言) 321
10.3.1API兼容 323
10.3.2索引兼容 324
10.4KinoSearch和Lucy(Perl) 324
10.4.1KinoSearch 325
10.4.2Lucy 327
10.4.3其他Perl选项 327
10.5Ferret(Ruby) 328
10.6PHP 329
10.6.1Zend Framework 329
10.6.2PHP Bridge 330
10.7PyLucene(Python) 330
10.7.1API兼容 332
10.7.2其他Python选项 332
10.8Solr(包含多种编程语言) 332
10.9小结 334
第11章Lucene管理和性能调优335
11.1性能调优 336
11.1.1简单的性能调优步骤 337
11.1.2测试方法 338
11.1.3索引-搜索时延调优 339
11.1.4索引操作吞吐量调优 340
11.1.5搜索时延和搜索吞吐量调优 344
11.2多线程和并行处理 346
11.2.1使用多线程进行索引操作 347
11.2.2使用多线程进行搜索操作 351
11.3资源消耗管理 354
11.3.1磁盘空间管理 354
11.3.2文件描述符管理 357
11.3.3内存管理 361
11.4热备份索引 364
11.4.1创建索引备份 365
11.4.2恢复索引 366
11.5常见错误 367
11.5.1索引损坏 367
11.5.2修复索引 369
11.6小结 369
第3部分案例分析
第12章案例分析1:Krugle373
12.1Krugle介绍 374
12.2应用架构 375
12.3搜索性能 376
12.4源代码解析 377
12.5子串搜索 378
12.6查询VS搜索 381
12.7改进空间 382
12.7.1FieldCache内存使用 382
12.7.2合并索引 382
12.8小结 383
第13章案例分析2:SIREn384
13.1SIREn介绍 385
13.2SIREn优势 385
13.2.1通过所有域进行搜索 387
13.2.2一种高效词典 388
13.2.3可变域 388
13.2.4对多值域的高效处理 388
13.3使用SIREn索引实体 388
13.3.1数据模型 389
13.3.2实现问题 389
13.3.3索引概要 390
13.3.4索引前的数据准备 390
13.4使用SIREn搜索实体 392
13.4.1搜索内容 392
13.4.2根据单元限制搜索范围 393
13.4.3将单元合并成元组 393
13.4.4针对实体描述进行查询 394
13.5在Solr中集成SIREn 394
13.6Benchmark 395
13.7小结 397
第14章案例分析3:LinkedIn398
14.1使用Bobo Browse进行分组搜索 398
14.1.1Bobo Browse的设计 400
14.1.2深层次分组搜索 403
14.2使用Zoie进行实时搜索 405
14.2.1Zoie架构 406
14.2.2实时VS近实时 409
14.2.3文档与索引请求 411
14.2.4自定义IndexReaders 411
14.2.5与Lucene的近实时搜索进行比较 412
14.2.6分布式搜索 413
14.3小结 415
附录A安装Lucene416
A.1二进制文件安装 416
A.2运行命令行演示程序 417
A.3运行Web应用演示程序 418
A.4编译源代码 419
A.5排错 420
附录BLucene索引格式421
B.1逻辑索引视图 421
B.2关于索引结构 422
B.2.1理解多文件索引结构 422
B.2.2理解复合索引结构 425
B.2.3转换索引结构 426
B.3倒排索引 427
B.4小结 430
附录CLucene/contrib benchmark431
C.1运行测试脚本 432
C.2测试脚本的组成部分 435
C.2.1内容源和文档生成器 438
C.2.2查询生成器 439
C.3控制结构 439
C.4内置任务 441
C.4.1建立和使用行文件 445
C.4.2内置报表任务 446
C.5评估搜索质量 446
C.6出错处理 449
C.7小结 449
附录D资源450
D.1Lucene知识库 450
D.2国际化 450
D.3语言探测 451
D.4项向量 451
D.5Lucene移植版本 451
D.6案例分析 452
D.7其他 452
D.8信息检索软件 452
D.9Doug Cutting的着作 453
D.9.1会议论文 453
D.9.2美国专利 454

阅读全文

与pythontika相关的资料

热点内容
dvd光盘存储汉子算法 浏览:757
苹果邮件无法连接服务器地址 浏览:962
phpffmpeg转码 浏览:671
长沙好玩的解压项目 浏览:144
专属学情分析报告是什么app 浏览:564
php工程部署 浏览:833
android全屏透明 浏览:736
阿里云服务器已开通怎么办 浏览:803
光遇为什么登录时服务器已满 浏览:302
PDF分析 浏览:484
h3c光纤全工半全工设置命令 浏览:143
公司法pdf下载 浏览:381
linuxmarkdown 浏览:350
华为手机怎么多选文件夹 浏览:683
如何取消命令方块指令 浏览:349
风翼app为什么进不去了 浏览:778
im4java压缩图片 浏览:362
数据查询网站源码 浏览:150
伊克塞尔文档怎么进行加密 浏览:892
app转账是什么 浏览:163