pythontika_有沒有好一點的讀取pdf的python包

⑴ java爬蟲的話有哪些框架

像比較新的webmagic

⑵ python腳本將DOC格式轉換成pdf 沒問題但是將TXT格式轉換成PDF 會出現路亂碼，請大蝦指點下

用什麼 w32com啊。用python的一個開源包。或者是用apache的tika（java）版本。或者是你用openoffice。

用了python就和winows再見吧。因為只有linux上才是最好用的。然後就和開源結親了。各種包，基本上應有盡有。

你的這個問題其實挺簡單的。很可能是編碼的問題。建議你先將txt轉換成doc，再將doc轉換成pdf。這樣就繞過去了。問題不一定要強行解決。學著繞過去。

⑶ 有沒有好一點的讀取pdf的python包

最近在做一些數據分析的任務，很多都是pdf文件，試過pdfminer，pypdf2。pdfminer可以較好地讀出裡面的文字內容，但是一旦碰到類似於表格的排版，就會分塊按列來讀，導致解析出來的結果排班很亂。比如下面圖片中的內容

解析出來是：

教育背景

2011.09-2015.06

重慶大學

工作經歷

軟體工程

而我預期的是：

教育背景

2011.09-2015.06 重慶大學軟體工程

工作經歷

pypdf2效果更一般，很多中文字和符號都不能識別。Textract，Tika我也試過，都不行。請問大家有沒有更好的python PDF包呢？或者是我的處理方式不對？我的代碼如下：

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
from subprocess import call
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile, check_extractable=True)
device.close()
content = retstr.getvalue()
retstr.close()
return content

你可以試一下在線pdf裝換試試效果

效果好的話用再selenium來處理

在用其他包轉你需要的

我覺得你的那個包不好用是不是因為沒有那種字體啊？

⑷ 什麼是mongodb，zookeeper，redis，solr

Name HBase Memcached MongoDB Redis Solr
Description Wide-column store based on Apache Hadoop and on concepts of BigTable In-memory key-value store, originally intended for caching One of the most popular document stores In-memory database with configurable options performance vs. persistency A widely usedenterprise search engine based onApache Lucene
Developer Apache Software Foundation Danga Interactive MongoDB, Inc Salvatore Sanfilippo Apache Software Foundation
Initial release 2008 2003 2009 2009 2004
License Open Source Open Source Open Source Open Source Open Source
Implementation language Java C C++ C Java
Server operating systems Linux Linux Linux Linux All OS with a Java VM and a servlet container
Unix Unix
OS X OS X
Windows Windows Windows Windows
FreeBSD Solaris BSD
Database model Wide column store Key-value store Document store Key-value store Search engine
Data scheme schema-free schema-free schema-free schema-free yes
Typing no no yes no yes
Secondary indexes no no yes no yes
SQL no no no no no
APIs and other access methods Java API Proprietary protocol proprietary protocol using JSON proprietary protocol Java API
RESTful HTTP API RESTful HTTP API
Thrift
Supported programming languages C C C C
C# .Net C# C# .Net
C++ C++ C++ C++
Groovy ColdFusion Groovy Clojure
Java Java Java Java Java
Erlang Erlang Erlang Erlang
Python Python Python Python Python
Scala Lua Scala Scala Scala
Ruby Ruby Ruby Ruby
PHP PHP PHP PHP PHP
JavaScript JavaScript JavaScript
Perl Perl Perl Perl
OCaml Lua Lua any language that supports sockets and either XML or JSON
Lisp Lisp Lisp
Dart Dart
ColdFusion
Go Go
Actionscript Objective-C
Haskell Haskell
Smalltalk Smalltalk
Clojure Tcl
MatLab
PowerShell
Prolog
Server-side scripts yes no JavaScript Lua Java plugins
Triggers yes no no no no
Partitioning methods Sharding none Sharding none Sharding

Replication methods selectable replication factor none Master-slave replication Master-slave replication cloud/distributed (via Zookeeper)
Master-slave replication
MapRece yes no yes no no
Consistency concepts Immediate Consistency Eventual Consistency Eventual Consistency
Immediate Consistency
Foreign keys no no no no no
Transaction concepts no no no optimistic locking optimistic locking

Concurrency yes yes yes yes yes
Durability yes no yes yes yes
User concepts Access Control Lists (ACL) yes Users can be defined with full access or read-only access very simple password-based access control
Specific characteristics Redis very much emphasize performance. In any design decisions performance has priority over features or memory requirements. Architecture: Lives in web stack, ships by default with Jetty. Connectors, JDBC, multiple languages, true morphological CJK, binary document filters (Tika), Entity Extraction (UIMA)
Typical application scenarios Mostly used for caching Applications that can hold all data in memory, and that have high performance requirements.

⑸ 如何在mac上用python批量將word文件轉成txt文件 / 網路技術編程

python實現起來可能沒有現成解決方案。因為py庫可能沒有全面的office套件解析器。

mac想批量轉，很容易。

安裝openoffice。
終端執行 soffice --headless --convert-to txt my_file.doc/.docx
如果批量將當前目錄下所有doc轉為txt，則寫過簡單shell：
for i in `ls *doc`; do soffice --headless --convert-to txt $i ; done; 即可。
以上同時適用linux。

⑹ Python office 文件轉 pdf 有沒有什麼好的方案

⑺ 求盡量多的英語單詞

動物squirrel 松鼠
kangaroo 袋鼠
crocodile 鱷魚
lobster 龍蝦
crucian 鯽魚
cuttlefish 烏賊
chimpanzee 黑猩猩
gorilla 大猩猩
orangutan 猩猩
gibbon 長臂猿
sloth 獺猴
horse 馬
mare 母馬
colt, foal 馬駒,小馬
pony 矮馬
thoroughbred 純種馬
mustang 野馬
mule 騾
ass, donkey 驢
Giraffe 長頸鹿
Deer 鹿
Leopard 豹
Chimpanzees 黑猩猩
Kangaroo 袋鼠
Ox 牛
Hedgehog 刺蝟
Rhinoceros 犀牛
Camel 駱駝
Hippopotamus 河馬
Crocodile 鱷魚
Rabbit 兔子
Tortoise 烏龜
Squirrel 松鼠
Zebra 斑馬
Crane 鶴
Penguin 企鵝
Ostrich 鴕鳥
Ladybird 雌鳥
adder, viper 蝰蛇
albatross 信天翁
alligator 短吻鱷, 美洲鱷
alpaca 羊駝
anchovy 鳳尾魚
anglerfish 安康魚
anopheles 按蚊,瘧蚊
anteater 食蟻獸
antilope 羚羊
armadillo 犰狳
ass, donkey 驢
badger 獾
bald eagle 白頭鷹
beaver 河狸
bedbug, bug 臭蟲
beetle 甲蟲, 金龜子
billy 雄山羊
bird of paradise 極樂鳥, 天堂鳥
bison 美洲野牛
blackbird 烏鶇
boa 王蛇
boar 雄豬, 種豬
brood 雞的統稱
buck 公兔
buffalo 水牛
bull, ox 雄牛
bullfrog 牛蛙
bullock, steer 小閹牛
bumble bee 大黃蜂
cabbage butterfly 紋白蝶
caiman, cayman 凱門鱷
calf 小牛, 牛犢
calf( pl. calves) 年幼的牛
canary 金絲雀
carp 鯉魚
centipede 蜈蚣
chaffinch 蒼頭燕雀
chameleon 變色龍,避役
chimpanzee 黑猩猩
chinchilla 南美栗鼠
chub 鰱魚
cicada 蟬
clam 蚌
cob 雄天鵝
cobra 眼鏡蛇
cod 鱈魚
colt, foal 馬駒,小馬
condor 禿鷹
copperhead 美洲腹蛇
coral snake 銀環蛇
cormorant 鸕鶿
crayfish 小龍蝦, 喇蛄
crucian 鯽魚
cuckoo 杜鵑,布穀鳥
cuttloefish 烏賊
cygnet 小天鵝
dormouse 睡鼠
dromedary 單峰駝
drone 雄蜂
ckbill, platypus 鴨嘴獸
eagle 鷹
eel 鰻魚
ferret 雪貂
flea 跳蚤
flock 綿羊的統稱
foal, colt, filly 幼馬
gannet 塘鵝
gavial 印度鱷
gazelle 小羚羊
gelding 閹割的馬
giant salamander 娃娃魚, 鯢
gibbon 長臂猿
gilt 小母豬
giraffe 長頸鹿
glowworm, firefly 螢火蟲
golden eagle 鷲
goldfinch 金翅雀
goose 雌鵝
goose 鵝
gopher 囊地鼠
gorilla 大猩猩
gosling 幼鵝
grass snake 草蛇
grasshopper 蚱蜢
grouse 松雞
guanaco 原駝
Guinea pig 豚鼠
guinea, fowl 珍珠雞
gull, seagull 海鷗
hake 無須鱈
hare 野兔
hawk, falcon 隼
hedgehog 刺蝟
hermit crab 寄居蟹
heron 蒼鷹
herring 青魚, 鯡
hinny 驢騾
hippopotamus 河馬
hog 閹豬, 肥豬
horse 馬
horsefly, gadfly 廄蠅,牛虻
hummingbird 蜂雀
hyena, hyaena 鬣狗
iguana 鬣蜥
Japanese beetle 日本金龜子
jenny ass 雌驢
kangaroo 袋鼠
kid 年幼的山羊
kingfisher 翠鳥
kite 鷂
koala 考拉, 樹袋熊
ladybird 瓢蟲
lamb 羊羔,羔羊
large prawn 大對蝦
lark 百鳥,雲雀
lion 獅
lizard 蜥蜴
llama 大羊駝
locust 蝗蟲
louse, lice 虱子, 白虱
lynx 猞猁
macaw 金剛鸚鵡
mackerel 鯖,鮐
magpie 喜鵲
male ant 雄蟻
mallard 野鴨, 鳧
mare 母馬
marmot 土撥鼠
moccasin 嗜魚蛇
mole 鼴鼠
moth 蛾
mouse 家鼠
mule 騾
mullet 烏魚, 黑魚
mussel 淡菜,貽貝
mustang 野馬
nanny 雌山羊
nightingale 夜鶯
Norway lobster 蟬蝦
octopus 章魚
orangutan 猩猩
ostrich 鴕鳥
otter 水獺
owl 梟,貓頭鷹
oyster 牡蠣
pale clouded yellow 紋黃蝶
panther, puma 美洲豹
parakeet 長尾鸚鵡
partridge 石雞, 鷓鴣
pelican 鵜鶘
penguin 企鵝
perch 鱸魚
pheasant 雉, 野雞
pig, swine 豬
pigeon 野鴿
piglet, shoat 年幼的豬
pike 梭子魚
plaice 鰈
plover 千鳥
pony 矮馬
porcupine 箭豬, 豪豬
porpoise 大西洋鼠海豚
poult 小火雞
praying mantis 螳螂
ptarmigan 雷鳥
pup 年幼的狗
python 蟒蛇
quail 鵪鶉
queen ant 蟻後
queen bee 蜂王
rattlesnake 響尾蛇
ray 鰩魚
red mullet, surmullet 羊魚
reindeer 馴鹿
rhinoceros 犀牛
robin 知更鳥
sailfish 旗魚
salamander, triton, newt 蠑螈
salmon 鮭魚
sardine 沙丁魚
scallop 扇貝
scops owl 角梟,耳鳥
scorpion 蠍子
sea bream 海鯛
sea horse 海馬
sea turtle 海龜
sea urchin 海膽
seal 海豹
shark 鯊魚
sheep 綿羊
shrimp 對蝦
silkworm moth 蠶蛾
silverfish 蠹蟲
skipjack 鰹魚
sloth 獺猴
snipe 鷸
sole 舌鰨
sow 雌豬
spider crab 蜘蛛蟹
spiny lobster, rock lobster 大螯蝦
squid 槍烏賊,魷魚
squirrel 松鼠
stallion 雄馬
starling 八哥
stink bug 椿象
stork 鸛
sturgeon 鱘魚
sulphur butterfly 白蝴蝶
sunfish 翻車魚
swallow 燕子
swallowtail 鳳尾蝶
swift 褐雨燕
swordfish 劍魚
tabby, she-cat, grimalkin 雌貓
tarantula 多毛毒蜘蛛
tarpon 大海鰱
teal 小野鴨
termite 蟻
thoroughbred 純種馬
thrush 畫眉
toad 蟾蜍
tom 雄火雞
tomcat 雄貓
tomcat 雄貓, 公貓
tortoise 玳瑁
trout 鱒魚
tuatara 古蜥蜴
tunny, tuna 金槍魚
turbot 大菱鮃
turkey 火雞
turtle dove 斑鳩
vicuna 小羊駝
vole 田鼠
vulture 禿鷲
wall lizard 壁虎
walrus 海象
wasp 黃蜂, 胡蜂
water buffalo 水牛
weasel 鼬,黃鼠狼
whale 鯨
white ant 白蟻
whitethroat 白喉雀
whiting 小無須鱈
wiggler 孑孓
woodpecker 啄木鳥
worker ant 工蟻
yak 氂牛
stallion 雄馬
mare 雌馬
foal, colt, filly 幼馬
gelding 閹割的馬
donkey, ass 驢
donkey 雄驢
jenny ass 雌驢
hinny 驢騾
mule 馬騾
herd 牛的統稱
water buffalo 水牛
yak 氂牛
服裝名001，里料：LINING

002，面料：FABRIC

003，平紋：TAFFETA

004，斜紋：TWILL

005，緞面：SATIN / CHARMEUSE

006，綃：LUSTRINE

007，提花：JACQUARD

008，爛花：BURNT-OUT

009，春亞紡：PONGEE

010，格子：CHECK

011，條子：STRIPE

012，雙層：DOUBLE – LAYER

013，雙色：TWO – TONE

014，花瑤： FAILLE

015，高士寶：KOSHIBO

016，雪紡：CHIFFON

017，喬其：GEORGETTE

018，塔絲隆：TASLON

019，彈力布：SPANDEX/ELASTIC/STREC/LYCRA

020，牛仔布：JEANET

021，牛津布：OXFORD

022，帆布：CAMBRIC

023，滌棉：P/C

024，滌捻：T/R

025，白條紡：WHITE STRIPE

026，黑條紡：BLACK STRIPE

027，空齒紡：EMPTY STRIPE

028，水洗絨/桃皮絨：PEACH SKIN

029，卡丹絨：PEACH TWILL

030，縐絨：PEACH MOSS

031，玻璃紗：ORGANDY

032，滌綸：PLOYESTER

033，錦綸：NYLON/POLYAMIDE

034，醋酸：ACETATE

035，棉； COTTON

036，人棉：RAYON

037，人絲：VISCOSE

038，模擬絲：IMITATED SILK FABRIC

039，真絲：SILK

040，氨綸：SPANDEX/ELASTIC/STREC/LYCRA

041，長絲：FILAMENT

042，短纖：SPUN

043，黑絲：BLACK YARN

044，陽離子：CATION

045，三角異形絲：TRIANGLE PROFILE

046，空氣變形絲：AIR-JET TEXTURING YARN

047，超細纖維：MICRO – FIBRIC

048，全拉伸絲：FDY （FULL DRAWN YARN）

049，預取向絲：POY（PREORIENTED YARN）

050，拉伸變形絲：DTY（DRAW TEXTURED YARN）

051，牽伸加捻絲： DT （DRWW TWIST）

服裝面料英語(二)

052，靛藍青年布：Indigo chambray

053，人棉布植絨：Rayon cloth flocking

054，PVC植絨：PVC flocking

055，針織布植絨：Knitting cloth flocking

056，珠粒絨：Claimond veins

057，倒毛：Down pile making

058，平絨：velveteen (velvet-plain)

059，仿麂皮：Micro suede

060，牛仔皮植絨：Jeans flocking

061，尼絲紡：Nylon taffeta (Nylon shioze)

062，尼龍塔夫泡泡紗：Nylon seersucker taffeta

063，素麵植絨：plain flocking

064，印花植絨：flocking(flower)

065，雕印植絨：Embossing flocking

066，皮革溝底植絨：Leather imitation flocking

067，牛仔植絨雕印：Embossing jeans flocking

068，兔羊絨大衣呢：Angora cachmere overcoating

069，雙面呢：double-faced woolen goods羊毛

070，立絨呢：cut velvet

071，順毛呢：over coating

072，粗花呢：costume tweed

073，彈力呢：lycra woolen goods

074，塔絲絨： Nylon taslon

075，塔絲絨格子：N/Taslon ripstop

076，桃皮絨：polyester peach skin

077，滌塔夫：polyester taff
一、蔬菜
string bean 四季豆
pea 豌豆
green soy bean 毛豆
soybean sprout 黃豆芽
mung bean sprout 綠豆芽
bean sprout 豆芽
kale 甘藍菜
cabbage 包心菜; 大白菜
broccoli 花椰菜
mater convolvulus 空心菜
dried lily flower 金針菜
mustard leaf 芥菜
celery 芹菜
tarragon 蒿菜
beetroot 甜菜根
lettuce 生菜
spinach 菠菜
leek 韭菜
caraway 香菜
preserved szechuan pickle 榨菜
salted vegetable 雪裡紅
lettuce 萵苣
asparagus 蘆薈
bamboo shoot 竹筍
dried bamboo shoot 筍干
carrot 胡蘿卜
water chestnut 荸薺
long crooked squash 菜瓜
loofah 絲瓜
pumpkin 南瓜
bitter gourd 苦瓜
cucumber 黃瓜
white gourd 冬瓜
gherkin 小黃瓜
yam 山芋
taro 芋頭
champignon 香菇
needle mushroom 金針菇
dried mushroom 冬菇
tomato 番茄
eggplant 茄子
potato, spud 馬鈴薯
lotus root 蓮藕
agaric 木耳
white fungus 百木耳
ginger 生薑
garlic 大蒜
garlic bulb 蒜頭
green onion 蔥
onion 洋蔥
scallion, leek 青蔥
wheat gluten 麵筋
miso 味噌

二、水果:
pineapple 鳳梨
watermelon 西瓜
papaya 木瓜
betelnut 檳榔
chestnut 栗子
coconut 椰子
ponkan 碰柑
tangerine 橘子
mandarin orange 橘
sugar-cane 甘蔗
muskmelon 香瓜
shaddock 柚子，文旦
juice peach 水蜜桃
pear 梨子
peach 桃子
carambola 楊桃
cherry 櫻桃
persimmon 柿子
apple 蘋果
mango 芒果
fig 無花果
water caltrop 菱角
almond 杏仁
plum 李子
honey-dew melon 哈密瓜
loquat 枇杷
olive 橄欖
rambutan 紅毛丹
rian 榴槤
strawberry 草莓
grape 葡萄
grapefruit 葡萄柚
lichee 荔枝
longan 龍眼
wax-apple 蓮霧
guava 番石榴
banana 香蕉

⑻ Lucene實戰的目錄

目錄
第1部分Lucene核心
第1章初識Lucene 3
1.1應對信息爆炸 4
1.2Lucene是什麼 5
1.2.1Lucene能做些什麼 6
1.2.2Lucene的歷史 7
1.3Lucene和搜索程序組件 9
1.3.1索引組件 10
1.3.2搜索組件 13
1.3.3搜索程序的其他模塊 16
1.3.4Lucene與應用程序的整合點 18
1.4Lucene實戰：程序示例 18
1.4.1建立索引 19
1.4.2搜索索引 22
1.5理解索引過程的核心類 25
1.5.1IndexWriter 25
1.5.2Directory 25
1.5.3Analyzer 26
1.5.4Document 26
1.5.5Field 27
1.6理解搜索過程的核心類 27
1.6.1IndexSearcher 27
1.6.2Term 28
1.6.3Query 28
1.6.4TermQuery 28
1.6.5TopDocs 29
1.7小結 29
第2章構建索引30
2.1Lucene如何對搜索內容進行建模 31
2.1.1文檔和域 31
2.1.2靈活的架構 32
2.1.3反向規格化(Denormalization) 32
2.2理解索引過程 33
2.2.1提取文本和創建文檔 33
2.2.2分析文檔 34
2.2.3向索引添加文檔 34
2.3基本索引操作 35
2.3.1向索引添加文檔 35
2.3.2刪除索引中的文檔 38
2.3.3更新索引中的文檔 39
2.4域選項 41
2.4.1域索引選項 41
2.4.2域存儲選項 42
2.4.3域的項向量選項 42
2.4.4Reader、TokenStream和byte[ ]域值 42
2.4.5域選項組合 43
2.4.6域排序選項 44
2.4.7多值域 44
2.5對文檔和域進行加權操作 45
2.5.1文檔加權操作 45
2.5.2域加權操作 46
2.5.3加權基準(Norms) 47
2.6索引數字、日期和時間 48
2.6.1索引數字 48
2.6.2索引日期和時間 49
2.7域截取(Field truncation) 50
2.8近實時搜索(Near-real-time search) 51
2.9優化索引 51
2.10其他Directory子類 52
2.11並發、線程安全及鎖機制 55
2.11.1線程安全和多虛擬機安全 55
2.11.2通過遠程文件系統訪問索引 56
2.11.3索引鎖機制 57
2.12調試索引 59
2.13高級索引概念 60
2.13.1用IndexReader刪除文檔 61
2.13.2回收被刪除文檔所使用過的磁碟空間 62
2.13.3緩沖和刷新 62
2.13.4索引提交 63
2.13.5ACID事務和索引連續性 65
2.13.6合並段 66
2.14小結 68
第3章為應用程序添加搜索功能70
3.1實現簡單的搜索功能 71
3.1.1對特定項的搜索 72
3.1.2解析用戶輸入的查詢表達式：QueryParser 73
3.2使用IndexSearcher類 76
3.2.1創建IndexSearcher類 76
3.2.2實現搜索功能 78
3.2.3使用TopDocs類 78
3.2.4搜索結果分頁 79
3.2.5近實時搜索 79
3.3理解Lucene的評分機制 81
3.3.1Lucene如何評分 81
3.3.2使用explain()理解搜索結果評分 83
3.4Lucene的多樣化查詢 84
3.4.1通過項進行搜索：TermQuery類 85
3.4.2在指定的項范圍內搜索：TermRangeQuery類 86
3.4.3在指定的數字范圍內搜索：NumericRangeQuery類 87
3.4.4通過字元串搜索：PrefixQuery類 88
3.4.5組合查詢：BooleanQuery類 88
3.4.6通過短語搜索：PhraseQuery類 91
3.4.7通配符查詢：WildcardQuery類 93
3.4.8搜索類似項：FuzzyQuery類 94
3.4.9匹配所有文檔：MatchAllDocsQuery類 95
3.5解析查詢表達式：QueryParser 96
3.5.1Query.toString方法 97
3.5.2TermQuery 97
3.5.3項范圍查詢 98
3.5.4數值范圍搜索和日期范圍搜索 99
3.5.5前綴查詢和通配符查詢 99
3.5.6布爾操作符 100
3.5.7短語查詢 100
3.5.8模糊查詢 101
3.5.9MatchAllDocsQuery 102
3.5.10分組查詢 102
3.5.11域選擇 103
3.5.12為子查詢設置加權 103
3.5.13是否一定要使用QueryParse 103
3.6小結 104
第4章Lucene的分析過程 105
4.1使用分析器 106
4.1.1索引過程中的分析 107
4.1.2QueryParser分析 109
4.1.3解析vs分析：分析器何時不再適用 109
4.2剖析分析器 110
4.2.1語匯單元的組成 111
4.2.2語匯單元流揭秘 112
4.2.3觀察分析器 115
4.2.4語匯單元過濾器：過濾順序的重要性 119
4.3使用內置分析器 121
4.3.1StopAnalyzer 122
4.3.2StandardAnalyzer 122
4.3.3應當採用哪種核心分析器 123
4.4近音詞查詢 123
4.5同義詞、別名和其他表示相同意義的詞 126
4.5.1創建SynonymAnalyzer 127
4.5.2顯示語匯單元的位置 131
4.6詞干分析 132
4.6.1StopFilter保留空位 133
4.6.2合並詞干操作和停用詞移除操作 134
4.7域分析 134
4.7.1多值域分析 135
4.7.2特定域分析 135
4.7.3搜索未被分析的域 136
4.8語言分析 139
4.8.1Unicode與字元編碼 139
4.8.2非英語語種分析 140
4.8.3字元規范化處理 140
4.8.4亞洲語種分析 141
4.8.5有關非英語語種分析的其他問題 143
4.9Nutch分析 144
4.10小結 146
第5章高級搜索技術147
5.1Lucene域緩存 148
5.1.1為所有文檔載入域值 149
5.1.2段對應的reader 149
5.2對搜索結果進行排序 150
5.2.1根據域值進行排序 150
5.2.2按照相關性進行排序 153
5.2.3按照索引順序進行排序 154
5.2.4通過域進行排序 154
5.2.5倒排序 155
5.2.6通過多個域進行排序 156
5.2.7為排序域選擇類型 157
5.2.8使用非默認的locale方式進行排序 157
5.3使用MultiPhraseQuery 158
5.4針對多個域的一次性查詢 160
5.5跨度查詢 162
5.5.1跨度查詢的構建模塊：SpanTermQuery 165
5.5.2在域的起點查找跨度 166
5.5.3彼此相鄰的跨度 167
5.5.4在匹配結果中排除重疊的跨度 169
5.5.5SpanOrQuery類 170
5.5.6SpanQuery類和QueryParser類 171
5.6搜索過濾 172
5.6.1TermRangeFilter 173
5.6.2NumericRangeFilter 174
5.6.3FieldCacheRangeFilter 174
5.6.4特定項過濾 174
5.6.5使用QueryWrapperFilter類 175
5.6.6使用SpanQueryFilter類 175
5.6.7安全過濾器 176
5.6.8使用BooleanQuery類進行過濾 177
5.6.9PrefixFilter 178
5.6.10緩存過濾結果 178
5.6.11將filter封裝成query 179
5.6.12對過濾器進行過濾 179
5.6.13非Lucene內置的過濾器 180
5.7使用功能查詢實現自定義評分 180
5.7.1功能查詢的相關類 180
5.7.2使用功能查詢對最近修改過的文檔進行加權 182
5.8針對多索引的搜索 184
5.8.1使用MultiSearch類 184
5.8.2使用ParallelMultiSearcher進行多線程搜索 186
5.9使用項向量 186
5.9.1查找相似書籍 187
5.9.2它屬於哪個類別 190
5.9.3TermVectorMapper類 193
5.10使用FieldSelector載入域 194
5.11停止較慢的搜索 195
5.12小結 196
第6章擴展搜索198
6.1使用自定義排序方法 199
6.1.1針對地理位置排序方式進行文檔索引 199
6.1.2實現自定義的地理位置排序方式 200
6.1.3訪問自定義排序中的值 203
6.2開發自定義的Collector 204
6.2.1Collector基類 205
6.2.2自定義Collector：BookLinkCollector 206
6.2.3AllDocCollector類 207
6.3擴展QueryParser類 208
6.3.1自定義QueryParser的行為 208
6.3.2禁用模糊查詢和通配符查詢 209
6.3.3處理數值域的范圍查詢 210
6.3.4處理日期范圍 211
6.3.5對已排序短語進行查詢 213
6.4自定義過濾器 215
6.4.1實現自定義過濾器 215
6.4.2搜索期間使用自定義過濾器 216
6.4.3另一種選擇：FilterQuery類 217
6.5有效載荷(Payloads) 218
6.5.1分析期間生成有效載荷 219
6.5.2搜索期間使用有效載荷 220
6.5.3有效載荷和跨度查詢 223
6.5.4通過TermPositions來檢索有效載荷 223
6.6小結 223
第2部分Lucene應用
第7章使用Tika提取文本227
7.1Tika是什麼 228
7.2Tika的邏輯設計和API 230
7.3安裝Tika 231
7.4Tika的內置文本提取工具 232
7.5編程實現文本提取 234
7.5.1索引Lucene文檔 234
7.5.2Tika工具類 237
7.5.3選擇自定義分析器 238
7.6Tika的局限 238
7.7索引自定義的XML文件 239
7.7.1使用SAX進行解析 239
7.7.2使用Apache Commons Digester進行解析和索引 242
7.8其他選擇 244
7.9小結 245
第8章Lucene基本擴展246
8.1Luke：Lucene的索引工具箱 247
8.1.1Overview標簽頁：索引的全局視圖 248
8.1.2瀏覽文檔 249
8.1.3使用QueryParser進行搜索 251
8.1.4Files and Plugins標簽頁 252
8.2分析器、語匯單元器和語匯單元過濾器 253
8.2.1SnowballAnalyzer 255
8.2.2Ngram過濾器 256
8.2.3Shingle過濾器 258
8.2.4獲取捐贈分析器 258
8.3高亮顯示查詢項 259
8.3.1高亮顯示模塊 259
8.3.2獨立的高亮顯示示例 262
8.3.3使用CSS進行高亮顯示處理 263
8.3.4高亮顯示搜索結果 264
8.4FastVector Highlighter類 266
8.5拼寫檢查 269
8.5.1生成提示列表 269
8.5.2選擇最佳提示 271
8.5.3向用戶展示搜索結果 272
8.5.4一些加強拼寫檢查的考慮 273
8.6引人注目的查詢擴展功能 274
8.6.1MoreLikeThis 274
8.6.2FuzzyLikeThisQuery 275
8.6.3BoostingQuery 275
8.6.4TermsFilter 276
8.6.5DuplicateFilter 276
8.6.6RegexQuery 276
8.7構建軟體捐贈模塊(contrib mole) 277
8.7.1源代碼獲取方式 277
8.7.2contrib目錄的Ant插件 277
8.8小結 278
第9章Lucene高級擴展279
9.1鏈式過濾器 280
9.2使用Berkeley DB存儲索引 282
9.3WordNet同義詞 284
9.3.1建立同義詞索引 285
9.3.2將WordNet同義詞鏈接到分析器中 287
9.4基於內存的快速索引 289
9.5XML QueryParser：超出「one box」的搜索介面 289
9.5.1使用XmlQueryParser 291
9.5.2擴展XML查詢語法 295
9.6外圍查詢語言 296
9.7Spatial Lucene 298
9.7.1索引空間數據 299
9.7.2搜索空間數據 302
9.7.3Spatial Lucene的性能特點 304
9.8遠程進行多索引搜索 306
9.9靈活的QueryParser 309
9.10其他內容 312
9.11小結 313
第10章其他編程語言使用Lucene314
10.1移植入門 315
10.1.1移植取捨 316
10.1.2選擇合適的移植版本 317
10.2CLucene(C++) 317
10.2.1移植目的 318
10.2.2API和索引兼容 319
10.2.3支持的平台 321
10.2.4當前情況以及未來展望 321
10.3Lucene-Net(C#和其他.NET編程語言) 321
10.3.1API兼容 323
10.3.2索引兼容 324
10.4KinoSearch和Lucy(Perl) 324
10.4.1KinoSearch 325
10.4.2Lucy 327
10.4.3其他Perl選項 327
10.5Ferret(Ruby) 328
10.6PHP 329
10.6.1Zend Framework 329
10.6.2PHP Bridge 330
10.7PyLucene(Python) 330
10.7.1API兼容 332
10.7.2其他Python選項 332
10.8Solr(包含多種編程語言) 332
10.9小結 334
第11章Lucene管理和性能調優335
11.1性能調優 336
11.1.1簡單的性能調優步驟 337
11.1.2測試方法 338
11.1.3索引-搜索時延調優 339
11.1.4索引操作吞吐量調優 340
11.1.5搜索時延和搜索吞吐量調優 344
11.2多線程和並行處理 346
11.2.1使用多線程進行索引操作 347
11.2.2使用多線程進行搜索操作 351
11.3資源消耗管理 354
11.3.1磁碟空間管理 354
11.3.2文件描述符管理 357
11.3.3內存管理 361
11.4熱備份索引 364
11.4.1創建索引備份 365
11.4.2恢復索引 366
11.5常見錯誤 367
11.5.1索引損壞 367
11.5.2修復索引 369
11.6小結 369
第3部分案例分析
第12章案例分析1：Krugle373
12.1Krugle介紹 374
12.2應用架構 375
12.3搜索性能 376
12.4源代碼解析 377
12.5子串搜索 378
12.6查詢VS搜索 381
12.7改進空間 382
12.7.1FieldCache內存使用 382
12.7.2合並索引 382
12.8小結 383
第13章案例分析2：SIREn384
13.1SIREn介紹 385
13.2SIREn優勢 385
13.2.1通過所有域進行搜索 387
13.2.2一種高效詞典 388
13.2.3可變域 388
13.2.4對多值域的高效處理 388
13.3使用SIREn索引實體 388
13.3.1數據模型 389
13.3.2實現問題 389
13.3.3索引概要 390
13.3.4索引前的數據准備 390
13.4使用SIREn搜索實體 392
13.4.1搜索內容 392
13.4.2根據單元限制搜索范圍 393
13.4.3將單元合並成元組 393
13.4.4針對實體描述進行查詢 394
13.5在Solr中集成SIREn 394
13.6Benchmark 395
13.7小結 397
第14章案例分析3：LinkedIn398
14.1使用Bobo Browse進行分組搜索 398
14.1.1Bobo Browse的設計 400
14.1.2深層次分組搜索 403
14.2使用Zoie進行實時搜索 405
14.2.1Zoie架構 406
14.2.2實時VS近實時 409
14.2.3文檔與索引請求 411
14.2.4自定義IndexReaders 411
14.2.5與Lucene的近實時搜索進行比較 412
14.2.6分布式搜索 413
14.3小結 415
附錄A安裝Lucene416
A.1二進制文件安裝 416
A.2運行命令行演示程序 417
A.3運行Web應用演示程序 418
A.4編譯源代碼 419
A.5排錯 420
附錄BLucene索引格式421
B.1邏輯索引視圖 421
B.2關於索引結構 422
B.2.1理解多文件索引結構 422
B.2.2理解復合索引結構 425
B.2.3轉換索引結構 426
B.3倒排索引 427
B.4小結 430
附錄CLucene/contrib benchmark431
C.1運行測試腳本 432
C.2測試腳本的組成部分 435
C.2.1內容源和文檔生成器 438
C.2.2查詢生成器 439
C.3控制結構 439
C.4內置任務 441
C.4.1建立和使用行文件 445
C.4.2內置報表任務 446
C.5評估搜索質量 446
C.6出錯處理 449
C.7小結 449
附錄D資源450
D.1Lucene知識庫 450
D.2國際化 450
D.3語言探測 451
D.4項向量 451
D.5Lucene移植版本 451
D.6案例分析 452
D.7其他 452
D.8信息檢索軟體 452
D.9Doug Cutting的著作 453
D.9.1會議論文 453
D.9.2美國專利 454

導航:首頁 > 編程語言 > pythontika

pythontika

與pythontika相關的資料