導航:首頁 > 文檔加密 > 數據挖掘應用pdf

數據挖掘應用pdf

發布時間:2024-12-16 15:10:28

『壹』 求spss modeler 數據挖掘方法及應用薛薇的pdf,書落在學校了,急用,謝謝

CLEMENTINE數據挖掘方法及應用(掃描本).pdf (選擇普通下載即可)

《Clementine數據挖掘方法及應用》這本書其實和《SPSS Modeler數據挖掘方法及應用》是一樣的,作者等都是同一個人,除了名字不一樣,絕大部分內容是一樣的兩本書。

1、PC電腦端或手機網頁端登陸,即可查看、下載;

2、文件有時效性,若失效或下載問題,請@私信;

3、資料收集於互聯網,僅供個人試讀,有能力多支持紙質書籍!

『貳』 python數據分析與應用-Python數據分析與應用 PDF 內部全資料版

給大家帶來的一篇關於Python數據相關的電子書資源,介紹了關於Python方面的內容,本書是由人民郵電出版社出版,格式為PDF,資源大小281 MB,黃紅梅 張良均編寫,目前豆瓣、亞馬遜、當當、京東等電子書綜合評分為:7.8。

內容介紹

目錄

第1章Python數據分析概述1

任務1.1認識數據分析1

1.1.1掌握數據分析的概念2

1.1.2掌握數據分析的流程2

1.1.3了解數據分析應用場景4

任務1.2熟悉Python數據分析的工具5

1.2.1了解數據分析常用工具6

1.2.2了解Python數據分析的優勢7

1.2.3了解Python數據分析常用類庫7

任務1.3安裝Python的Anaconda發行版9

1.3.1了解Python的Anaconda發行版9

1.3.2在Windows系統中安裝Anaconda9

1.3.3在Linux系統中安裝Anaconda12

任務1.4掌握Jupyter Notebook常用功能14

1.4.1掌握Jupyter Notebook的基本功能14

1.4.2掌握Jupyter Notebook的高 級功能16

小結19

課後習題19

第2章NumPy數值計算基礎21

任務2.1掌握NumPy數組對象ndarray21

2.1.1創建數組對象21

2.1.2生成隨機數27

2.1.3通過索引訪問數組29

2.1.4變換數組的形態31

任務2.2掌握NumPy矩陣與通用函數34

2.2.1創建NumPy矩陣34

2.2.2掌握ufunc函數37

任務2.3利用NumPy進行統計分析41

2.3.1讀/寫文件41

2.3.2使用函數進行簡單的統計分析44

2.3.3任務實現48

小結50

實訓50

實訓1創建數組並進行運算50

實訓2創建一個國際象棋的棋盤50

課後習題51

第3章Matplotlib數據可視化基礎52

任務3.1掌握繪圖基礎語法與常用參數52

3.1.1掌握pyplot基礎語法53

3.1.2設置pyplot的動態rc參數56

任務3.2分析特徵間的關系59

3.2.1繪制散點圖59

3.2.2繪制折線圖62

3.2.3任務實現65

任務3.3分析特徵內部數據分布與分散狀況68

3.3.1繪制直方圖68

3.3.2繪制餅圖70

3.3.3繪制箱線圖71

3.3.4任務實現73

小結77

實訓78

實訓1分析1996 2015年人口數據特徵間的關系78

實訓2分析1996 2015年人口數據各個特徵的分布與分散狀況78

課後習題79

第4章pandas統計分析基礎80

任務4.1讀/寫不同數據源的數據80

4.1.1讀/寫資料庫數據80

4.1.2讀/寫文本文件83

4.1.3讀/寫Excel文件87

4.1.4任務實現88

任務4.2掌握DataFrame的常用操作89

4.2.1查看DataFrame的常用屬性89

4.2.2查改增刪DataFrame數據91

4.2.3描述分析DataFrame數據101

4.2.4任務實現104

任務4.3轉換與處理時間序列數據107

4.3.1轉換字元串時間為標准時間107

4.3.2提取時間序列數據信息109

4.3.3加減時間數據110

4.3.4任務實現111

任務4.4使用分組聚合進行組內計算113

4.4.1使用groupby方法拆分數據114

4.4.2使用agg方法聚合數據116

4.4.3使用apply方法聚合數據119

4.4.4使用transform方法聚合數據121

4.4.5任務實現121

任務4.5創建透視表與交叉表123

4.5.1使用pivot_table函數創建透視表123

4.5.2使用crosstab函數創建交叉表127

4.5.3任務實現128

小結130

實訓130

實訓1讀取並查看P2P網路貸款數據主表的基本信息130

實訓2提取用戶信息更新表和登錄信息表的時間信息130

實訓3使用分組聚合方法進一步分析用戶信息更新表和登錄信息表131

實訓4對用戶信息更新表和登錄信息表進行長寬表轉換131

課後習題131

第5章使用pandas進行數據預處理133

任務5.1合並數據133

5.1.1堆疊合並數據133

5.1.2主鍵合並數據136

5.1.3重疊合並數據139

5.1.4任務實現140

任務5.2清洗數據141

5.2.1檢測與處理重復值141

5.2.2檢測與處理缺失值146

5.2.3檢測與處理異常值149

5.2.4任務實現152

任務5.3標准化數據154

5.3.1離差標准化數據154

5.3.2標准差標准化數據155

5.3.3小數定標標准化數據156

5.3.4任務實現157

任務5.4轉換數據158

5.4.1啞變數處理類別型數據158

5.4.2離散化連續型數據160

5.4.3任務實現162

小結163

實訓164

實訓1插補用戶用電量數據缺失值164

實訓2合並線損、用電量趨勢與線路告警數據164

實訓3標准化建模專家樣本數據164

課後習題165

第6章使用scikit-learn構建模型167

任務6.1使用sklearn轉換器處理數據167

6.1.1載入datasets模塊中的數據集167

6.1.2將數據集劃分為訓練集和測試集170

6.1.3使用sklearn轉換器進行數據預處理與降維172

6.1.4任務實現174

任務6.2構建並評價聚類模型176

6.2.1使用sklearn估計器構建聚類模型176

6.2.2評價聚類模型179

6.2.3任務實現182

任務6.3構建並評價分類模型183

6.3.1使用sklearn估計器構建分類模型183

6.3.2評價分類模型186

6.3.3任務實現188

任務6.4構建並評價回歸模型190

6.4.1使用sklearn估計器構建線性回歸模型190

6.4.2評價回歸模型193

6.4.3任務實現194

小結196

實訓196

實訓1使用sklearn處理wine和wine_quality數據集196

實訓2構建基於wine數據集的K-Means聚類模型196

實訓3構建基於wine數據集的SVM分類模型197

實訓4構建基於wine_quality數據集的回歸模型197

課後習題198

第7章航空公司客戶價值分析199

任務7.1了解航空公司現狀與客戶價值分析199

7.1.1了解航空公司現狀200

7.1.2認識客戶價值分析201

7.1.3熟悉航空客戶價值分析的步驟與流程201

任務7.2預處理航空客戶數據202

7.2.1處理數據缺失值與異常值202

7.2.2構建航空客戶價值分析關鍵特徵202

7.2.3標准化LRFMC模型的5個特徵206

7.2.4任務實現207

任務7.3使用K-Means演算法進行客戶分群209

7.3.1了解K-Means聚類演算法209

7.3.2分析聚類結果210

7.3.3模型應用213

7.3.4任務實現214

小結215

實訓215

實訓1處理信用卡數據異常值215

實訓2構造信用卡客戶風險評價關鍵特徵217

實訓3構建K-Means聚類模型218

課後習題218

第8章財政收入預測分析220

任務8.1了解財政收入預測的背景與方法220

8.1.1分析財政收入預測背景220

8.1.2了解財政收入預測的方法222

8.1.3熟悉財政收入預測的步驟與流程223

任務8.2分析財政收入數據特徵的相關性223

8.2.1了解相關性分析223

8.2.2分析計算結果224

8.2.3任務實現225

任務8.3使用Lasso回歸選取財政收入預測的關鍵特徵225

8.3.1了解Lasso回歸方法226

8.3.2分析Lasso回歸結果227

8.3.3任務實現227

任務8.4使用灰色預測和SVR構建財政收入預測模型228

8.4.1了解灰色預測演算法228

8.4.2了解SVR演算法229

8.4.3分析預測結果232

8.4.4任務實現234

小結236

實訓236

實訓1求取企業所得稅各特徵間的相關系數236

實訓2選取企業所得稅預測關鍵特徵237

實訓3構建企業所得稅預測模型237

課後習題237

第9章家用熱水器用戶行為分析與事件識別239

任務9.1了解家用熱水器用戶行為分析的背景與步驟239

9.1.1分析家用熱水器行業現狀240

9.1.2了解熱水器採集數據基本情況240

9.1.3熟悉家用熱水器用戶行為分析的步驟與流程241

任務9.2預處理熱水器用戶用水數據242

9.2.1刪除冗餘特徵242

9.2.2劃分用水事件243

9.2.3確定單次用水事件時長閾值244

9.2.4任務實現246

任務9.3構建用水行為特徵並篩選用水事件247

9.3.1構建用水時長與頻率特徵248

9.3.2構建用水量與波動特徵249

9.3.3篩選候選洗浴事件250

9.3.4任務實現251

任務9.4構建行為事件分析的BP神經網路模型255

9.4.1了解BP神經網路演算法原理255

9.4.2構建模型259

9.4.3評估模型260

9.4.4任務實現260

小結263

實訓263

實訓1清洗運營商客戶數據263

實訓2篩選客戶運營商數據264

實訓3構建神經網路預測模型265

課後習題265

附錄A267

附錄B270

參考文獻295

學習筆記

Jupyter Notebook(此前被稱為 IPython notebook)是一個互動式筆記本,支持運行 40 多種編程語言。 Jupyter Notebook 的本質是一個 Web 應用程序,便於創建和共享文學化程序文檔,支持實時代碼,數學方程,可視化和 markdown。 用途包括:數據清理和轉換,數值模擬,統計建模,機器學習等等 。 定義 (推薦學習:Python視頻教程) 用戶可以通過電子郵件,Dropbox,GitHub 和 Jupyter Notebook Viewer,將 Jupyter Notebook 分享給其他人。 在Jupyter Notebook 中,代碼可以實時的生成圖像,視頻,LaTeX和JavaScript。 使用 數據挖掘領域中最熱門的比賽 Kaggle 里的資料都是Jupyter 格式 。 架構 Jupyter組件 Jupyter包含以下組件: Jupyter Notebook 和 ……

本文實例講述了Python實現的微信好友數據分析功能。分享給大家供大家參考,具體如下: 這里主要利用python對個人微信好友進行分析並把結果輸出到一個html文檔當中,主要用到的python包為 itchat , pandas , pyecharts 等 1、安裝itchat 微信的python sdk,用來獲取個人好友關系。獲取的代碼 如下: import itchatimport pandas as pdfrom pyecharts import Geo, Baritchat.login()friends = itchat.get_friends(update=True)[0:]def User2dict(User): User_dict = {} User_dict["NickName"] = User["NickName"] if User["NickName"] else "NaN" User_dict["City"] = User["City"] if User["City"] else "NaN" User_dict["Sex"] = User["Sex"] if User["Sex"] else 0 User_dict["Signature"] = User["Signature"] if User["Signature"] else "NaN" ……

基於微信開放的個人號介面python庫itchat,實現對微信好友的獲取,並對省份、性別、微信簽名做數據分析。 效果: 直接上代碼,建三個空文本文件stopwords.txt,newdit.txt、unionWords.txt,下載字體simhei.ttf或刪除字體要求的代碼,就可以直接運行。 #wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#繪圖時可以顯示中文plt.rcParams['axes.unicode_minus']=False#繪圖時可以顯示中文import jiemport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#解決編碼問題non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd) #獲取好友信息def getFriends():……

Python數據分析之雙色球基於線性回歸演算法預測下期中獎結果示例

本文實例講述了Python數據分析之雙色球基於線性回歸演算法預測下期中獎結果。分享給大家供大家參考,具體如下: 前面講述了關於雙色球的各種演算法,這里將進行下期雙色球號碼的預測,想想有些小激動啊。 代碼中使用了線性回歸演算法,這個場景使用這個演算法,預測效果一般,各位可以考慮使用其他演算法嘗試結果。 發現之前有很多代碼都是重復的工作,為了讓代碼看的更優雅,定義了函數,去調用,頓時高大上了 #!/usr/bin/python# -*- coding:UTF-8 -*-#導入需要的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operatorfrom sklearn import datasets,linear_modelfrom sklearn.linear_model import LogisticRegression#讀取文件d……

以上就是本次介紹的Python數據電子書的全部相關內容,希望我們整理的資源能夠幫助到大家,感謝大家對鬼鬼的支持。

注·獲取方式:私信(666)

『叄』 雙層PDF在地質資料數字化中的應用

郭慧錦 賈國鋒 馬飛飛 張茜

(全國地質資料館)

摘要 本文在描述雙層PDF及OCR技術特點及應用前景基礎上,探討了地質資料數字化圖文數據雙層PDF轉換的意義;提出了轉換方法的選擇,並詳細介紹了OCR數字加工系統,以及提高識別率的方法;最後提出了雙層PDF在地質資料館建設中的意義。

關鍵詞 雙層PDF OCR識別率

當前,地質資料館藏機構都在加緊開展數字化工作。截至2013年底,全國已有20多個省級資料館完成館藏資料的數字化工作,全國地質資料館的成果地質資料數字化工作也接近尾聲,所形成的海量數據已成為地質資料信息社會化服務重要數據資源。此類數字化數據是靜態的,有利於閱覽使用,但無法進行全文檢索,也不利於進一步分析處理。因此,在現有數據的基礎上,開展OCR識別,使之轉化成雙PDF文件,實現靜態向動態的轉變,建立全文資料庫,完成對地質資料的全文信息的檢索,成為地質資料館藏機構推進資料數字化工作。

1 關於雙層 PDF與OCR技術

雙層PDF是在掃描數據的基礎上通過OCR識別生成的可檢索的PDF文件,即上層是原始圖像,下層是識別結果,且位置上下一一對應。雙層PDF文件不僅可以100%保留原始版面效果,而且支持選擇、復制、檢索等功能,這樣的PDF文件最後可以存儲在光碟、硬碟或磁碟陣列中,並通過建立索引資料庫進行科學的管理。

OCR(Optical Character Recognition),即光學字元識別,是指電子設備(如掃描儀或數碼相機)檢查紙上列印的字元,通過檢測暗、亮的模式確定其形狀,然後用字元識別方法將形狀翻譯成計算機文字的過程。即對文本資料進行掃描,然後對圖像文件進行分析處理,獲取文字及版面信息的過程。隨著計算機網路飛速發展,信息電子化已經成為一個時代必然趨勢。文字作為信息中最重要、最集中的載體,其電子化進程顯得尤為重要。而OCR技術則是文字電子化過程中最重要的環節,它改變了傳統的紙介質資料輸入的概念。通過OCR技術,用戶可以將通過攝像機、掃描儀等光學輸入方式得到的報刊、書籍、文稿、表格等印刷品的圖像信息轉化為可以供計算機識別和處理的文本信息。因此,與傳統的手工錄入方式相比,OCR技術大大提高了人們進行資料存儲、檢索、加工的效率。

2 應用現狀

PDF正在世界各國政府、金融財務、法律、工程技術、醫療等諸多部門獲得廣泛的應用,並已成為政府、學術部門等單位標準的現代化公文格式規范,所以PDF電子格式文檔將是未來檔案部門收藏的主體。而雙層PDF的出現有效解決了識別成本和閱讀利用的矛盾,是一種較有潛力的資源格式。國外的OCR技術應用相對成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陸續展開了這方面的研究,在他們的產品中綁定了OCR技術。

如今,OCR技術在我國的應用也極為廣泛。信息檢索技術研究,即雙層PDF檢索技術研究,中國「863」計劃在2008年以前已經開始對中文OCR、自動分詞、自動摘要、自動搜索、自動定位進行了統一測試評測。在此基礎上,國內逐步建立了以數字圖書館、數字檔案館、數字報刊、數字校園網等一系列數字化為基礎的實施案例,例如新聞出版總署、外聯部、共青團中央等機關文獻全文資料庫;《中國青年》75年、《新華文摘》20年等期刊全文資料庫。國家圖書館早在1999年就成立了「國家圖書館文獻數字化中心」,對各類館藏文獻進行數字化加工和OCR識別,在此基礎上形成書目型書庫、題錄型資料庫和全文型資料庫三大類,逐漸成為我國網上信息資源的中心樞紐。

隨著我國信息化建設全面普及,OCR技術的應用前景更加廣闊,數字圖書館、數字檔案館、數字資料館等概念的提出也使OCR在紙質檔案數字化過程中越來越發揮其獨特的作用,不僅節省了人力物力,更使檔案信息資源的利用價值達到最大化,能夠更好地服務於民。

3 數字化數據雙層PDF轉換的意義

3.1 是地質資料信息化建設的重要內容

隨著社會信息化程度的提高,人們對信息資源的依賴程度也越來越高,對高效率的檔案資源管理、檢索利用的需求也越來越迫切。數字化是信息化建設的重要內容,而信息化建設的核心是資源建設。資源建設包括三大任務:一是館藏紙質資料的掃描數字化與目錄資料庫建設;二是電子文件的歸檔與管理;三是全文資料庫和全文檢索體系建設。根據各資料館數字化工作進展,考慮到用戶的利用需求,若要得到真正文本形態的電子信息,使資料數字化工作更加有效,更加徹底,最大限度拓寬用戶利用面,就需要應用OCR技術進行掃描柵格文件的雙層PDF轉換,進而開展地質資料全文資料庫建設和全文檢索工作。

3.2 是地質資料實現全文檢索與全文資料庫建設的前提

實踐證明,基於雙層PDF文檔的全文檢索,有效地提高了查詢利用效率。它通過對檔案資料庫的數據和雙層PDF文檔的Text層建立索引,查詢時可以不訪問資料庫,有效減輕資料庫和系統的壓力。至少可以支持1000萬級的數據,毫秒級的查詢時間,每秒上千人的並發訪問,從而實現大容量、高速度的目標,並且可以適應Linux和Windows平台,支持多種資料庫介面。它具備通用搜索引擎的構架和功能,可以對用戶的輸入進行分詞,可以進行多關鍵字搜索、關鍵片語合搜索,用戶友好;同時能夠根據客戶的需求進行用戶的數據挖掘,提高檔案全文檢索系統的價值。

3.3 是現代化數據中心標准化建設的前提

建設現代化的數據中心首先要實現電子文件存儲結構標准化,即建立一個通用性強、應用廣泛的電子文件信息存儲和交換格式。基於PDF格式已經作為電子文件管理中電子文件長期保存格式的最新標准在國際上全面實施,且具有兼容性、原始記錄性強,安全控制策略完善等優點,是電子文件長期保存的最佳選擇。所以進行館藏數字化數據PDF轉換勢在必行。

4 雙層PDF轉換方法

4.1 目前常見的雙層PDF轉換方法

目前國內雙層PDF的轉換技術已經相對成熟,從現有技術條件下來看,大體可分為以下3種:

4.1.1 軟體轉換

由目前市場上較流行的 Adobe Acrobat、ABBYY FineReader12(中英文識別)、Readiris Corporate 12(英文識別率高)、Foxit Phantom 5(可以單獨顯示文本層)、清華文通TH-OCR XP8(識別率較高)、漢王文本王5800(版面識別較好,純中文識別率高)、尚書七號OCR等轉換程序,可以經OCR識別處理後直接生成雙層PDF文件,速度快,效率高。但識別率和紙質資料原件(如印刷方式、清晰度、紙張質量等)及操作人員技術水平成正比。如果紙質原件質量好,識別率相對就高;質量差,識別率就相對較低。

4.1.2 流程加工

根據相關技術要求,對圖像進行全新的OCR識別流程加工處理,重新生成PDF文件,具有文字正確率高、文字定位準確等特點。這種方式相當於全流程化製作雙層PDF文件,工作量大,耗時長,費用高。

4.1.3 識別重構

重新生成PDF文件,實現版面字體、字型大小、顏色的恢復和重構。文字正確率高,頁面清晰,但和原版圖差異較大,主要在圖書方面應用較多。

4.2 地質資料雙層PDF轉換

全國館於2011年開始在掃描數字化基礎上開展雙層PDF的轉換試驗工作,主要運用第一種方法進行軟體轉換,即經過軟體自動OCR處理後直接形成雙層PDF文件。由於地質資料不同於普通的文書檔案,紙張樣式和印刷方式多樣,手寫和老舊資料多,地層、數學等特殊符號多等特點,給OCR自動識別帶來了困難,單一的軟體識別並不能滿足全文檢索90%以上識別率的要求。

在轉換試驗基礎上我們得到以下結論:

1)地質資料本身多種多樣,實際的識別率主要受印刷質量、形成年代等因素影響,老舊資料、紙質質量差的資料識別率普遍較低;受執筆人書寫習慣及書寫清晰度的影響,手寫文檔的識別准確率一般在30%以下;油印文檔識別准確率一般在50%以下;列印、鉛印和膠印文檔識別率較高,一般能達90%以上。無論在哪種類型的文檔中,標點的識別率都很低,地層和數學符號及其他特殊符號的識別率幾乎為零。

2)目前識別技術無法達到100%識別,必須根據實際需求對照紙質檔案對初次識別結果進行人工校對才能滿足全文檢索需求。

3)地質資料掃描文件數量多、容量大,轉換速度受計算機反應速度影響,大批量轉換和識別需選擇高配置計算機,且批量轉換和人工識別耗時長,耗人工多,需專項經費支持開展工作。

4.3 OCR數字加工系統的引入與功能簡介

經過對目前國內雙層PDF轉換方法的對比,結合地質資料情況復雜的特點,以及數據測試結果研究,建議地質資料的雙層PDF轉換主要採用軟體識別和流程加工相結合的方法,即採用OCR數字加工系統,可以保證高效率、高質量地完成雙層PDF轉換。該系統主要包含以下幾個主要流程:

圖1 OCR數字加工系統示意圖

1)圖像處理。為提高識別率,對圖像進行「消藍去污」的處理,去掉圖像上影響識別率的噪音,如麻點、下劃線等,由圖像質量控製程序自動監測圖像處理質量。

2)版面分析。自動進行版面理解並定位,判別劃框區域是橫排文本區、豎排文本區、表格區還是圖像區,並對不同屬性的區域以不同顏色的線框標識出來。自動版面分析在後台運行,操作人員可在前台進行確認,必要時對自動版面分析結果加入手工干預。

3)識別。把文字圖像轉化為計算機文字內碼,可以識別印刷體和手寫體中文(包括簡體字和繁體字)、中英文混排文字、表格,識別出來的文字內碼可以是GB碼、BIG5碼、GBK碼或者Unicode碼。識別過程在後台運行。

4)縱向校對。具有很強的查錯糾錯能力,是將一個或若干個圖像中識別成同一個字的文字圖像列在一起顯示,並以突出顏色標出可疑字,便於操作員發現錯誤和修改。

5)橫向校對。是傳統的人工校對方法,操作員直接對比識別結果文本和圖像,以發現識別錯誤文字。系統自動調出文字對應的圖像,進行比對。同時,以醒目的顏色標出識別可信度不離的文字。

6)版面還原。將識別並修改好的文本還原成跟掃描文稿版面的布局一樣、可以供計算機閱讀和查詢檢索的RTF、PDF、HTML、SGML/XML格式的數字文檔。

7)數據入庫。版面還原數字文檔的保存。

4.4 提立OCR識別率的方法

利用OCR數字加工系統生成的雙層PDF,文本層差錯率最低可到萬分之一,可呈現原版底紋和色彩風貌,可進行全文檢索和復制引用,且檢索信息可准確定位到字元,便於快速查找目標信息。為了減輕橫向校對即人工校對工作量,提高工作效率,就要從根本上提高識別率。經過試驗,以下幾個方法可以提高柵格文件OCR識別率。

1)圖像色彩設定。雖然灰度或彩色模式可以最大限度還原紙質資料原貌,是我們掃描數字化的首選,但是這兩種色彩模式會增大影響識別率的背景噪音。若僅做文字識別及一般黑白插圖選取,建議可將掃描程序的圖像色彩設定設置為黑白,增大識別率。不過最終圖像色彩的設定還要按照各類具體工作的規范要求來設置。

2)解析度設置。我們都知道掃描解析度設置越低,掃描速度越快,但同時也導致圖像質量差,其文字識別准確率低。反之解析度高,掃描速度慢,但文字識別准確率高。但這又不是絕對的,因為解析度設置得太高後,紙張上的微小瑕疵也可能被認作標點符號或漢字等,文字識別准確率反而會有所降低。經反復測試,解析度設為300dpi,是掃描速度及文字識別准確率的最佳平衡點。

3)圖像處理。這里圖像處理是指掃描輸出圖像前的傾斜校正和去污等。傾斜校正是為了調整文字方向使之正向,這樣才能對OCR識別有所幫助。

雙層PDF轉換完成以後,在此基礎上可以實現資料管理系統與PDF文件的掛接,對資料數據內容及其元數據等相關信息建立聯系並形成數據包;然後通過調用全文資料庫原數據創建索引文件,最後實現全文檢索。通過全文資料庫及全文檢索的實現,得到高查全率和查准率,大幅度提高地質資料的利用價值,促進地質資料編研工作,為地質資料信息聚合的研究和深層次服務奠定了基礎。

參考文獻

[1]許呈辰.檔案數字化過程中OCR技術的應用[J].檔案管理,2011(1).

[2]徐永芳.OCR技術在檔案數字化過程中的應用[J].藝術科技,2011(2).

[3]張旋.OCR技術研究進展及前瞻[J].科學技術,2010(4).

[4]郭金光.雙層PDF技術及在檔案數字化中的應用[J].新觀察,2013(1).

[5]劉家真.文件保存格式與PDF文檔[J].檔案學研究,2002(2).

閱讀全文

與數據挖掘應用pdf相關的資料

熱點內容
jsp源碼預約系統下載 瀏覽:790
硬碟加密安全模式打不開 瀏覽:949
採集遼寧app怎麼下載 瀏覽:843
怎麼改伺服器dns地址 瀏覽:550
建造伺服器是什麼 瀏覽:513
惠買app怎麼看直播 瀏覽:616
psv用什麼規格的安卓充電器 瀏覽:757
bat命令關閉 瀏覽:80
可編程積木機器人 瀏覽:332
程序員晚飯手藝 瀏覽:154
iphone如何把app轉移到ipad 瀏覽:438
gre楊鵬pdf 瀏覽:792
編程題猜測次數 瀏覽:91
mpm系統源碼 瀏覽:979
視頻文件加密的怎麼播放 瀏覽:621
phpjsp2014 瀏覽:712
php程序員一月多少錢 瀏覽:701
腐蝕伺服器地址 瀏覽:499
單片機demo板 瀏覽:373
安卓什麼手機才能開蓋彈窗 瀏覽:492