㈠ 怎麼把百度網盤里的大的文件資源轉化為pdf文本件
升級為最新版本的網路網盤app,支持在線轉換
㈡ 求推薦一些PDF電子書資源類網站
這位朋友你好,如果你的手機是安卓或者ios系統,目前你可以下載宜搜新推出的宜搜+app,宜搜+裡面的小說分類跟原宜搜小說分類一樣,並且提供離線下載,你可以將您喜歡的小說先進行緩存,之後再進行下載,同時宜搜+還提供新聞、小說和圖片的閱讀與下載,並且支持一鍵分享到微博、微信等,更人性化,同時也為你節省流量!希望我的回答能幫到你,如果滿意請採納。中午好, 祝愉快。
㈢ 有沒有免費的PDF編輯器
有,永楚網路科技的風雲PDF編輯器是免費的。㈣ 京東人力資源崗面試 然後給我發了一個京東集團企業信息化的PDF文稿 裡面是每個崗位和不同崗位負責的
摘要 企業官網
㈤ 《技術運營海量資源精細化運營實戰》pdf下載在線閱讀全文,求百度網盤雲資源
《技術運營海量資源精細化運營實戰》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1ZG5enbsdJBN48anKCxuvbw
㈥ 想要一個pdf軟體,請提供資源,免費,可以編輯,可以轉化成word,且可以做pdf編輯合並等等工作
這個軟體挺好用
㈦ 《結構化寫作》pdf下載在線閱讀全文,求百度網盤雲資源
《結構化寫作》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1ai1sbcqDo380dkobSJDztQ
㈧ 《從工業化到城市化》pdf下載在線閱讀全文,求百度網盤雲資源
《從工業化到城市化》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1BzjLoUL45rHXHTfLk4M-Hw
㈨ 《中國早期工業化》pdf下載在線閱讀全文,求百度網盤雲資源
《中國早期工業化》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1erdRjRS6N2t9AsBZqCOu1Q
㈩ 雙層PDF在地質資料數字化中的應用
郭慧錦 賈國鋒 馬飛飛 張茜
(全國地質資料館)
摘要 本文在描述雙層PDF及OCR技術特點及應用前景基礎上,探討了地質資料數字化圖文數據雙層PDF轉換的意義;提出了轉換方法的選擇,並詳細介紹了OCR數字加工系統,以及提高識別率的方法;最後提出了雙層PDF在地質資料館建設中的意義。
關鍵詞 雙層PDF OCR識別率
當前,地質資料館藏機構都在加緊開展數字化工作。截至2013年底,全國已有20多個省級資料館完成館藏資料的數字化工作,全國地質資料館的成果地質資料數字化工作也接近尾聲,所形成的海量數據已成為地質資料信息社會化服務重要數據資源。此類數字化數據是靜態的,有利於閱覽使用,但無法進行全文檢索,也不利於進一步分析處理。因此,在現有數據的基礎上,開展OCR識別,使之轉化成雙PDF文件,實現靜態向動態的轉變,建立全文資料庫,完成對地質資料的全文信息的檢索,成為地質資料館藏機構推進資料數字化工作。
1 關於雙層 PDF與OCR技術
雙層PDF是在掃描數據的基礎上通過OCR識別生成的可檢索的PDF文件,即上層是原始圖像,下層是識別結果,且位置上下一一對應。雙層PDF文件不僅可以100%保留原始版面效果,而且支持選擇、復制、檢索等功能,這樣的PDF文件最後可以存儲在光碟、硬碟或磁碟陣列中,並通過建立索引資料庫進行科學的管理。
OCR(Optical Character Recognition),即光學字元識別,是指電子設備(如掃描儀或數碼相機)檢查紙上列印的字元,通過檢測暗、亮的模式確定其形狀,然後用字元識別方法將形狀翻譯成計算機文字的過程。即對文本資料進行掃描,然後對圖像文件進行分析處理,獲取文字及版面信息的過程。隨著計算機網路飛速發展,信息電子化已經成為一個時代必然趨勢。文字作為信息中最重要、最集中的載體,其電子化進程顯得尤為重要。而OCR技術則是文字電子化過程中最重要的環節,它改變了傳統的紙介質資料輸入的概念。通過OCR技術,用戶可以將通過攝像機、掃描儀等光學輸入方式得到的報刊、書籍、文稿、表格等印刷品的圖像信息轉化為可以供計算機識別和處理的文本信息。因此,與傳統的手工錄入方式相比,OCR技術大大提高了人們進行資料存儲、檢索、加工的效率。
2 應用現狀
PDF正在世界各國政府、金融財務、法律、工程技術、醫療等諸多部門獲得廣泛的應用,並已成為政府、學術部門等單位標準的現代化公文格式規范,所以PDF電子格式文檔將是未來檔案部門收藏的主體。而雙層PDF的出現有效解決了識別成本和閱讀利用的矛盾,是一種較有潛力的資源格式。國外的OCR技術應用相對成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陸續展開了這方面的研究,在他們的產品中綁定了OCR技術。
如今,OCR技術在我國的應用也極為廣泛。信息檢索技術研究,即雙層PDF檢索技術研究,中國「863」計劃在2008年以前已經開始對中文OCR、自動分詞、自動摘要、自動搜索、自動定位進行了統一測試評測。在此基礎上,國內逐步建立了以數字圖書館、數字檔案館、數字報刊、數字校園網等一系列數字化為基礎的實施案例,例如新聞出版總署、外聯部、共青團中央等機關文獻全文資料庫;《中國青年》75年、《新華文摘》20年等期刊全文資料庫。國家圖書館早在1999年就成立了「國家圖書館文獻數字化中心」,對各類館藏文獻進行數字化加工和OCR識別,在此基礎上形成書目型書庫、題錄型資料庫和全文型資料庫三大類,逐漸成為我國網上信息資源的中心樞紐。
隨著我國信息化建設全面普及,OCR技術的應用前景更加廣闊,數字圖書館、數字檔案館、數字資料館等概念的提出也使OCR在紙質檔案數字化過程中越來越發揮其獨特的作用,不僅節省了人力物力,更使檔案信息資源的利用價值達到最大化,能夠更好地服務於民。
3 數字化數據雙層PDF轉換的意義
3.1 是地質資料信息化建設的重要內容
隨著社會信息化程度的提高,人們對信息資源的依賴程度也越來越高,對高效率的檔案資源管理、檢索利用的需求也越來越迫切。數字化是信息化建設的重要內容,而信息化建設的核心是資源建設。資源建設包括三大任務:一是館藏紙質資料的掃描數字化與目錄資料庫建設;二是電子文件的歸檔與管理;三是全文資料庫和全文檢索體系建設。根據各資料館數字化工作進展,考慮到用戶的利用需求,若要得到真正文本形態的電子信息,使資料數字化工作更加有效,更加徹底,最大限度拓寬用戶利用面,就需要應用OCR技術進行掃描柵格文件的雙層PDF轉換,進而開展地質資料全文資料庫建設和全文檢索工作。
3.2 是地質資料實現全文檢索與全文資料庫建設的前提
實踐證明,基於雙層PDF文檔的全文檢索,有效地提高了查詢利用效率。它通過對檔案資料庫的數據和雙層PDF文檔的Text層建立索引,查詢時可以不訪問資料庫,有效減輕資料庫和系統的壓力。至少可以支持1000萬級的數據,毫秒級的查詢時間,每秒上千人的並發訪問,從而實現大容量、高速度的目標,並且可以適應Linux和Windows平台,支持多種資料庫介面。它具備通用搜索引擎的構架和功能,可以對用戶的輸入進行分詞,可以進行多關鍵字搜索、關鍵片語合搜索,用戶友好;同時能夠根據客戶的需求進行用戶的數據挖掘,提高檔案全文檢索系統的價值。
3.3 是現代化數據中心標准化建設的前提
建設現代化的數據中心首先要實現電子文件存儲結構標准化,即建立一個通用性強、應用廣泛的電子文件信息存儲和交換格式。基於PDF格式已經作為電子文件管理中電子文件長期保存格式的最新標准在國際上全面實施,且具有兼容性、原始記錄性強,安全控制策略完善等優點,是電子文件長期保存的最佳選擇。所以進行館藏數字化數據PDF轉換勢在必行。
4 雙層PDF轉換方法
4.1 目前常見的雙層PDF轉換方法
目前國內雙層PDF的轉換技術已經相對成熟,從現有技術條件下來看,大體可分為以下3種:
4.1.1 軟體轉換
由目前市場上較流行的 Adobe Acrobat、ABBYY FineReader12(中英文識別)、Readiris Corporate 12(英文識別率高)、Foxit Phantom 5(可以單獨顯示文本層)、清華文通TH-OCR XP8(識別率較高)、漢王文本王5800(版面識別較好,純中文識別率高)、尚書七號OCR等轉換程序,可以經OCR識別處理後直接生成雙層PDF文件,速度快,效率高。但識別率和紙質資料原件(如印刷方式、清晰度、紙張質量等)及操作人員技術水平成正比。如果紙質原件質量好,識別率相對就高;質量差,識別率就相對較低。
4.1.2 流程加工
根據相關技術要求,對圖像進行全新的OCR識別流程加工處理,重新生成PDF文件,具有文字正確率高、文字定位準確等特點。這種方式相當於全流程化製作雙層PDF文件,工作量大,耗時長,費用高。
4.1.3 識別重構
重新生成PDF文件,實現版面字體、字型大小、顏色的恢復和重構。文字正確率高,頁面清晰,但和原版圖差異較大,主要在圖書方面應用較多。
4.2 地質資料雙層PDF轉換
全國館於2011年開始在掃描數字化基礎上開展雙層PDF的轉換試驗工作,主要運用第一種方法進行軟體轉換,即經過軟體自動OCR處理後直接形成雙層PDF文件。由於地質資料不同於普通的文書檔案,紙張樣式和印刷方式多樣,手寫和老舊資料多,地層、數學等特殊符號多等特點,給OCR自動識別帶來了困難,單一的軟體識別並不能滿足全文檢索90%以上識別率的要求。
在轉換試驗基礎上我們得到以下結論:
1)地質資料本身多種多樣,實際的識別率主要受印刷質量、形成年代等因素影響,老舊資料、紙質質量差的資料識別率普遍較低;受執筆人書寫習慣及書寫清晰度的影響,手寫文檔的識別准確率一般在30%以下;油印文檔識別准確率一般在50%以下;列印、鉛印和膠印文檔識別率較高,一般能達90%以上。無論在哪種類型的文檔中,標點的識別率都很低,地層和數學符號及其他特殊符號的識別率幾乎為零。
2)目前識別技術無法達到100%識別,必須根據實際需求對照紙質檔案對初次識別結果進行人工校對才能滿足全文檢索需求。
3)地質資料掃描文件數量多、容量大,轉換速度受計算機反應速度影響,大批量轉換和識別需選擇高配置計算機,且批量轉換和人工識別耗時長,耗人工多,需專項經費支持開展工作。
4.3 OCR數字加工系統的引入與功能簡介
經過對目前國內雙層PDF轉換方法的對比,結合地質資料情況復雜的特點,以及數據測試結果研究,建議地質資料的雙層PDF轉換主要採用軟體識別和流程加工相結合的方法,即採用OCR數字加工系統,可以保證高效率、高質量地完成雙層PDF轉換。該系統主要包含以下幾個主要流程:
圖1 OCR數字加工系統示意圖
1)圖像處理。為提高識別率,對圖像進行「消藍去污」的處理,去掉圖像上影響識別率的噪音,如麻點、下劃線等,由圖像質量控製程序自動監測圖像處理質量。
2)版面分析。自動進行版面理解並定位,判別劃框區域是橫排文本區、豎排文本區、表格區還是圖像區,並對不同屬性的區域以不同顏色的線框標識出來。自動版面分析在後台運行,操作人員可在前台進行確認,必要時對自動版面分析結果加入手工干預。
3)識別。把文字圖像轉化為計算機文字內碼,可以識別印刷體和手寫體中文(包括簡體字和繁體字)、中英文混排文字、表格,識別出來的文字內碼可以是GB碼、BIG5碼、GBK碼或者Unicode碼。識別過程在後台運行。
4)縱向校對。具有很強的查錯糾錯能力,是將一個或若干個圖像中識別成同一個字的文字圖像列在一起顯示,並以突出顏色標出可疑字,便於操作員發現錯誤和修改。
5)橫向校對。是傳統的人工校對方法,操作員直接對比識別結果文本和圖像,以發現識別錯誤文字。系統自動調出文字對應的圖像,進行比對。同時,以醒目的顏色標出識別可信度不離的文字。
6)版面還原。將識別並修改好的文本還原成跟掃描文稿版面的布局一樣、可以供計算機閱讀和查詢檢索的RTF、PDF、HTML、SGML/XML格式的數字文檔。
7)數據入庫。版面還原數字文檔的保存。
4.4 提立OCR識別率的方法
利用OCR數字加工系統生成的雙層PDF,文本層差錯率最低可到萬分之一,可呈現原版底紋和色彩風貌,可進行全文檢索和復制引用,且檢索信息可准確定位到字元,便於快速查找目標信息。為了減輕橫向校對即人工校對工作量,提高工作效率,就要從根本上提高識別率。經過試驗,以下幾個方法可以提高柵格文件OCR識別率。
1)圖像色彩設定。雖然灰度或彩色模式可以最大限度還原紙質資料原貌,是我們掃描數字化的首選,但是這兩種色彩模式會增大影響識別率的背景噪音。若僅做文字識別及一般黑白插圖選取,建議可將掃描程序的圖像色彩設定設置為黑白,增大識別率。不過最終圖像色彩的設定還要按照各類具體工作的規范要求來設置。
2)解析度設置。我們都知道掃描解析度設置越低,掃描速度越快,但同時也導致圖像質量差,其文字識別准確率低。反之解析度高,掃描速度慢,但文字識別准確率高。但這又不是絕對的,因為解析度設置得太高後,紙張上的微小瑕疵也可能被認作標點符號或漢字等,文字識別准確率反而會有所降低。經反復測試,解析度設為300dpi,是掃描速度及文字識別准確率的最佳平衡點。
3)圖像處理。這里圖像處理是指掃描輸出圖像前的傾斜校正和去污等。傾斜校正是為了調整文字方向使之正向,這樣才能對OCR識別有所幫助。
雙層PDF轉換完成以後,在此基礎上可以實現資料管理系統與PDF文件的掛接,對資料數據內容及其元數據等相關信息建立聯系並形成數據包;然後通過調用全文資料庫原數據創建索引文件,最後實現全文檢索。通過全文資料庫及全文檢索的實現,得到高查全率和查准率,大幅度提高地質資料的利用價值,促進地質資料編研工作,為地質資料信息聚合的研究和深層次服務奠定了基礎。
參考文獻
[1]許呈辰.檔案數字化過程中OCR技術的應用[J].檔案管理,2011(1).
[2]徐永芳.OCR技術在檔案數字化過程中的應用[J].藝術科技,2011(2).
[3]張旋.OCR技術研究進展及前瞻[J].科學技術,2010(4).
[4]郭金光.雙層PDF技術及在檔案數字化中的應用[J].新觀察,2013(1).
[5]劉家真.文件保存格式與PDF文檔[J].檔案學研究,2002(2).