❶ 為什麼打開網頁pdf老是出錯
有幾種可能性導致打開網頁PDF時發生錯誤:1. 網路連接問題:網路不穩定或速度過慢可能會影響PDF文件的載入速度,從而導致打開PDF時出錯。2. 瀏覽器設置問敗攜拍題:瀏覽器的設置可能會阻止PDF文件的載入,或者PDF的瀏覽器附加插件可能已經過時或存在問題。3. PDF文件格式問題:PDF文件可能已經損壞或格式不兼容瀏覽器。隱橘有時候,PDF文件的安全設置可能也會阻止文件的打開。4. 硬體設備問題:電腦硬體設備可能存在問題,如內存不足或者硬碟容量已滿。這些問題可能會導致PDF文件無法正常載入或打開。如果您遇到這些問題,您可以嘗試以下解決辦法:1. 確保網路連接穩定,並嘗試重新加察羨載PDF文件。2. 檢查瀏覽器設置,確保PDF文件沒有被阻止載入。升級或更新PDF瀏覽器附加插件,以確保它們與瀏覽器兼容。3. 嘗試使用其他瀏覽器或從其他來源PDF文件。4. 如果PDF文件已經損壞或者存在格式兼容問題,您可以嘗試使用PDF編輯器進行修復或者轉換。5. 檢查電腦硬體設備,確保它們正常運作,並釋放一些內存空間或清除硬碟空間。❷ 怎麼添加pdf列印機
pdf列印機是虛擬列印機的一種,顧名思義就是虛擬的可以把文件轉換為pdf通用格式的列印機(例如把doc,ppt等轉化為pdf格式輸出)。它屬於軟體類,就像office能編輯文檔一樣,而PDF列印機則是把文本文件或者網頁等文檔轉換成PDF格式的文檔。常用的有virtual PDF Printer,smartprinter(虛擬列印機) 、 Factory Pro、Acrobat 。此類列印機多需要購買,網上也有很多破解版下載
步驟/方法
首先把開網路,輸入「PDF列印機 破解版」
11
用法也很簡單,找個文件點擊列印後,選擇這個列印機即可
❸ 怎樣安裝pdf列印機 安裝pdf虛擬列印機具體操作步驟
1、在瀏覽器中輸入「pdffactory pro(虛擬列印機) V4.5 破解版 」,然後點擊搜索,找到下載的地方點擊下載,這里以點擊第二個下載地方免費下載。
8、這里是免激活免注冊的,比較簡單,如果是別的地方下載,列印的時候可能會受到限制。
❹ 雙層PDF在地質資料數字化中的應用
郭慧錦 賈國鋒 馬飛飛 張茜
(全國地質資料館)
摘要 本文在描述雙層PDF及OCR技術特點及應用前景基礎上,探討了地質資料數字化圖文數據雙層PDF轉換的意義;提出了轉換方法的選擇,並詳細介紹了OCR數字加工系統,以及提高識別率的方法;最後提出了雙層PDF在地質資料館建設中的意義。
關鍵詞 雙層PDF OCR識別率
當前,地質資料館藏機構都在加緊開展數字化工作。截至2013年底,全國已有20多個省級資料館完成館藏資料的數字化工作,全國地質資料館的成果地質資料數字化工作也接近尾聲,所形成的海量數據已成為地質資料信息社會化服務重要數據資源。此類數字化數據是靜態的,有利於閱覽使用,但無法進行全文檢索,也不利於進一步分析處理。因此,在現有數據的基礎上,開展OCR識別,使之轉化成雙PDF文件,實現靜態向動態的轉變,建立全文資料庫,完成對地質資料的全文信息的檢索,成為地質資料館藏機構推進資料數字化工作。
1 關於雙層 PDF與OCR技術
雙層PDF是在掃描數據的基礎上通過OCR識別生成的可檢索的PDF文件,即上層是原始圖像,下層是識別結果,且位置上下一一對應。雙層PDF文件不僅可以100%保留原始版面效果,而且支持選擇、復制、檢索等功能,這樣的PDF文件最後可以存儲在光碟、硬碟或磁碟陣列中,並通過建立索引資料庫進行科學的管理。
OCR(Optical Character Recognition),即光學字元識別,是指電子設備(如掃描儀或數碼相機)檢查紙上列印的字元,通過檢測暗、亮的模式確定其形狀,然後用字元識別方法將形狀翻譯成計算機文字的過程。即對文本資料進行掃描,然後對圖像文件進行分析處理,獲取文字及版面信息的過程。隨著計算機網路飛速發展,信息電子化已經成為一個時代必然趨勢。文字作為信息中最重要、最集中的載體,其電子化進程顯得尤為重要。而OCR技術則是文字電子化過程中最重要的環節,它改變了傳統的紙介質資料輸入的概念。通過OCR技術,用戶可以將通過攝像機、掃描儀等光學輸入方式得到的報刊、書籍、文稿、表格等印刷品的圖像信息轉化為可以供計算機識別和處理的文本信息。因此,與傳統的手工錄入方式相比,OCR技術大大提高了人們進行資料存儲、檢索、加工的效率。
2 應用現狀
PDF正在世界各國政府、金融財務、法律、工程技術、醫療等諸多部門獲得廣泛的應用,並已成為政府、學術部門等單位標準的現代化公文格式規范,所以PDF電子格式文檔將是未來檔案部門收藏的主體。而雙層PDF的出現有效解決了識別成本和閱讀利用的矛盾,是一種較有潛力的資源格式。國外的OCR技術應用相對成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陸續展開了這方面的研究,在他們的產品中綁定了OCR技術。
如今,OCR技術在我國的應用也極為廣泛。信息檢索技術研究,即雙層PDF檢索技術研究,中國「863」計劃在2008年以前已經開始對中文OCR、自動分詞、自動摘要、自動搜索、自動定位進行了統一測試評測。在此基礎上,國內逐步建立了以數字圖書館、數字檔案館、數字報刊、數字校園網等一系列數字化為基礎的實施案例,例如新聞出版總署、外聯部、共青團中央等機關文獻全文資料庫;《中國青年》75年、《新華文摘》20年等期刊全文資料庫。國家圖書館早在1999年就成立了「國家圖書館文獻數字化中心」,對各類館藏文獻進行數字化加工和OCR識別,在此基礎上形成書目型書庫、題錄型資料庫和全文型資料庫三大類,逐漸成為我國網上信息資源的中心樞紐。
隨著我國信息化建設全面普及,OCR技術的應用前景更加廣闊,數字圖書館、數字檔案館、數字資料館等概念的提出也使OCR在紙質檔案數字化過程中越來越發揮其獨特的作用,不僅節省了人力物力,更使檔案信息資源的利用價值達到最大化,能夠更好地服務於民。
3 數字化數據雙層PDF轉換的意義
3.1 是地質資料信息化建設的重要內容
隨著社會信息化程度的提高,人們對信息資源的依賴程度也越來越高,對高效率的檔案資源管理、檢索利用的需求也越來越迫切。數字化是信息化建設的重要內容,而信息化建設的核心是資源建設。資源建設包括三大任務:一是館藏紙質資料的掃描數字化與目錄資料庫建設;二是電子文件的歸檔與管理;三是全文資料庫和全文檢索體系建設。根據各資料館數字化工作進展,考慮到用戶的利用需求,若要得到真正文本形態的電子信息,使資料數字化工作更加有效,更加徹底,最大限度拓寬用戶利用面,就需要應用OCR技術進行掃描柵格文件的雙層PDF轉換,進而開展地質資料全文資料庫建設和全文檢索工作。
3.2 是地質資料實現全文檢索與全文資料庫建設的前提
實踐證明,基於雙層PDF文檔的全文檢索,有效地提高了查詢利用效率。它通過對檔案資料庫的數據和雙層PDF文檔的Text層建立索引,查詢時可以不訪問資料庫,有效減輕資料庫和系統的壓力。至少可以支持1000萬級的數據,毫秒級的查詢時間,每秒上千人的並發訪問,從而實現大容量、高速度的目標,並且可以適應Linux和Windows平台,支持多種資料庫介面。它具備通用搜索引擎的構架和功能,可以對用戶的輸入進行分詞,可以進行多關鍵字搜索、關鍵片語合搜索,用戶友好;同時能夠根據客戶的需求進行用戶的數據挖掘,提高檔案全文檢索系統的價值。
3.3 是現代化數據中心標准化建設的前提
建設現代化的數據中心首先要實現電子文件存儲結構標准化,即建立一個通用性強、應用廣泛的電子文件信息存儲和交換格式。基於PDF格式已經作為電子文件管理中電子文件長期保存格式的最新標准在國際上全面實施,且具有兼容性、原始記錄性強,安全控制策略完善等優點,是電子文件長期保存的最佳選擇。所以進行館藏數字化數據PDF轉換勢在必行。
4 雙層PDF轉換方法
4.1 目前常見的雙層PDF轉換方法
目前國內雙層PDF的轉換技術已經相對成熟,從現有技術條件下來看,大體可分為以下3種:
4.1.1 軟體轉換
由目前市場上較流行的 Adobe Acrobat、ABBYY FineReader12(中英文識別)、Readiris Corporate 12(英文識別率高)、Foxit Phantom 5(可以單獨顯示文本層)、清華文通TH-OCR XP8(識別率較高)、漢王文本王5800(版面識別較好,純中文識別率高)、尚書七號OCR等轉換程序,可以經OCR識別處理後直接生成雙層PDF文件,速度快,效率高。但識別率和紙質資料原件(如印刷方式、清晰度、紙張質量等)及操作人員技術水平成正比。如果紙質原件質量好,識別率相對就高;質量差,識別率就相對較低。
4.1.2 流程加工
根據相關技術要求,對圖像進行全新的OCR識別流程加工處理,重新生成PDF文件,具有文字正確率高、文字定位準確等特點。這種方式相當於全流程化製作雙層PDF文件,工作量大,耗時長,費用高。
4.1.3 識別重構
重新生成PDF文件,實現版面字體、字型大小、顏色的恢復和重構。文字正確率高,頁面清晰,但和原版圖差異較大,主要在圖書方面應用較多。
4.2 地質資料雙層PDF轉換
全國館於2011年開始在掃描數字化基礎上開展雙層PDF的轉換試驗工作,主要運用第一種方法進行軟體轉換,即經過軟體自動OCR處理後直接形成雙層PDF文件。由於地質資料不同於普通的文書檔案,紙張樣式和印刷方式多樣,手寫和老舊資料多,地層、數學等特殊符號多等特點,給OCR自動識別帶來了困難,單一的軟體識別並不能滿足全文檢索90%以上識別率的要求。
在轉換試驗基礎上我們得到以下結論:
1)地質資料本身多種多樣,實際的識別率主要受印刷質量、形成年代等因素影響,老舊資料、紙質質量差的資料識別率普遍較低;受執筆人書寫習慣及書寫清晰度的影響,手寫文檔的識別准確率一般在30%以下;油印文檔識別准確率一般在50%以下;列印、鉛印和膠印文檔識別率較高,一般能達90%以上。無論在哪種類型的文檔中,標點的識別率都很低,地層和數學符號及其他特殊符號的識別率幾乎為零。
2)目前識別技術無法達到100%識別,必須根據實際需求對照紙質檔案對初次識別結果進行人工校對才能滿足全文檢索需求。
3)地質資料掃描文件數量多、容量大,轉換速度受計算機反應速度影響,大批量轉換和識別需選擇高配置計算機,且批量轉換和人工識別耗時長,耗人工多,需專項經費支持開展工作。
4.3 OCR數字加工系統的引入與功能簡介
經過對目前國內雙層PDF轉換方法的對比,結合地質資料情況復雜的特點,以及數據測試結果研究,建議地質資料的雙層PDF轉換主要採用軟體識別和流程加工相結合的方法,即採用OCR數字加工系統,可以保證高效率、高質量地完成雙層PDF轉換。該系統主要包含以下幾個主要流程:
圖1 OCR數字加工系統示意圖
1)圖像處理。為提高識別率,對圖像進行「消藍去污」的處理,去掉圖像上影響識別率的噪音,如麻點、下劃線等,由圖像質量控製程序自動監測圖像處理質量。
2)版面分析。自動進行版面理解並定位,判別劃框區域是橫排文本區、豎排文本區、表格區還是圖像區,並對不同屬性的區域以不同顏色的線框標識出來。自動版面分析在後台運行,操作人員可在前台進行確認,必要時對自動版面分析結果加入手工干預。
3)識別。把文字圖像轉化為計算機文字內碼,可以識別印刷體和手寫體中文(包括簡體字和繁體字)、中英文混排文字、表格,識別出來的文字內碼可以是GB碼、BIG5碼、GBK碼或者Unicode碼。識別過程在後台運行。
4)縱向校對。具有很強的查錯糾錯能力,是將一個或若干個圖像中識別成同一個字的文字圖像列在一起顯示,並以突出顏色標出可疑字,便於操作員發現錯誤和修改。
5)橫向校對。是傳統的人工校對方法,操作員直接對比識別結果文本和圖像,以發現識別錯誤文字。系統自動調出文字對應的圖像,進行比對。同時,以醒目的顏色標出識別可信度不離的文字。
6)版面還原。將識別並修改好的文本還原成跟掃描文稿版面的布局一樣、可以供計算機閱讀和查詢檢索的RTF、PDF、HTML、SGML/XML格式的數字文檔。
7)數據入庫。版面還原數字文檔的保存。
4.4 提立OCR識別率的方法
利用OCR數字加工系統生成的雙層PDF,文本層差錯率最低可到萬分之一,可呈現原版底紋和色彩風貌,可進行全文檢索和復制引用,且檢索信息可准確定位到字元,便於快速查找目標信息。為了減輕橫向校對即人工校對工作量,提高工作效率,就要從根本上提高識別率。經過試驗,以下幾個方法可以提高柵格文件OCR識別率。
1)圖像色彩設定。雖然灰度或彩色模式可以最大限度還原紙質資料原貌,是我們掃描數字化的首選,但是這兩種色彩模式會增大影響識別率的背景噪音。若僅做文字識別及一般黑白插圖選取,建議可將掃描程序的圖像色彩設定設置為黑白,增大識別率。不過最終圖像色彩的設定還要按照各類具體工作的規范要求來設置。
2)解析度設置。我們都知道掃描解析度設置越低,掃描速度越快,但同時也導致圖像質量差,其文字識別准確率低。反之解析度高,掃描速度慢,但文字識別准確率高。但這又不是絕對的,因為解析度設置得太高後,紙張上的微小瑕疵也可能被認作標點符號或漢字等,文字識別准確率反而會有所降低。經反復測試,解析度設為300dpi,是掃描速度及文字識別准確率的最佳平衡點。
3)圖像處理。這里圖像處理是指掃描輸出圖像前的傾斜校正和去污等。傾斜校正是為了調整文字方向使之正向,這樣才能對OCR識別有所幫助。
雙層PDF轉換完成以後,在此基礎上可以實現資料管理系統與PDF文件的掛接,對資料數據內容及其元數據等相關信息建立聯系並形成數據包;然後通過調用全文資料庫原數據創建索引文件,最後實現全文檢索。通過全文資料庫及全文檢索的實現,得到高查全率和查准率,大幅度提高地質資料的利用價值,促進地質資料編研工作,為地質資料信息聚合的研究和深層次服務奠定了基礎。
參考文獻
[1]許呈辰.檔案數字化過程中OCR技術的應用[J].檔案管理,2011(1).
[2]徐永芳.OCR技術在檔案數字化過程中的應用[J].藝術科技,2011(2).
[3]張旋.OCR技術研究進展及前瞻[J].科學技術,2010(4).
[4]郭金光.雙層PDF技術及在檔案數字化中的應用[J].新觀察,2013(1).
[5]劉家真.文件保存格式與PDF文檔[J].檔案學研究,2002(2).