❶ 《MySQL核心技术手册第2版》pdf下载在线阅读,求百度网盘云资源
《MySQL核心技术手册 第2版》(戴尔)电子书网盘下载免费在线阅读
资源链接:
链接:https://pan..com/s/1kN0HHbs4lBK2e9cloSGhbw 提取码:qwzr
书名:MySQL核心技术手册 第2版
作者:戴尔
译者:李红军
豆瓣评分:7.0
出版社:机械工业出版社
出版年份:2009-9
页数:554
内容简介:
MySQL包含了许多功能,尤其是在MySQL 5.0和5.1版本中新增了一些主要的功能和特性。MySQL特有的函数或者语句是相当丰富的。这正是《MySQL核心技术手册(第2版)》富有价值的原因。《MySQL核心技术手册(第2版)》令读者可以快速查找到所需要的具体细节,无论是SQL关键字还是mysql命令行选项、具体的API信息或管理实用工具。
《MySQL核心技术手册(第2版)》涵盖了适用于MySQL 5.1版本的所有命令和编程信息,其中包括一些新增特性和语言接口,对于列举的大部分语句和函数,给出了它们的用法示例。
《MySQL核心技术手册(第2版)》易于使用,并由权威作者执笔。《MySQL核心技术手册(第2版)》:
·提供了MySQL语句、函数、配置选项和实用工具的一个完整手册。
·给出了几个指导章节用于帮助新手入门。
·为PHP、Perl和C语言提供了应用程序编程接口(API)。
·在每章的API开头部分提供了简要的指南。
·新增复制、触发器和存储过程章节。
·提供了许多MySQL的实用示例。
·给出了一些有用的提示,用于帮助读者克服难题。
无论你为何而使用MySQL,《MySQL核心技术手册(第2版)》充满了大量的知识财富,给你节省了许多用于尝试的时间以及令人厌烦的在线搜索。
作者简介:
Russell Dyer是一位自由作家,主要致力于MySQL数据库软件方面的研究,他是MySQL公司知识库(http://www.mysql.com/network/knowledgebase.html)的编辑。他在如下出版物上发表了很多文章,这些出版物包括DevZone(MySQL的一个出版物)、Linux期刊、ONlamp.com、Perl期刊、Red Hat杂志、Sys Admin杂志、TechRepublic、Unix评论和XML.com。他还是《MySQL核心技术手册》第1版的作者。
❷ 双层PDF在地质资料数字化中的应用
郭慧锦 贾国锋 马飞飞 张茜
(全国地质资料馆)
摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。
关键词 双层PDF OCR识别率
当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全国已有20多个省级资料馆完成馆藏资料的数字化工作,全国地质资料馆的成果地质资料数字化工作也接近尾声,所形成的海量数据已成为地质资料信息社会化服务重要数据资源。此类数字化数据是静态的,有利于阅览使用,但无法进行全文检索,也不利于进一步分析处理。因此,在现有数据的基础上,开展OCR识别,使之转化成双PDF文件,实现静态向动态的转变,建立全文数据库,完成对地质资料的全文信息的检索,成为地质资料馆藏机构推进资料数字化工作。
1 关于双层 PDF与OCR技术
双层PDF是在扫描数据的基础上通过OCR识别生成的可检索的PDF文件,即上层是原始图像,下层是识别结果,且位置上下一一对应。双层PDF文件不仅可以100%保留原始版面效果,而且支持选择、复制、检索等功能,这样的PDF文件最后可以存储在光盘、硬盘或磁盘阵列中,并通过建立索引数据库进行科学的管理。
OCR(Optical Character Recognition),即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机网络飞速发展,信息电子化已经成为一个时代必然趋势。文字作为信息中最重要、最集中的载体,其电子化进程显得尤为重要。而OCR技术则是文字电子化过程中最重要的环节,它改变了传统的纸介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。
2 应用现状
PDF正在世界各国政府、金融财务、法律、工程技术、医疗等诸多部门获得广泛的应用,并已成为政府、学术部门等单位标准的现代化公文格式规范,所以PDF电子格式文档将是未来档案部门收藏的主体。而双层PDF的出现有效解决了识别成本和阅读利用的矛盾,是一种较有潜力的资源格式。国外的OCR技术应用相对成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陆续展开了这方面的研究,在他们的产品中绑定了OCR技术。
如今,OCR技术在我国的应用也极为广泛。信息检索技术研究,即双层PDF检索技术研究,中国“863”计划在2008年以前已经开始对中文OCR、自动分词、自动摘要、自动搜索、自动定位进行了统一测试评测。在此基础上,国内逐步建立了以数字图书馆、数字档案馆、数字报刊、数字校园网等一系列数字化为基础的实施案例,例如新闻出版总署、外联部、共青团中央等机关文献全文数据库;《中国青年》75年、《新华文摘》20年等期刊全文数据库。国家图书馆早在1999年就成立了“国家图书馆文献数字化中心”,对各类馆藏文献进行数字化加工和OCR识别,在此基础上形成书目型书库、题录型数据库和全文型数据库三大类,逐渐成为我国网上信息资源的中心枢纽。
随着我国信息化建设全面普及,OCR技术的应用前景更加广阔,数字图书馆、数字档案馆、数字资料馆等概念的提出也使OCR在纸质档案数字化过程中越来越发挥其独特的作用,不仅节省了人力物力,更使档案信息资源的利用价值达到最大化,能够更好地服务于民。
3 数字化数据双层PDF转换的意义
3.1 是地质资料信息化建设的重要内容
随着社会信息化程度的提高,人们对信息资源的依赖程度也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切。数字化是信息化建设的重要内容,而信息化建设的核心是资源建设。资源建设包括三大任务:一是馆藏纸质资料的扫描数字化与目录数据库建设;二是电子文件的归档与管理;三是全文数据库和全文检索体系建设。根据各资料馆数字化工作进展,考虑到用户的利用需求,若要得到真正文本形态的电子信息,使资料数字化工作更加有效,更加彻底,最大限度拓宽用户利用面,就需要应用OCR技术进行扫描栅格文件的双层PDF转换,进而开展地质资料全文数据库建设和全文检索工作。
3.2 是地质资料实现全文检索与全文数据库建设的前提
实践证明,基于双层PDF文档的全文检索,有效地提高了查询利用效率。它通过对档案数据库的数据和双层PDF文档的Text层建立索引,查询时可以不访问数据库,有效减轻数据库和系统的压力。至少可以支持1000万级的数据,毫秒级的查询时间,每秒上千人的并发访问,从而实现大容量、高速度的目标,并且可以适应Linux和Windows平台,支持多种数据库接口。它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
3.3 是现代化数据中心标准化建设的前提
建设现代化的数据中心首先要实现电子文件存储结构标准化,即建立一个通用性强、应用广泛的电子文件信息存储和交换格式。基于PDF格式已经作为电子文件管理中电子文件长期保存格式的最新标准在国际上全面实施,且具有兼容性、原始记录性强,安全控制策略完善等优点,是电子文件长期保存的最佳选择。所以进行馆藏数字化数据PDF转换势在必行。
4 双层PDF转换方法
4.1 目前常见的双层PDF转换方法
目前国内双层PDF的转换技术已经相对成熟,从现有技术条件下来看,大体可分为以下3种:
4.1.1 软件转换
由目前市场上较流行的 Adobe Acrobat、ABBYY FineReader12(中英文识别)、Readiris Corporate 12(英文识别率高)、Foxit Phantom 5(可以单独显示文本层)、清华文通TH-OCR XP8(识别率较高)、汉王文本王5800(版面识别较好,纯中文识别率高)、尚书七号OCR等转换程序,可以经OCR识别处理后直接生成双层PDF文件,速度快,效率高。但识别率和纸质资料原件(如印刷方式、清晰度、纸张质量等)及操作人员技术水平成正比。如果纸质原件质量好,识别率相对就高;质量差,识别率就相对较低。
4.1.2 流程加工
根据相关技术要求,对图像进行全新的OCR识别流程加工处理,重新生成PDF文件,具有文字正确率高、文字定位准确等特点。这种方式相当于全流程化制作双层PDF文件,工作量大,耗时长,费用高。
4.1.3 识别重构
重新生成PDF文件,实现版面字体、字号、颜色的恢复和重构。文字正确率高,页面清晰,但和原版图差异较大,主要在图书方面应用较多。
4.2 地质资料双层PDF转换
全国馆于2011年开始在扫描数字化基础上开展双层PDF的转换试验工作,主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。由于地质资料不同于普通的文书档案,纸张样式和印刷方式多样,手写和老旧资料多,地层、数学等特殊符号多等特点,给OCR自动识别带来了困难,单一的软件识别并不能满足全文检索90%以上识别率的要求。
在转换试验基础上我们得到以下结论:
1)地质资料本身多种多样,实际的识别率主要受印刷质量、形成年代等因素影响,老旧资料、纸质质量差的资料识别率普遍较低;受执笔人书写习惯及书写清晰度的影响,手写文档的识别准确率一般在30%以下;油印文档识别准确率一般在50%以下;打印、铅印和胶印文档识别率较高,一般能达90%以上。无论在哪种类型的文档中,标点的识别率都很低,地层和数学符号及其他特殊符号的识别率几乎为零。
2)目前识别技术无法达到100%识别,必须根据实际需求对照纸质档案对初次识别结果进行人工校对才能满足全文检索需求。
3)地质资料扫描文件数量多、容量大,转换速度受计算机反应速度影响,大批量转换和识别需选择高配置计算机,且批量转换和人工识别耗时长,耗人工多,需专项经费支持开展工作。
4.3 OCR数字加工系统的引入与功能简介
经过对目前国内双层PDF转换方法的对比,结合地质资料情况复杂的特点,以及数据测试结果研究,建议地质资料的双层PDF转换主要采用软件识别和流程加工相结合的方法,即采用OCR数字加工系统,可以保证高效率、高质量地完成双层PDF转换。该系统主要包含以下几个主要流程:
图1 OCR数字加工系统示意图
1)图像处理。为提高识别率,对图像进行“消蓝去污”的处理,去掉图像上影响识别率的噪音,如麻点、下划线等,由图像质量控制程序自动监测图像处理质量。
2)版面分析。自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
3)识别。把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、中英文混排文字、表格,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
4)纵向校对。具有很强的查错纠错能力,是将一个或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
5)横向校对。是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不离的文字。
6)版面还原。将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。
7)数据入库。版面还原数字文档的保存。
4.4 提立OCR识别率的方法
利用OCR数字加工系统生成的双层PDF,文本层差错率最低可到万分之一,可呈现原版底纹和色彩风貌,可进行全文检索和复制引用,且检索信息可准确定位到字符,便于快速查找目标信息。为了减轻横向校对即人工校对工作量,提高工作效率,就要从根本上提高识别率。经过试验,以下几个方法可以提高栅格文件OCR识别率。
1)图像色彩设定。虽然灰度或彩色模式可以最大限度还原纸质资料原貌,是我们扫描数字化的首选,但是这两种色彩模式会增大影响识别率的背景噪音。若仅做文字识别及一般黑白插图选取,建议可将扫描程序的图像色彩设定设置为黑白,增大识别率。不过最终图像色彩的设定还要按照各类具体工作的规范要求来设置。
2)分辨率设置。我们都知道扫描分辨率设置越低,扫描速度越快,但同时也导致图像质量差,其文字识别准确率低。反之分辨率高,扫描速度慢,但文字识别准确率高。但这又不是绝对的,因为分辨率设置得太高后,纸张上的微小瑕疵也可能被认作标点符号或汉字等,文字识别准确率反而会有所降低。经反复测试,分辨率设为300dpi,是扫描速度及文字识别准确率的最佳平衡点。
3)图像处理。这里图像处理是指扫描输出图像前的倾斜校正和去污等。倾斜校正是为了调整文字方向使之正向,这样才能对OCR识别有所帮助。
双层PDF转换完成以后,在此基础上可以实现资料管理系统与PDF文件的挂接,对资料数据内容及其元数据等相关信息建立联系并形成数据包;然后通过调用全文数据库原数据创建索引文件,最后实现全文检索。通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅度提高地质资料的利用价值,促进地质资料编研工作,为地质资料信息聚合的研究和深层次服务奠定了基础。
参考文献
[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011(1).
[2]徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).
[3]张旋.OCR技术研究进展及前瞻[J].科学技术,2010(4).
[4]郭金光.双层PDF技术及在档案数字化中的应用[J].新观察,2013(1).
[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2).
❸ 求《SQLServer数据库原理及应用张伟》全文免费下载百度网盘资源,谢谢~
《SQL Server数据库原理及应用张伟》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1U7QcRNPizjAjyJeTrQfnUg
❹ 《数据挖掘概念与技术(原书第3版)》pdf下载在线阅读,求百度网盘云资源
《数据挖掘》((美)Jiawei Han)电子书网盘下载免费在线阅读
资源链接:
链接:
书名:数据挖掘
作者:(美)Jiawei Han
译者:范明
豆瓣评分:7.9
出版社:机械工业出版社
出版年份:2012-8
页数:468
内容简介:数据挖掘领域最具里程碑意义的经典着作
完整全面阐述该领域的重要知识和技术创新
这是一本数据挖掘和知识发现的优秀教材,结构合理、条理清晰。本书既保留了相当篇幅讲述数据挖掘的基本概念和方法,又增加了若干章节介绍数据挖掘领域最新的技术和发展,因此既适合初学者学习又适合专业人员和实践者参考。本书视角广阔、资料翔实、内容全面,能够为有意深入研究相关技术的读者提供足够的参考和支持。总之, 强烈推荐从高年级本科生到专业人员和实践者都来阅读这本书!
—— 美国CHOICE杂志
这是一本非常优秀的数据挖掘教材,最新的第3版反映了数据挖掘领域的最新发展和变化。书中增加了2006年第2版以来最新的引用资料,新增小节讨论可视化、模式挖掘以及最新的聚类方法。本书配有丰富及完善的教辅支持,包括配套网站、大量的习题集以及习题答案等。尽管这是一本数据挖掘的教材,但对于读者没有太高的要求,只需要读者具有少量编程经验并了解基本的数据库设计和统计分析知识。还有两点值得注意:第一,本书的参考书目是关于了解数据挖掘研究的非常好的参考列表;第二,书中的索引非常全面和有效,能够帮助读者很容易地定位相关知识点。其他学科的研究人员和分析人员,例如,流行病学家、金融分析师、心理测量研究人员,也会发现本书非常有用。
—— Computing Reviews
当代商业和科学领域大量激增的数据量要求我们采用更加复杂和精细的工具来进行数据分析、处理和挖掘。尽管近年来数据挖掘技术取得的长足进展使得我们广泛收集数据越来越容易,但技术的发展依然难以匹配爆炸性的数据增长以及随之而来的大量数据处理需求,因此我们比以往更加迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。
本书前版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专着,是一本可读性极佳的教材。它从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展,并重点关注近年来该领域重要和最新的课题——数据仓库和数据立方体技术,流数据挖掘,社会网络挖掘,空间、多媒体和其他复杂数据挖掘。每章都针对关键专题有单独的指导,提供最佳算法,并对怎样将技术运用到实际工作中给出了经过实践检验的实用型规则。如果你希望自己能熟练掌握和运用当今最有力的数据挖掘技术,那本书正是你需要阅读和学习的宝贵资源。本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的一本书。
【本书特色】
引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。
讨论了一些高级主题,例如挖掘面向对象的关系型数据库、空间数据库、多媒体数据库、时间序列数据库、文本数据库、万维网以及其他领域的应用等。
全面而实用地给出用于从海量数据中获取尽可能多信息的概念和技术。
作者简介:Jiawei Han(韩家炜)伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系Abel Bliss教授。由于在数据挖掘和数据库系统领域卓有成效的研究工作,他曾多次获得各种荣誉和奖励,包括2004年ACM SIGKDD颁发的最佳创新奖,2005年IEEE Computer Society颁发的技术成就奖,2009年IEEE颁发的W. Wallace McDowell奖。他是ACM和IEEE Fellow。
Micheline Kamber 拥有加拿大康考迪亚大学计算机科学硕士学位,她是NSERC Scholar,先后在加拿大麦吉尔大学、西蒙-弗雷泽大学及瑞士从事研究工作。
Jian Pei(裴健)目前是加拿大西蒙-弗雷泽大学计算机科学学院教授。2002年,他在Jiawei Han教授的指导下获得西蒙-弗雷泽大学博士学位。
❺ 《数据挖掘概念与技术(原书第3版)》pdf下载在线阅读全文,求百度网盘云资源
《数据挖掘》((美)Jiawei Han)电子书网盘下载免费在线阅读
链接:
书名:数据挖掘
作者:(美)Jiawei Han
译者:范明
豆瓣评分:7.9
出版社:机械工业出版社
出版年份:2012-8
页数:468
内容简介:
数据挖掘领域最具里程碑意义的经典着作
完整全面阐述该领域的重要知识和技术创新
引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。
讨论了一些高级主题,例如挖掘面向对象的关系型数据库、空间数据库、多媒体数据库、时间序列数据库、文本数据库、万维网以及其他领域的应用等。
全面而实用地给出用于从海量数据中获取尽可能多信息的概念和技术。
作者简介:
Jiawei Han(韩家炜)伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系Abel Bliss教授。由于在数据挖掘和数据库系统领域卓有成效的研究工作,他曾多次获得各种荣誉和奖励,包括2004年ACM SIGKDD颁发的最佳创新奖,2005年IEEE Computer Society颁发的技术成就奖,2009年IEEE颁发的W. Wallace McDowell奖。他是ACM和IEEE Fellow。
Micheline Kamber 拥有加拿大康考迪亚大学计算机科学硕士学位,她是NSERC Scholar,先后在加拿大麦吉尔大学、西蒙-弗雷泽大学及瑞士从事研究工作。
Jian Pei(裴健)目前是加拿大西蒙-弗雷泽大学计算机科学学院教授。2002年,他在Jiawei Han教授的指导下获得西蒙-弗雷泽大学博士学位。
❻ 《wireshark数据包分析实战》pdf下载在线阅读全文,求百度网盘云资源
《wireshark数据包分析实战》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1wKJydtxgsA-JoOs7tx1cfQ
❼ 《数据库系统概论第五版》pdf下载在线阅读全文,求百度网盘云资源
《数据库系统概论第五版》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1clUdt_gPKyWG026HB5atmg