‘壹’ 求spss modeler 数据挖掘方法及应用薛薇的pdf,书落在学校了,急用,谢谢
CLEMENTINE数据挖掘方法及应用(扫描本).pdf (选择普通下载即可)
《Clementine数据挖掘方法及应用》这本书其实和《SPSS Modeler数据挖掘方法及应用》是一样的,作者等都是同一个人,除了名字不一样,绝大部分内容是一样的两本书。
1、PC电脑端或手机网页端登陆,即可查看、下载;
2、文件有时效性,若失效或下载问题,请@私信;
3、资料收集于互联网,仅供个人试读,有能力多支持纸质书籍!
‘贰’ python数据分析与应用-Python数据分析与应用 PDF 内部全资料版
给大家带来的一篇关于Python数据相关的电子书资源,介绍了关于Python方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小281 MB,黄红梅 张良均编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8。
内容介绍
目录
第1章Python数据分析概述1
任务1.1认识数据分析1
1.1.1掌握数据分析的概念2
1.1.2掌握数据分析的流程2
1.1.3了解数据分析应用场景4
任务1.2熟悉Python数据分析的工具5
1.2.1了解数据分析常用工具6
1.2.2了解Python数据分析的优势7
1.2.3了解Python数据分析常用类库7
任务1.3安装Python的Anaconda发行版9
1.3.1了解Python的Anaconda发行版9
1.3.2在Windows系统中安装Anaconda9
1.3.3在Linux系统中安装Anaconda12
任务1.4掌握Jupyter Notebook常用功能14
1.4.1掌握Jupyter Notebook的基本功能14
1.4.2掌握Jupyter Notebook的高 级功能16
小结19
课后习题19
第2章NumPy数值计算基础21
任务2.1掌握NumPy数组对象ndarray21
2.1.1创建数组对象21
2.1.2生成随机数27
2.1.3通过索引访问数组29
2.1.4变换数组的形态31
任务2.2掌握NumPy矩阵与通用函数34
2.2.1创建NumPy矩阵34
2.2.2掌握ufunc函数37
任务2.3利用NumPy进行统计分析41
2.3.1读/写文件41
2.3.2使用函数进行简单的统计分析44
2.3.3任务实现48
小结50
实训50
实训1创建数组并进行运算50
实训2创建一个国际象棋的棋盘50
课后习题51
第3章Matplotlib数据可视化基础52
任务3.1掌握绘图基础语法与常用参数52
3.1.1掌握pyplot基础语法53
3.1.2设置pyplot的动态rc参数56
任务3.2分析特征间的关系59
3.2.1绘制散点图59
3.2.2绘制折线图62
3.2.3任务实现65
任务3.3分析特征内部数据分布与分散状况68
3.3.1绘制直方图68
3.3.2绘制饼图70
3.3.3绘制箱线图71
3.3.4任务实现73
小结77
实训78
实训1分析1996 2015年人口数据特征间的关系78
实训2分析1996 2015年人口数据各个特征的分布与分散状况78
课后习题79
第4章pandas统计分析基础80
任务4.1读/写不同数据源的数据80
4.1.1读/写数据库数据80
4.1.2读/写文本文件83
4.1.3读/写Excel文件87
4.1.4任务实现88
任务4.2掌握DataFrame的常用操作89
4.2.1查看DataFrame的常用属性89
4.2.2查改增删DataFrame数据91
4.2.3描述分析DataFrame数据101
4.2.4任务实现104
任务4.3转换与处理时间序列数据107
4.3.1转换字符串时间为标准时间107
4.3.2提取时间序列数据信息109
4.3.3加减时间数据110
4.3.4任务实现111
任务4.4使用分组聚合进行组内计算113
4.4.1使用groupby方法拆分数据114
4.4.2使用agg方法聚合数据116
4.4.3使用apply方法聚合数据119
4.4.4使用transform方法聚合数据121
4.4.5任务实现121
任务4.5创建透视表与交叉表123
4.5.1使用pivot_table函数创建透视表123
4.5.2使用crosstab函数创建交叉表127
4.5.3任务实现128
小结130
实训130
实训1读取并查看P2P网络贷款数据主表的基本信息130
实训2提取用户信息更新表和登录信息表的时间信息130
实训3使用分组聚合方法进一步分析用户信息更新表和登录信息表131
实训4对用户信息更新表和登录信息表进行长宽表转换131
课后习题131
第5章使用pandas进行数据预处理133
任务5.1合并数据133
5.1.1堆叠合并数据133
5.1.2主键合并数据136
5.1.3重叠合并数据139
5.1.4任务实现140
任务5.2清洗数据141
5.2.1检测与处理重复值141
5.2.2检测与处理缺失值146
5.2.3检测与处理异常值149
5.2.4任务实现152
任务5.3标准化数据154
5.3.1离差标准化数据154
5.3.2标准差标准化数据155
5.3.3小数定标标准化数据156
5.3.4任务实现157
任务5.4转换数据158
5.4.1哑变量处理类别型数据158
5.4.2离散化连续型数据160
5.4.3任务实现162
小结163
实训164
实训1插补用户用电量数据缺失值164
实训2合并线损、用电量趋势与线路告警数据164
实训3标准化建模专家样本数据164
课后习题165
第6章使用scikit-learn构建模型167
任务6.1使用sklearn转换器处理数据167
6.1.1加载datasets模块中的数据集167
6.1.2将数据集划分为训练集和测试集170
6.1.3使用sklearn转换器进行数据预处理与降维172
6.1.4任务实现174
任务6.2构建并评价聚类模型176
6.2.1使用sklearn估计器构建聚类模型176
6.2.2评价聚类模型179
6.2.3任务实现182
任务6.3构建并评价分类模型183
6.3.1使用sklearn估计器构建分类模型183
6.3.2评价分类模型186
6.3.3任务实现188
任务6.4构建并评价回归模型190
6.4.1使用sklearn估计器构建线性回归模型190
6.4.2评价回归模型193
6.4.3任务实现194
小结196
实训196
实训1使用sklearn处理wine和wine_quality数据集196
实训2构建基于wine数据集的K-Means聚类模型196
实训3构建基于wine数据集的SVM分类模型197
实训4构建基于wine_quality数据集的回归模型197
课后习题198
第7章航空公司客户价值分析199
任务7.1了解航空公司现状与客户价值分析199
7.1.1了解航空公司现状200
7.1.2认识客户价值分析201
7.1.3熟悉航空客户价值分析的步骤与流程201
任务7.2预处理航空客户数据202
7.2.1处理数据缺失值与异常值202
7.2.2构建航空客户价值分析关键特征202
7.2.3标准化LRFMC模型的5个特征206
7.2.4任务实现207
任务7.3使用K-Means算法进行客户分群209
7.3.1了解K-Means聚类算法209
7.3.2分析聚类结果210
7.3.3模型应用213
7.3.4任务实现214
小结215
实训215
实训1处理信用卡数据异常值215
实训2构造信用卡客户风险评价关键特征217
实训3构建K-Means聚类模型218
课后习题218
第8章财政收入预测分析220
任务8.1了解财政收入预测的背景与方法220
8.1.1分析财政收入预测背景220
8.1.2了解财政收入预测的方法222
8.1.3熟悉财政收入预测的步骤与流程223
任务8.2分析财政收入数据特征的相关性223
8.2.1了解相关性分析223
8.2.2分析计算结果224
8.2.3任务实现225
任务8.3使用Lasso回归选取财政收入预测的关键特征225
8.3.1了解Lasso回归方法226
8.3.2分析Lasso回归结果227
8.3.3任务实现227
任务8.4使用灰色预测和SVR构建财政收入预测模型228
8.4.1了解灰色预测算法228
8.4.2了解SVR算法229
8.4.3分析预测结果232
8.4.4任务实现234
小结236
实训236
实训1求取企业所得税各特征间的相关系数236
实训2选取企业所得税预测关键特征237
实训3构建企业所得税预测模型237
课后习题237
第9章家用热水器用户行为分析与事件识别239
任务9.1了解家用热水器用户行为分析的背景与步骤239
9.1.1分析家用热水器行业现状240
9.1.2了解热水器采集数据基本情况240
9.1.3熟悉家用热水器用户行为分析的步骤与流程241
任务9.2预处理热水器用户用水数据242
9.2.1删除冗余特征242
9.2.2划分用水事件243
9.2.3确定单次用水事件时长阈值244
9.2.4任务实现246
任务9.3构建用水行为特征并筛选用水事件247
9.3.1构建用水时长与频率特征248
9.3.2构建用水量与波动特征249
9.3.3筛选候选洗浴事件250
9.3.4任务实现251
任务9.4构建行为事件分析的BP神经网络模型255
9.4.1了解BP神经网络算法原理255
9.4.2构建模型259
9.4.3评估模型260
9.4.4任务实现260
小结263
实训263
实训1清洗运营商客户数据263
实训2筛选客户运营商数据264
实训3构建神经网络预测模型265
课后习题265
附录A267
附录B270
参考文献295
学习笔记
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。 定义 (推荐学习:Python视频教程) 用户可以通过电子邮件,Dropbox,GitHub 和 Jupyter Notebook Viewer,将 Jupyter Notebook 分享给其他人。 在Jupyter Notebook 中,代码可以实时的生成图像,视频,LaTeX和JavaScript。 使用 数据挖掘领域中最热门的比赛 Kaggle 里的资料都是Jupyter 格式 。 架构 Jupyter组件 Jupyter包含以下组件: Jupyter Notebook 和 ……
本文实例讲述了Python实现的微信好友数据分析功能。分享给大家供大家参考,具体如下: 这里主要利用python对个人微信好友进行分析并把结果输出到一个html文档当中,主要用到的python包为 itchat , pandas , pyecharts 等 1、安装itchat 微信的python sdk,用来获取个人好友关系。获取的代码 如下: import itchatimport pandas as pdfrom pyecharts import Geo, Baritchat.login()friends = itchat.get_friends(update=True)[0:]def User2dict(User): User_dict = {} User_dict["NickName"] = User["NickName"] if User["NickName"] else "NaN" User_dict["City"] = User["City"] if User["City"] else "NaN" User_dict["Sex"] = User["Sex"] if User["Sex"] else 0 User_dict["Signature"] = User["Signature"] if User["Signature"] else "NaN" ……
基于微信开放的个人号接口python库itchat,实现对微信好友的获取,并对省份、性别、微信签名做数据分析。 效果: 直接上代码,建三个空文本文件stopwords.txt,newdit.txt、unionWords.txt,下载字体simhei.ttf或删除字体要求的代码,就可以直接运行。 #wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#绘图时可以显示中文plt.rcParams['axes.unicode_minus']=False#绘图时可以显示中文import jiemport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#解决编码问题non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd) #获取好友信息def getFriends():……
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
本文实例讲述了Python数据分析之双色球基于线性回归算法预测下期中奖结果。分享给大家供大家参考,具体如下: 前面讲述了关于双色球的各种算法,这里将进行下期双色球号码的预测,想想有些小激动啊。 代码中使用了线性回归算法,这个场景使用这个算法,预测效果一般,各位可以考虑使用其他算法尝试结果。 发现之前有很多代码都是重复的工作,为了让代码看的更优雅,定义了函数,去调用,顿时高大上了 #!/usr/bin/python# -*- coding:UTF-8 -*-#导入需要的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operatorfrom sklearn import datasets,linear_modelfrom sklearn.linear_model import LogisticRegression#读取文件d……
以上就是本次介绍的Python数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对鬼鬼的支持。
注·获取方式:私信(666)
‘叁’ 双层PDF在地质资料数字化中的应用
郭慧锦 贾国锋 马飞飞 张茜
(全国地质资料馆)
摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。
关键词 双层PDF OCR识别率
当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全国已有20多个省级资料馆完成馆藏资料的数字化工作,全国地质资料馆的成果地质资料数字化工作也接近尾声,所形成的海量数据已成为地质资料信息社会化服务重要数据资源。此类数字化数据是静态的,有利于阅览使用,但无法进行全文检索,也不利于进一步分析处理。因此,在现有数据的基础上,开展OCR识别,使之转化成双PDF文件,实现静态向动态的转变,建立全文数据库,完成对地质资料的全文信息的检索,成为地质资料馆藏机构推进资料数字化工作。
1 关于双层 PDF与OCR技术
双层PDF是在扫描数据的基础上通过OCR识别生成的可检索的PDF文件,即上层是原始图像,下层是识别结果,且位置上下一一对应。双层PDF文件不仅可以100%保留原始版面效果,而且支持选择、复制、检索等功能,这样的PDF文件最后可以存储在光盘、硬盘或磁盘阵列中,并通过建立索引数据库进行科学的管理。
OCR(Optical Character Recognition),即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机网络飞速发展,信息电子化已经成为一个时代必然趋势。文字作为信息中最重要、最集中的载体,其电子化进程显得尤为重要。而OCR技术则是文字电子化过程中最重要的环节,它改变了传统的纸介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。
2 应用现状
PDF正在世界各国政府、金融财务、法律、工程技术、医疗等诸多部门获得广泛的应用,并已成为政府、学术部门等单位标准的现代化公文格式规范,所以PDF电子格式文档将是未来档案部门收藏的主体。而双层PDF的出现有效解决了识别成本和阅读利用的矛盾,是一种较有潜力的资源格式。国外的OCR技术应用相对成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陆续展开了这方面的研究,在他们的产品中绑定了OCR技术。
如今,OCR技术在我国的应用也极为广泛。信息检索技术研究,即双层PDF检索技术研究,中国“863”计划在2008年以前已经开始对中文OCR、自动分词、自动摘要、自动搜索、自动定位进行了统一测试评测。在此基础上,国内逐步建立了以数字图书馆、数字档案馆、数字报刊、数字校园网等一系列数字化为基础的实施案例,例如新闻出版总署、外联部、共青团中央等机关文献全文数据库;《中国青年》75年、《新华文摘》20年等期刊全文数据库。国家图书馆早在1999年就成立了“国家图书馆文献数字化中心”,对各类馆藏文献进行数字化加工和OCR识别,在此基础上形成书目型书库、题录型数据库和全文型数据库三大类,逐渐成为我国网上信息资源的中心枢纽。
随着我国信息化建设全面普及,OCR技术的应用前景更加广阔,数字图书馆、数字档案馆、数字资料馆等概念的提出也使OCR在纸质档案数字化过程中越来越发挥其独特的作用,不仅节省了人力物力,更使档案信息资源的利用价值达到最大化,能够更好地服务于民。
3 数字化数据双层PDF转换的意义
3.1 是地质资料信息化建设的重要内容
随着社会信息化程度的提高,人们对信息资源的依赖程度也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切。数字化是信息化建设的重要内容,而信息化建设的核心是资源建设。资源建设包括三大任务:一是馆藏纸质资料的扫描数字化与目录数据库建设;二是电子文件的归档与管理;三是全文数据库和全文检索体系建设。根据各资料馆数字化工作进展,考虑到用户的利用需求,若要得到真正文本形态的电子信息,使资料数字化工作更加有效,更加彻底,最大限度拓宽用户利用面,就需要应用OCR技术进行扫描栅格文件的双层PDF转换,进而开展地质资料全文数据库建设和全文检索工作。
3.2 是地质资料实现全文检索与全文数据库建设的前提
实践证明,基于双层PDF文档的全文检索,有效地提高了查询利用效率。它通过对档案数据库的数据和双层PDF文档的Text层建立索引,查询时可以不访问数据库,有效减轻数据库和系统的压力。至少可以支持1000万级的数据,毫秒级的查询时间,每秒上千人的并发访问,从而实现大容量、高速度的目标,并且可以适应Linux和Windows平台,支持多种数据库接口。它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
3.3 是现代化数据中心标准化建设的前提
建设现代化的数据中心首先要实现电子文件存储结构标准化,即建立一个通用性强、应用广泛的电子文件信息存储和交换格式。基于PDF格式已经作为电子文件管理中电子文件长期保存格式的最新标准在国际上全面实施,且具有兼容性、原始记录性强,安全控制策略完善等优点,是电子文件长期保存的最佳选择。所以进行馆藏数字化数据PDF转换势在必行。
4 双层PDF转换方法
4.1 目前常见的双层PDF转换方法
目前国内双层PDF的转换技术已经相对成熟,从现有技术条件下来看,大体可分为以下3种:
4.1.1 软件转换
由目前市场上较流行的 Adobe Acrobat、ABBYY FineReader12(中英文识别)、Readiris Corporate 12(英文识别率高)、Foxit Phantom 5(可以单独显示文本层)、清华文通TH-OCR XP8(识别率较高)、汉王文本王5800(版面识别较好,纯中文识别率高)、尚书七号OCR等转换程序,可以经OCR识别处理后直接生成双层PDF文件,速度快,效率高。但识别率和纸质资料原件(如印刷方式、清晰度、纸张质量等)及操作人员技术水平成正比。如果纸质原件质量好,识别率相对就高;质量差,识别率就相对较低。
4.1.2 流程加工
根据相关技术要求,对图像进行全新的OCR识别流程加工处理,重新生成PDF文件,具有文字正确率高、文字定位准确等特点。这种方式相当于全流程化制作双层PDF文件,工作量大,耗时长,费用高。
4.1.3 识别重构
重新生成PDF文件,实现版面字体、字号、颜色的恢复和重构。文字正确率高,页面清晰,但和原版图差异较大,主要在图书方面应用较多。
4.2 地质资料双层PDF转换
全国馆于2011年开始在扫描数字化基础上开展双层PDF的转换试验工作,主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。由于地质资料不同于普通的文书档案,纸张样式和印刷方式多样,手写和老旧资料多,地层、数学等特殊符号多等特点,给OCR自动识别带来了困难,单一的软件识别并不能满足全文检索90%以上识别率的要求。
在转换试验基础上我们得到以下结论:
1)地质资料本身多种多样,实际的识别率主要受印刷质量、形成年代等因素影响,老旧资料、纸质质量差的资料识别率普遍较低;受执笔人书写习惯及书写清晰度的影响,手写文档的识别准确率一般在30%以下;油印文档识别准确率一般在50%以下;打印、铅印和胶印文档识别率较高,一般能达90%以上。无论在哪种类型的文档中,标点的识别率都很低,地层和数学符号及其他特殊符号的识别率几乎为零。
2)目前识别技术无法达到100%识别,必须根据实际需求对照纸质档案对初次识别结果进行人工校对才能满足全文检索需求。
3)地质资料扫描文件数量多、容量大,转换速度受计算机反应速度影响,大批量转换和识别需选择高配置计算机,且批量转换和人工识别耗时长,耗人工多,需专项经费支持开展工作。
4.3 OCR数字加工系统的引入与功能简介
经过对目前国内双层PDF转换方法的对比,结合地质资料情况复杂的特点,以及数据测试结果研究,建议地质资料的双层PDF转换主要采用软件识别和流程加工相结合的方法,即采用OCR数字加工系统,可以保证高效率、高质量地完成双层PDF转换。该系统主要包含以下几个主要流程:
图1 OCR数字加工系统示意图
1)图像处理。为提高识别率,对图像进行“消蓝去污”的处理,去掉图像上影响识别率的噪音,如麻点、下划线等,由图像质量控制程序自动监测图像处理质量。
2)版面分析。自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
3)识别。把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、中英文混排文字、表格,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
4)纵向校对。具有很强的查错纠错能力,是将一个或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
5)横向校对。是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不离的文字。
6)版面还原。将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。
7)数据入库。版面还原数字文档的保存。
4.4 提立OCR识别率的方法
利用OCR数字加工系统生成的双层PDF,文本层差错率最低可到万分之一,可呈现原版底纹和色彩风貌,可进行全文检索和复制引用,且检索信息可准确定位到字符,便于快速查找目标信息。为了减轻横向校对即人工校对工作量,提高工作效率,就要从根本上提高识别率。经过试验,以下几个方法可以提高栅格文件OCR识别率。
1)图像色彩设定。虽然灰度或彩色模式可以最大限度还原纸质资料原貌,是我们扫描数字化的首选,但是这两种色彩模式会增大影响识别率的背景噪音。若仅做文字识别及一般黑白插图选取,建议可将扫描程序的图像色彩设定设置为黑白,增大识别率。不过最终图像色彩的设定还要按照各类具体工作的规范要求来设置。
2)分辨率设置。我们都知道扫描分辨率设置越低,扫描速度越快,但同时也导致图像质量差,其文字识别准确率低。反之分辨率高,扫描速度慢,但文字识别准确率高。但这又不是绝对的,因为分辨率设置得太高后,纸张上的微小瑕疵也可能被认作标点符号或汉字等,文字识别准确率反而会有所降低。经反复测试,分辨率设为300dpi,是扫描速度及文字识别准确率的最佳平衡点。
3)图像处理。这里图像处理是指扫描输出图像前的倾斜校正和去污等。倾斜校正是为了调整文字方向使之正向,这样才能对OCR识别有所帮助。
双层PDF转换完成以后,在此基础上可以实现资料管理系统与PDF文件的挂接,对资料数据内容及其元数据等相关信息建立联系并形成数据包;然后通过调用全文数据库原数据创建索引文件,最后实现全文检索。通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅度提高地质资料的利用价值,促进地质资料编研工作,为地质资料信息聚合的研究和深层次服务奠定了基础。
参考文献
[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011(1).
[2]徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).
[3]张旋.OCR技术研究进展及前瞻[J].科学技术,2010(4).
[4]郭金光.双层PDF技术及在档案数字化中的应用[J].新观察,2013(1).
[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2).