❶ 压缩感知的历史背景
尽管压缩感知是由 E. J. Candes、J. Romberg、T. Tao 和D. L. Donoho 等科学家于2004 年提出的。但是早在上个世纪,相关领域已经有相当的理论和应用铺垫,包括图像处理、地球物理、医学成像、计算机科学、信号处理、应用数学等。
可能第一个与稀疏信号恢复有关的算法由法国数学家Prony 提出。这个被称为的Prony 方法的稀疏信号恢复方法可以通过解一个特征值问题,从一小部分等间隔采样的样本中估计一个稀疏三角多项式的非零幅度和对应的频率。而最早采用基于L1范数最小化的稀疏约束的人是B. Logan。他发现在数据足够稀疏的情况下,通过L1范数最小化可以从欠采样样本中有效的恢复频率稀疏信号。D. Donoho和B.Logan 是信号处理领域采用L1范数最小化稀疏约束的先驱。但是地球物理学家早在20 世纪七八十年代就开始利用L1范数最小化来分析地震反射信号了。上世纪90 年代,核磁共振谱处理方面提出采用稀疏重建方法从欠采样非等间隔样本中恢复稀疏Fourier 谱。同一时期,图像处理方面也开始引入稀疏信号处理方法进行图像处理。在统计学方面,使用L1范数的模型选择问题和相关的方法也在同期开始展开。
压缩感知理论在上述理论的基础上,创造性的将L1范数最小化稀疏约束与随机矩阵结合,得到一个稀疏信号重建性能的最佳结果。
压缩感知基于信号的可压缩性, 通过低维空间、低分辨率、欠Nyquist采样数据的非相关观测来实现高维信号的感知,丰富了关于信号恢复的优化策略,极大的促进了数学理论和工程应用的结合 。它是传统信息论的一个延伸,但是又超越了传统的压缩理论,成为了一门崭新的子分支。它从诞生之日起到现在不过五年时间,其影响却已经席卷了大半个应用科学。
❷ 压缩传感的原理
核心思想是将压缩与采样合并进行,首先采集信号的非自适应线性投影 (测量值),然后根据相应重构算法由测量值重构原始信号。压缩传感的优点在于信号的投影测量数据量远远小于传统采样方法所获的数据量,突破了香农采样定理的瓶颈,使得高分辨率信号的采集成为可能。
信号的稀疏表示就是将信号投影到正交变换基时,绝大部分变换系数的绝对值很小,所得到的变换向量是稀疏或者近似稀疏的,以将其看作原始信号的一种简洁表达,这是压缩传感的先验条件,即信号必须在某种变换下可以稀疏表示。 通常变换基可以根据信号本身的特点灵活选取, 常用的有离散余弦变换基、快速傅里叶变换基、离散小波变换基、Curvelet基、Gabor 基 以及冗余字典等。 在编码测量中, 首先选择稳定的投影矩阵,为了确保信号的线性投影能够保持信号的原始结构, 投影矩阵必须满足约束等距性 (Restricted isometry property, RIP)条件, 然后通过原始信号与测量矩阵的乘积获得原始信号的线性投影测量。最后,运用重构算法由测量值及投影矩阵重构原始信号。信号重构过程一般转换为一个最小L0范数的优化问题,求解方法主要有最小L1 范数法、匹配追踪系列算法、最小全变分方法、迭代阈值算法等。
采样定理(又称取样定理、抽样定理)是采样带限信号过程所遵循的规律,1928年由美国电信工程师H.奈奎斯特首先提出来的,因此称为奈奎斯特采样定理。1948年信息论的创始人C.E.香农对这一定理加以明确说明并正式作为定理引用,因此在许多文献中又称为香农采样定理。该理论支配着几乎所有的信号/图像等的获取、处理、存储、传输等,即:采样率不小于最高频率的两倍(该采样率称作Nyquist采样率)。该理论指导下的信息获取、存储、融合、处理及传输等成为信息领域进一步发展的主要瓶颈之一,主要表现在两个方面:
(1)数据获取和处理方面。对于单个(幅)信号/图像,在许多实际应用中(例如,超宽带通信,超宽带信号处理,THz成像,核磁共振,空间探测,等等), Nyquist采样硬件成本昂贵、获取效率低下,在某些情况甚至无法实现。为突破Nyquist采样定理的限制,已发展了一些理论,其中典型的例子为Landau理论, Papoulis等的非均匀采样理论,M. Vetterli等的 finite rate of innovation信号采样理论,等。对于多道(或多模式)数据(例如,传感器网络,波束合成,无线通信,空间探测,等),硬件成本昂贵、信息冗余及有效信息提取的效率低下,等等。
(2)数据存储和传输方面。通常的做法是先按照Nyquist方式获取数据,然后将获得的数据进行压缩,最后将压缩后的数据进行存储或传输,显然,这样的方式造成很大程度的资源浪费。另外,为保证信息的安全传输,通常的加密技术是用某种方式对信号进行编码,这给信息的安全传输和接受带来一定程度的麻烦。
综上所述:Nyquist-Shannon理论并不是唯一、最优的采样理论,研究如何突破以Nyquist-Shannon采样理论为支撑的信息获取、处理、融合、存储及传输等的方式是推动信息领域进一步往前发展的关键。众所周知:(1)Nyquist采样率是信号精确复原的充分条件,但绝不是必要条件。(2)除带宽可作为先验信息外,实际应用中的大多数信号/图像中拥有大量的structure。由贝叶斯理论可知:利用该structure信息可大大降低数据采集量。(3) Johnson-Lindenstrauss理论表明:以overwhelming性概率,K+1次测量足以精确复原N维空间的K-稀疏信号。
由D. Donoho(美国科学院院士)、E. Candes(Ridgelet, Curvelet创始人)及华裔科学家T. Tao(2006年菲尔兹奖获得者,2008年被评为世界上最聪明的科学家)等人提出了一种新的信息获取指导理论,即,压缩感知或压缩传感(Compressive Sensing(CS) or Compressed Sensing、Compressed Sampling)。该理论指出:对可压缩的信号可通过远低于Nyquist标准的方式进行采样数据,仍能够精确地恢复出原始信号。该理论一经提出,就在信息论、信号/图像处理、医疗成像、模式识别、地质勘探、光学/雷达成像、无线通信等领域受到高度关注,并被美国科技评论评为2007年度十大科技进展。CS理论的研究尚属于起步阶段,但已表现出了强大的生命力,并已发展了分布CS理论(Baron等提出),1-BIT CS理论(Baraniuk等提出),Bayesian CS理论(Carin等提出),无限维CS理论(Elad等提出),变形CS理论(Meyer等提出),等等,已成为数学领域和工程应用领域的一大研究热点。
❸ 学习了哪些知识,计算机视觉才算入门
计算机视觉是一个很大的范畴的总和,有两种学习方式,一种是阅读基础书,搞懂它的每一部分;另一种是找一个问题,看文献,编程实现,不断往深走。这两种学习方式是互补的,如果你看了好几年书还不能上手解决问题,或者只会解决某些很特殊的问题,对其他问题束手无策都不算成功。因此你需要把看书掌握一般知识和编程实验解决具体问题齐头并进。下面说你要干什么:
下载安装OpenCV2
OpenCV是一个非常强大的计算机视觉库,包括了图像处理、计算机视觉、模式识别、多视图几何的许多基本算法,有c++和Python两种接口。学习的材料首先是安装目录下doc文件夹里的帮助文档,提供所有函数的用法,任何时候对任何函数有疑问请查阅帮助文档,安装目录下还提供一大堆写好的演示程序供参考;《OpenCV_2 Computer Vision Application Programming Cookbook》是一本比较基础的介绍材料,它的缺点是没有介绍分类器(模式识别)方面的函数怎么用。
虽然网上还有其他很多流行的库,比如处理特征点的VLfeat,处理点云的PCL,处理GPU运算的CUDA,处理机器人问题的ROS和MRPT,但是这些都是你在解决具体问题时才会考虑去用的东西,如果你想快速读取视频、做个屏幕交互程序、使用流行的分类器、提取特征点、对图像做处理、进行双目重建,OpenCV都提供相应函数,因此在你不知道该把余生用来干什么的时候,先装OpenCV学习。
读综述
Computer Vision: Algorithms and Application。这本书用1000页篇幅图文并茂地浏览了计算机视觉这门学科的诸多大方向,如果你不知道计算机视觉是一门搞什么的学科,这本书是你绝佳的选择。它的优点是涉猎了大量文献,缺点是缺乏细节,因此很显然只读这本书你根本没法上手工作,因为它讲的实在是太粗糙了。如果你对其中的某一部分感兴趣,就请去读相关文献,继续往下走,这就是这本书的意义。有中文版,但是翻译的不好,也不建议你细细去读,看看里面的图片即可。
Computer Vision: Models, Learning, and Inference:这本书是我认为研究生和高年级本科生入门计算机视觉最好的教材。它内容丰富,难度适中,推导翔实,语言流畅,强烈推荐你花2个月时间把这本书读完。
多视图几何
Multiple View Geometry in Computer Vision:这本书是多视图几何的圣经,意思就是说想搞三维重建或者图像测量之类的项目,这本书是必读的。它需要你有线性代数的基本知识,会SVD分解即可。第一版有中文版,翻译的非常好,但是已经绝版了,可以上淘宝高价买一本,第二版添加的内容很少,在网上可以下载到。
模式识别
模式识别核心就是训练一个函数来拟合手头的数据,如果数据的标签是离散的,称为分类问题,如数据的标签是连续的,称为回归问题;分类又分有监督分类和无监督分类,有监督分类器有神经网络、支持向量机、AdaBoost、随机场、树模型等等。当你拿到一大堆数据,需要从里面找关系的时候,一般都需要使用模式识别算法来训练一个函数/分类器/模型,因此模式识别是机器学习的核心。
《模式分类(第二版)》:这是一本适合普通读者阅读的教材,介绍了模式识别中经典的分类器,讲解细致,语言生动,难度适中,每一个算法都有伪代码。
The Elements of Statistical Learning:这本书使用严谨的数学工具分析模式识别算法,它比较难,但是非常深刻。每拿到一个模型它都会分析这个模型在数学上是如何构造的,并且推导模型的分类错误率。分析和推导是这本书的精髓。
Pattern Recognition and Machine Learning:这是一本从贝叶斯学派的角度分析模式识别模型的书,它使用的工具主要是概率论,比较难,非常深刻,内容非常丰富。
虽然这两本书很难,但是它们用到的数学知识不过是基本的概率论和线性代数,只是用的比较活,计算机视觉这个学科需要的数学知识也是这个水平。
图形学
图形学教材首先推荐《计算机图形学与几何造型导论》,这本书用流畅的语言介绍了图形学的基础知识,选材有趣,推导简洁但是绝不跳步走,保证你能看懂而且不会看烦。
光线追踪器我看过一本薄的《Realistic Ray Tracing》和一本厚的《Ray Tracing from the Ground Up》,两本书都有代码。后一本内容极其丰富,有中文版,翻译尚可。后一本唯一的缺点就是讲不清楚BRDF,但这恰恰是前一本的亮点。
还有一些比较偏的书,比如偏微分方程在图像处理中的应用、细分、压缩感知、马尔科夫随机场、超分辨率分析,概率机器人、多尺度几何分析,这些领域都有各自的名着,你在某个领域深挖的时候,类似这样的书可能会出现在参考文献中,那时再看不迟。
读文献
写到书里的知识基本上都有些过时,你得通过看文献掌握各个领域最新的发展动态。计算机视觉的顶级期刊有两个PAMI和IJCV,顶级会议有ICCV和CVPR,在科学网—[转载]计算机视觉方向的一些顶级会议和期刊有更加详细的介绍。