图像与算法应用题_数字图像处理的基本算法及要解决的主要问题

㈠百分求问——图像算法问题：选区为不规则四边形，怎么用把它转换成一个长方形的图片

大概你是想用左边的4个点内像素投到右边的4个点形成矩形图像把。图像的几何变换一边都是用原图像和一个3×3的变换矩形相乘来得到的，像你这种应该是属于投影变换，即用四个对应的点坐标来解3×3变换矩阵中的变换系数，然后用原图像所有的点来乘以这个变换系数得到其在这种投影关系下新的坐标。
能否详细描述下你指的不理想？我猜测的话可能会碰到以下几种情况：
1.投影后出现空洞，由于原图的投影结果不可能覆盖到所有的目标图像位置，所以必须采用反向投影解决。
2.投影出现锯齿，由于插值后取整数位置引起，采用双线性或更高的三次卷积插值会好点
3.颜色不正常，可能从RGB转到YUV后再进行投影变化可解决。

㈡专题图像处理

利用制作好的TM基础影像图目视解译后，仍有某些难以确定的重要地质要素、地质特征需进行相应的数字图像增强处理，以有效地突出有用信息，抑制植被、冰雪等其他干扰因素，改善图像的视觉效果，提高重现图像的逼真度，增强信息提取与识别能力。

为了突出岩石地层、控煤构造和含煤区小构造、含煤地层及煤层等信息，增加图像的可解译程度，提高解译效果，针对地质条件复杂和重点含煤区，利用ENVI遥感图像处理软件作进一步的数字图像增强处理，以达到有效提取相关信息的目的。处理方法主要有主成分分析、直方图均衡化、定向滤波、比值处理和锐化增强等十余种方法，达到了对地质体、煤层分类和识别的目的，完善了解译效果。

图像增强处理虽然不能增加图像数据中的相关信息，但它能够增加所选特征的动态范围，从而使这些特征的检测和识别更加容易。在芒棒区、中甸区和永胜区共选取20个子区进行处理（表2-1），目的有三：①对影像中的模糊区进行处理，增强其可解译程度；②对与煤田地质关系密切的研究对象进行处理，提高可解译程度；③对直接和间接地反映煤及其他矿产异常的影像特征进行处理，增强目视解译的识别能力。使用的主要方法有：主成分分析、去相关拉伸、比值运算、芒塞尔彩色空间变换、非监督分类等。具体操作时，为了获取理想的效果，往往以其中一种方法为主，叠加其他方法进行运算，最后选择效果较好的处理结果进行输出。现将所使用主要处理方法及各子区特征分述如下：

表2-1 子区编号、位置及提取信息内容

（一）KL变换（主成分分析）

KL（Karhunen-LoeveTransform，卡洛南—洛伊变换）变换是遥感图像增强和信息提取中常用的波谱信息线性投影变换，在尽可能不减少信息量的前提下，将原图像的高维多光谱空间像元亮度值投影到新的低维空间，减少特征空间维数，达到数据压缩、提高信噪比、降维处理和提取图像特征信息的目的。它可使原来多波段图像经变换后提供出一组不相关的图像变量，最前面的主分量具有较大的方差，包含了原始影像的主要信息，此方法对于原始图像上那些信息微弱、模糊、离散度大的地质信息的增强处理，能够起到聚集和归并的作用，同时也能够压制阴影、云雾和雪盖的显示强度。所以要集中表达信息，突出图像的某些细部特征，可采用KL变换处理（图2-2）。芒棒全区经过KL变换后的图像，影纹结构细腻，水系、地貌等特征反映更加明显；对永胜金沙江背斜采用主成分分析＋直方图均衡化的方法进行处理，褶皱和断裂特征非常明显，玄武岩组各段的分界清晰。

（二）去相关拉伸变换

对相关性高的波段进行去相关拉伸处理，减弱它们之间的相关性，从而使深色区域的地物差异界线反映得更加清楚。勐连盆地子区经过去相关拉伸变换后盆地边界与周围岩层差异明显，盆地边界清晰，隐伏断裂也更容易识别（图2-3）；永胜全区经去相关拉伸变换后，有效地突出了各岩石地层及构造的影像特征。

图2-2 芒棒区KL变换图像

（三）纹理特征提取变换

纹理特征提取方法是用一个活动的窗口在图像上连续滑动，分别计算出窗口中的方差、均值、最大值、最小值及二者之差和信息熵等，形成相应的纹理图像，当目标的光谱特性比较接近时，纹理特征对于区分目标可以起到积极的作用。选取适当的数据动态变化范围，进行纹理特征提取后，使影像的纹理特征得到突出，有利于提取构造信息。对中甸幅的小中甸东子区进行纹理特征提取变换后，子区的信息丰富，线性特征明显；永胜子区采用纹理特征提取变换后，松桂组含煤地层与其上覆、下伏地层的纹理特征差异明显，提高了图像的可解译程度（图2-4）。

（四）锐化增强

调整图像的锐化程度使地物在图像上的差别便于人眼识别，可达到信息增强的目的。对图像进行锐化增强实际上是利用变换函数把原图像进行灰度级转换，增大相邻像元的灰度值之差，从而达到突出图像细节的目的，对中甸幅尼西盆地子区进行锐化增强后，盆地边界清晰，影纹细腻（图2-5）。

图2-3 勐连盆地子区去相关拉伸图像

（五）定向滤波

利用定向滤波对TM图像频率特征进行筛选，将图像中的线与边缘特征信息增强，突出给定方向的线性影像信息，抑制其他方向的无用信息。对芒棒盆地子区采用45°方向滤波后，突出了断裂的线性影像，断裂两侧的影像色调、花纹明显不同，断裂造成的山脊错断等特征在影像上非常明显；采用该方法处理后，程海逆冲断裂的位置、走向及其展布特征非常明显，外来系统与原地系统的岩石组合和构造发育特征截然不同（图2-6）。

（六）缨帽变换

采用缨帽变换可将TM图像除热红外波段的6个波段压缩成3个分量，其中的土壤亮度指数分量是6个波段的加权和，反映了总体的反射值；绿色植被指数分量反映了绿色生物量的特征；土壤特征分量反映了可见光和近红外与较长红外光的差值，它对土壤湿度和植物湿度最为敏感。这样的3个分量就是TM数据进行缨帽变换后形成的新空间，它可以对植被、土壤等地物做更为细致、准确的分析，应用这种处理方法可增强影像上深色区域的信息。对腾冲火山机构子区进行缨帽变换后，再进行对比度增强处理，图像中火山岩岩体边界、火山口形态、纹理以及色调都得到了有效的突出（图2-7）；金棉逆冲断裂经缨帽变换后信息丰富，特征明显。

图2-4 永胜子区纹理特征提取变换图像

图2-5 中甸子区锐化增强图像

图2-6 程海逆冲断裂135°定向滤波图像

图2-7 腾冲火山机构子区缨帽变换图像

（七）芒塞尔彩色空间变换

在计算机内定量处理色彩时通常采用红、绿、蓝三原色组成的彩色空间RGB表色系统，但在视觉上定性的描述色彩时，采用HSV（Hue〈色度〉、Saturation〈饱和度〉、Value〈纯度〉）显色系统更直观些。Munsell HSV变换就是对彩色合成图像在红、绿、蓝编码赋色方面的一种彩色图像增强方法，它是借助于改变彩色合成过程中光学参数的变化来扩展图像色调差异，将图像彩色坐标中的RGB（Red Green Blue）空间变换为HSV色彩模型。其目的是为了更有效地抑制地形效应和增强岩石单元的波段差异，并通过彩色编码增强处理达到最佳的图像显示效果。对中甸幅雪盖区进行处理后可以看出，雪盖区可识别程度比原来大大提高，被雪覆盖的山脊清晰可辨；对永胜区竹山、药山的阴影区进行芒塞尔彩色空间变换处理，有效突出了阴影区的微地貌及其纹理特征，地质体边界更加清晰，可解译程度大大提高（图2-8）。

图2-8 永胜区竹山阴影区芒塞尔彩色空间变换

（八）非监督分类

由于遥感图像上的同类地物在相同的表面结构、植被覆盖、光照等条件下有相同或相近的光谱特征，而相似波谱的像元点必然在光谱空间的相应部位集结成群。因此可按这些自然集群划分类别，然后与野外实际调查的地面情况进行对比，确定各类地物属性。这种方法能把样本区分为若干类别，却不能给出样本的描述。对中甸区的小中甸盆地子区采用非监督分类中的K-均值算法，其基本思想是通过迭代，逐次移动各类的中心，直至得到最好的聚类结果为止，这种算法是一个迭代算法，迭代过程中类别中心按最小二乘误差的原则进行移动，因此类别中心的移动是合理的。其缺点是要事先已知类别数，在实际中类别数通常根据试验的方法来确定，本次工作经过多次试验最后采用类别数为15的算法。小中甸盆地子区的分类结果与野外情况基本相符，不足之处是对相同或相近波谱特征的不同地物容易产生分类误差（图2-9）。

（九）波段彩色合成

对两个波段的图像进行波段合成，可突出类别或目标信息，消除山影、云影等的影响，区分易混淆的地物，从芒棒区蒲川盆地子区处理的结果可以看出，盆地的边界和植被信息得到了增强，从而使盆地边界的圈定更加直观；对永胜宁利子区采用该方法处理后，黑泥哨组和松桂组含煤地层的影像特征更加明显，走向及边界更为清晰（图2-10）。

图2-9 中甸子区K-均值算法非监督分类图像

图2-10 芒棒区蒲川盆地子区波段彩色合成图像

（十）对数变换

对数变换的主要作用是压缩图像亮区的灰阶值，拉伸暗区的灰阶值，从而突出暗区的构造形迹。对中甸北老地层子区进行对数变换后可以看出，子区的色彩丰富，影纹清晰，有利于岩性的识别（图2-11）。

（十一）比值处理

比值处理采用高质量比值功能，使图像得到拉伸，有效消除地形影响，使阴影区的结构得到显示。处理出来的图像既保留了原有地貌特征，又突出了线环构造，为盆地的研究提供了更为直观可靠的资料，中甸盆地子区经过比值处理后，立体感得到增强，阴影区结构清楚，盆地边界一目了然；采用7/4、5/2、5/3比值运算增强处理方法对宝坪铜矿区及米厘宝坪铜矿远景区的围岩蚀变信息进行增强处理，其蚀变信息丰富，特征非常明显（图2-12）。

图2-11 中甸北老地层子区对数变换图像

图2-12 永胜区宝坪铜矿区围岩蚀变信息比值运算图像

（十二）对比度扩展

对图像统一采用一种灰度标尺的变换，使影像反差扩展到整个动态范围，这种反差处理根据一个固定的变换关系，逐个像素地改变灰度值，提高地物反差，以达到反差增强的目的，本次工作选取的变换关系有线性扩展、非线性函数变换和直方图均衡化处理。

（十三）波段运算

即对各相关波段进行数学运算，通过运算有效地消除或减弱对主题目标干扰严重的无用信息，使得处理后的图像既保留原有总体特征，又突出了个别有用信息。

另外，本次工作还进行了拉普拉斯卷积滤波、罗伯特卷积滤波、中值滤波、低通滤波、高通滤波及图像融合等多种图像处理方法，也取得了较好的效果，在此不再赘述。

㈢图像分割算法总结

图像处理的很多任务都离不开图像分割。因为图像分割在cv中实在太重要(有用)了，就先把图像分割的常用算法做个总结。

        接触机器学习和深度学习时间已经不短了。期间看过各种相关知识但从未总结过。本文过后我会尽可能详细的从工程角度来总结，从传统机器学习算法，传统计算机视觉库算法到深度学习目前常用算法和论文，以及模型在各平台的转化，量化，服务化部署等相关知识总结。

        图像分割常用算法大致分为下面几类。由于图像的能量范函，边缘追踪等方法的效果往往只能解决特定问题，效果并不理想，这里不再阐述。当然二值化本身也可以分割一些简单图像的。但是二值化算法较多，我会专门做一个文章来总结。这里不再赘述。

1.基于边缘的图像分割算法：

有利用图像梯度的传统算法算子的sobel，roberts，prewitt,拉普拉斯以及canny等。

这些算法的基本思想都是采用合适的卷积算子，对图像做卷积。从而求出图像对应的梯度图像。(至于为什么通过如图1这样的算子卷积，即可得到图像的梯度图像，请读者复习下卷积和倒数的概念自行推导)由于图像的边缘处往往是图像像素差异较大，梯度较大地方。因此我们通过合适的卷积核得到图像的梯度图像，即得到了图像的边缘图像。至于二阶算子的推导，与一阶类似。优点：传统算子梯度检测，只需要用合适的卷积核做卷积，即可快速得出对应的边缘图像。缺点：图像边缘不一定准确，复杂图像的梯度不仅仅出现在图像边缘，可以能出现在图像内部的色彩和纹理上。

             也有基于深度学习方法hed，rcf等。由于这类网络都有同一个比较严重的缺陷，这里只举例hed网络。hed是基于FCN和VGG改进，同时引出6个loss进行优化训练，通过多个层输出不同scale的粒度的边缘，然后通过一个训练权重融合各个层的边缘结果。hed网络结构如下：

可以得到一个比较完整的梯度图像，可参考github的hed实现。优点：图像的梯度细节和边缘完整性，相比传统的边缘算子要好很多。但是hed对于边缘的图像内部的边缘并不能很好的区分。当然我们可以自行更改loss来尝试只拟合外部的图像边缘。但最致命的问题在于，基于vgg的hed的网络表达能力有限，对于图像和背景接近，或者图像和背景部分相融的图片，hed似乎就有点无能为力了。

2.基于区域分割的算法：

区域分割比较常用的如传统的算法结合遗传算法，区域生长算法，区域分裂合并，分水岭算法等。这里传统算法的思路是比较简单易懂的，如果有无法理解的地方，欢迎大家一起讨论学习。这里不再做过多的分析。

基于区域和语意的深度学习分割算法，是目前图像分割成果较多和研究的主要方向。例如FCN系列的全卷积网络，以及经典的医学图像分割常用的unet系列，以及rcnn系列发展下的maskrcnn，以及18年底的PAnet。基于语意的图像分割技术，无疑会成为图像分割技术的主流。

其中，基于深度学习语意的其他相关算法也可以间接或直接的应用到图像分割。如经典的图像matting问题。18年又出现了许多非常优秀的算法和论文。如Deep-Image-Matting，以及效果非常优秀的MIT的 semantic soft segmentation(sss).

基于语意的图像分割效果明显要好于其他的传统算法。我在解决图像分割的问题时，首先尝试用了hed网络。最后的效果并不理想。虽然也参考github，做了hed的一些fine-tune,但是还是上面提到的原因，在我多次尝试后，最终放弃。转而适用FCN系列的网络。但是fcn也无法解决图像和背景相融的问题。图片相融的分割，感觉即需要大的感受野，又需要未相融部分原图像细节，所以单原FCN的网络，很难做出准确的分割。中间还测试过很多其他相关的网络，但都效果不佳。考虑到感受野和原图像细节，尝试了resnet和densenet作为图像特征提取的底层。最终我测试了unet系列的网络：

unet的原始模型如图所示。在自己拍照爬虫等手段采集了将近1000张图片。去掉了图片质量太差的，图片内容太过类似的。爬虫最终收集160多张，自己拍照收集200张图片后，又用ps手动p了边缘图像，采用图像增强变换，大约有300*24张图片。原生unet网络的表现比较一般。在将unet普通的卷积层改为resnet后，网络的表达能力明显提升。在将resnet改为resnet101，此时，即使对于部分相融的图像，也能较好的分割了。但是unet的模型体积已经不能接受。

在最后阶段，看到maskrcnn的实例分割。maskrcnn一路由rcnn,fasterrcnn发展过来。于是用maskrcnn来加入自己的训练数据和label图像进行训练。maskrcnn的结果表现并不令人满意，对于边缘的定位，相比于其他算法，略显粗糙。在产品应用中，明显还不合适。

3.基于图的分割算法

基于深度学习的deepgrab,效果表现并不是十分理想。deepgrab的git作者backbone采用了deeplabv2的网络结构。并没有完全安装原论文来做。

论文原地址参考： https://arxiv.org/pdf/1707.00243.pdf

整体结构类似于encode和decoder。并没有太仔细的研究，因为基于resent101的结构，在模型体积，速度以及deeplab的分割精度上，都不能满足当前的需求。之前大致总结过计算机视觉的相关知识点，既然目前在讨论移动端模型，那后面就分模块总结下移动端模型的应用落地吧。

由于时间实在有限。这里并没有针对每个算法进行详细的讲解。后续我会从基础的机器学习算法开始总结。

㈣图像处理，PIV互相关算法，利用快速傅里叶变换实现的一些疑问，专业请进，闲人勿扰

互相关，时域的算法是卷积，频域算法不就是相乘么。在频域相乘的前后还要做fourier正变换和逆变换，因为输入输出都是时域的。

最后的c是矩阵，最后一行的作用是把c矩阵中的负数置0，应该是为了后续处理方便，反正最高峰肯定是正的。

㈤数字图像处理的基本算法及要解决的主要问题

图像处理，是对图像进行分析、加工、和处理，使其满足视觉、心理以及其他要求的技术。图像处理是信号处理在图像域上的一个应用。目前大多数的图像是以数字形式存储，因而图像处理很多情况下指数字图像处理。此外，基于光学理论的处理方法依然占有重要的地位。

图像处理是信号处理的子类，另外与计算机科学、人工智能等领域也有密切的关系。

传统的一维信号处理的方法和概念很多仍然可以直接应用在图像处理上，比如降噪、量化等。然而，图像属于二维信号，和一维信号相比，它有自己特殊的一面，处理的方式和角度也有所不同。
目录
[隐藏]

* 1 解决方案
* 2 常用的信号处理技术
o 2.1 从一维信号处理扩展来的技术和概念
o 2.2 专用于二维（或更高维）的技术和概念
* 3 典型问题
* 4 应用
* 5 相关相近领域
* 6 参见

[编辑] 解决方案

几十年前，图像处理大多数由光学设备在模拟模式下进行。由于这些光学方法本身所具有的并行特性，至今他们仍然在很多应用领域占有核心地位，例如全息摄影。但是由于计算机速度的大幅度提高，这些技术正在迅速的被数字图像处理方法所替代。

从通常意义上讲，数字图像处理技术更加普适、可靠和准确。比起模拟方法，它们也更容易实现。专用的硬件被用于数字图像处理，例如，基于流水线的计算机体系结构在这方面取得了巨大的商业成功。今天，硬件解决方案被广泛的用于视频处理系统，但商业化的图像处理任务基本上仍以软件形式实现，运行在通用个人电脑上。

[编辑] 常用的信号处理技术

大多数用于一维信号处理的概念都有其在二维图像信号领域的延伸，它们中的一部分在二维情形下变得十分复杂。同时图像处理也具有自身一些新的概念，例如，连通性、旋转不变性，等等。这些概念仅对二维或更高维的情况下才有非平凡的意义。

图像处理中常用到快速傅立叶变换，因为它可以减小数据处理量和处理时间。

[编辑] 从一维信号处理扩展来的技术和概念

* 分辨率(Image resolution|Resolution)
* 动态范围(Dynamic range)
* 带宽(Bandwidth)
* 滤波器设计(Filter (signal processing)|Filtering)
* 微分算子(Differential operators)
* 边缘检测(Edge detection)
* Domain molation
* 降噪(Noise rection)

[编辑] 专用于二维（或更高维）的技术和概念

* 连通性(Connectedness|Connectivity)
* 旋转不变性(Rotational invariance)

[编辑] 典型问题

* 几何变换（geometric transformations）：包括放大、缩小、旋转等。
* 颜色处理（color）：颜色空间的转化、亮度以及对比度的调节、颜色修正等。
* 图像合成（image composite）：多个图像的加、减、组合、拼接。
* 降噪（image denoising）：研究各种针对二维图像的去噪滤波器或者信号处理技术。
* 边缘检测（edge detection）：进行边缘或者其他局部特征提取。
* 分割（image segmentation）：依据不同标准，把二维图像分割成不同区域。
* 图像制作（image editing）：和计算机图形学有一定交叉。
* 图像配准（image registration）：比较或集成不同条件下获取的图像。
* 图像增强（image enhancement）：
* 图像数字水印（image watermarking）：研究图像域的数据隐藏、加密、或认证。
* 图像压缩（image compression）：研究图像压缩。

[编辑] 应用

* 摄影及印刷 (Photography and printing)
* 卫星图像处理 (Satellite image processing)
* 医学图像处理 (Medical image processing)
* 面孔识别, 特征识别 (Face detection, feature detection, face identification)
* 显微图像处理 (Microscope image processing)
* 汽车障碍识别 (Car barrier detection)

[编辑] 相关相近领域

* 分类（Classification）
* 特征提取（Feature extraction）
* 模式识别（Pattern recognition）
* 投影（Projection）
* 多尺度信号分析（Multi-scale signal analysis）
* 离散余弦变换（The Discrete Cosine Transform）

㈥图像算法A和B两张图片，找出B与A不同的部分

说的很清楚，你也把思路说出来了，就是这样的，加快网络的传输速度。
至于比较方法，比较像素点的方向是对的，不过我想它不是上来就比较像素点，因为这样效率较低，而是采用的多函数嵌套，方法如下：
把图片分成几大块，比如平均分4块，然后每一块进行比对(进行图片的模糊匹配，而不是精确的像素匹配)，找出不同大块，然后再分块，以此下去，找到比较小的块(这个根据编程定义到底多小算小)，然后再进行像素比对，这样效率能够更加提高。

㈦图像处理

第三章图像处理

输出图像的像素值仅仅由输入图像的像素值决定。

1.1 像素变换

根据像素产生输出像素，注意，这里的像素可以是多副图片的像素。

1.2 颜色变换

彩色图像的各通道间具有很强的相关性。

1.3 合成和映射

将前景对象从图像背景中提取出来，被称为抠图；将对象插入另一图像被称为合成。

1.4 直方图均衡化

对比度和亮度参数可以提升图像的外观，为了自动调节这两个参数，有两种方法，一种方法是寻找图像中最亮的值和最暗的值，将它们映射到纯白和纯黑，另一种方法是寻找图像的像素平均值，将其作为像素的中间灰度值，然后充满范围尽量达到可显示的值。

局部自适应直方图均衡化，对于不同的区域采用不同的均衡化方法。缺点是会产生区块效应，即块的边界处亮度不连续，为了消除这一效应，常采用移动窗口，或者在块与块之间的转换函数进行平滑插值。

1.5 应用:色调调整

点算子的常用领域是对照片的对比度和色调进行操作。

与点算子相对应的邻域算子是根据选定像素及周围的像素来决定该像素的输出。邻域算子不仅用于局部色调调整，还用于图像平滑和锐化，图像的去噪。

邻域算子的重要概念是卷积和相关，它们都是线性移不变算子，满足叠加原理和移位不变原理。

填塞，当卷积核超出图像边界时，会产生边界效应。有多种填塞方法，0填塞，常数填塞，夹取填塞，重叠填塞，镜像填塞，延长。

2.1 可分滤波器

如果一个卷积运算可以分解为一维行向量卷积和一维列向量卷积，则称该卷积核可分离。2D核函数可以看作一个矩阵K，当且仅当K的第一个奇异值为0时，K可分离。

2.2 线性滤波器举例

最简单的滤波器是移动平均或方框滤波器，其次是双线性滤波器（双线性核），高斯滤波器（高斯核），以上均为低通核，模糊核，平滑核。对于这些核函数效果的度量采用傅里叶分析。还有Sobel算子和角点算子。

2.3 带通和导向滤波器

Sobel算子是带方向的滤波器的近似，先用高斯核平滑图像，再用方向导数（拉普拉斯算子)作用于图像，得到导向滤波器，导向具有潜在的局部性以及很好的尺度空间特性。导向滤波器常用来构造特征描述子和边缘检测器，线性结构通常被认为是类似边缘的。

区域求和表是指一定区域内所有像素值的和，又称为积分图像，它的有效计算方法是递归算法（光栅扫描算法），区域求和表用于对其他卷积核的近似，人脸检测中的多尺度特征，以及立体视觉中的差分平方和的计算。

递归滤波器称为无限脉冲响应(IIR)，有时用于二维距离函数和连通量的计算，也可计算大面积的平滑计算。

3.1 非线性滤波器

中值滤波可以去除散粒噪声，它的另一个优点是保边平滑，即在滤除高频噪声时，边缘不容易被柔化。

双边滤波器思想的精髓在于，抑制与中心像素值差别较大的像素，而不是抑制固定百分比的像素。在加权滤波器的基础上，对权重系数进行了控制，即取决于定义域核（高斯核）和值域核（与中心像素值的相似度），两者相乘得到双边滤波器核。

迭代自适应平滑核各项异性扩散。

3.2 形态学

非线性滤波常用于二值图像处理，二值图像中最常见的算子是形态学算子，将二值结构元素与二值图像卷积，根据卷积结果的阈值选择二值输出，结构元素可以是任何形状。

常见的形态学操作有膨胀，腐蚀，过半，开运算，闭运算。过半使锐利的角变得平滑，开运算和闭运算去除图像中小的点和孔洞，并使图像平滑。

3.3 距离变换

距离变换通过使用两遍光栅扫描法，快速预计算到曲线或点集的距离，包括城街距离变换和欧氏距离变换。符号距离变换是基本距离变换的扩展，计算了所有像素到边界像素的距离。

3.4 连通域

检测图像的连通量是半全局的图像操作，连通量定义为具有相同输入值的邻接像素的区域，二值或多值图像被分割成连通量形式后，对每个单独区域计算统计量，面积，周长，质心，二阶矩，可用于区域排序和区域匹配。

傅里叶变换用于对滤波器的频域特征进行分析，FFT能快速实现大尺度核的卷积。

思想：为了分析滤波器的频率特征，将一个已知频率的正弦波通过滤波器，观察正弦波变弱的程度。傅里叶变换可认为是输入信号为正弦信号s(x)，经过滤波器h(x)后，产生的输出响应为正弦信号o(x)=s(x)*h(x),即两者的卷积。傅里叶变换是对每个频率的幅度和相位响应的简单罗列。傅里叶变换不仅可以用于滤波器，还能用于信号和图像。

傅里叶变换的性质：叠加，平移，反向，卷积，相关，乘，微分，定义域缩放，实值图像，Parseval定理。

4.1 傅里叶变换对

常见的傅里叶变换对，连续的和离散的。方便进行傅里叶变换。

高频成分将在降采样中导致混叠。

4.2 二维傅里叶变换

为了对二维图像及滤波器进行处理，提出了二维傅里叶变换，与一维傅里叶变换类似，只不过用向量代替标量，用向量内积代替乘法。

4.3 维纳滤波器

傅里叶变换还可用于分析一类图像整体的频谱，维纳滤波器应运而生。假定这类图像位于随机噪声场中，每个频率的期望幅度通过功率谱给出，信号功率谱捕获了空间统计量的一阶描述。维纳滤波器适用于去除功率谱为P的图像噪声的滤波器。

维纳滤波器的性质，对于低频具有单位增益，对于高频，具有减弱的效果。

离散余弦变换(DCT）常用于处理以块为单位的图像压缩，它的计算方法是将以N为宽度的块内的像素与一系列不同频率的余弦值进行点积来实现。

DCT变换的实质是对自然图像中一些小的区域的最优KL分解（PCA主成分分析的近似），KL能有效对信号去相关。

小波算法和DCT交叠变种能有效去除区块效应。

4.4 应用:锐化，模糊，去噪

锐化和去噪声能有效增强图像，传统的方法是采用线性滤波算子，现在广泛采用非线性滤波算子，例如加权中值和双边滤波器，各向异性扩散和非局部均值，以及变分方法。

度量图像去噪算法效果时，一般采用峰值信噪比(PNSR)，结构相似性(SSIM)索引。

迄今为止所研究的图像变换输出图像大小均等于输入图像的大小，为了对不同分辨率的图像进行处理，比如，对小图像进行插值使其与电脑的分辨率相匹配，或者减小图像的大小来加速算法的执行或节省存储空间和传输时间。

由于不知道处理图像所需的分辨率，故由多幅不同的图像构建图像金字塔，从而进行多尺度的识别和编辑操作。改变图像分辨率较好的滤波器是插值滤波器和降采样滤波器。

5.1 插值

为将图像变大到较高分辨率，需要用插值核来卷积图像，二次插值常用方法是双线性插值，双三次插值，窗函数。窗函数被认为是品质最高的插值器，因为它既可以保留低分辨率图像中的细节，又可以避免混叠。

5.2 降采样

降采样是为了降低图像分辨率，先用低通滤波器卷积图像，避免混叠，再保持第r个样例。常用的降采样滤波器有线性滤波器，二次滤波器，三次滤波器，窗余弦滤波器，QMF-9滤波器，JPEG2000滤波器。

5.3 多分辨率表示

通过降采样和插值算法，能够对图像建立完整的图像金字塔，金字塔可以加速由粗到精的搜索算法，以便在不同的尺度上寻找物体和模式，或进行多分辨率融合操作。

计算机视觉中最有名的金字塔是拉普拉斯金字塔，采用大小为2因子对原图像进行模糊和二次采样，并将它存储在金字塔的下一级。

5.4 小波变换

小波是在空间域和频率域都定位一个信号的滤波器，并且是在不同层次的尺度上定义的。小波可以进行多尺度有向滤波和去噪。与常规的金字塔相比，小波具有更好的方向选择性，并提供了紧致框架。

提升小波被称为第二代小波，很容易适应非常规采样拓扑，还有导向可移位多尺度变换，它们的表述不仅是过完备的，而且是方向选择的。

5.5 应用:图像融合

拉普拉斯金字塔的应用，混合合成图像。要产生混合图像，每个原图像先分解成它自己的拉普拉斯金字塔，之后每个带被乘以一个大小正比于金字塔级别的平滑加权函数。最简单的方法是建立一个二值掩膜图像，根据此图像产生一个高斯金字塔，再将拉普拉斯金字塔和高斯掩膜，这两个带权金字塔的和产生最终图像。

相对于点操作改变了图像的值域范围，几何变换关注于改变图像的定义域。原先采用的方法是全局参数化2D变换，之后的注意力将转向基于网格的局部变形等更多通用变形。

6.1 参数变换

参数化变换对整幅图像进行全局变换，其中变换的行为由少量的参数控制，反向卷绕或反向映射的性能优于前向卷绕，主要在于其能够避免空洞和非整数位置重采样的问题。而且可以用高质量的滤波器来控制混叠。

图像卷绕问题可形式化为给定一个从目标像素x'到原像素x的映射来重采样一副原图像。类似的反向法应用场合有光流法预测光流以及矫正透镜的径向畸变。

重采样过程的插值滤波器有，二次插值，三次插值，窗插值，二次插值追求速度，三次插值和窗插值追求视觉品质。

MIP映射是一种纹理映射的快速预滤波图像工具。

MIP图是标准的图像金字塔，每层用一个高质量的滤波器滤波而不是低质量的近似，重采样时，需要预估重采样率r。

椭圆带权平均滤波器(EWA)，各向异性滤波，多通变换。

有向二位滤波和重采样操作可以用一系列一维重采样和剪切变换来近似，使用一系列一维变换的优点是它们比大的，不可分离的二位滤波核更有效。

6.2 基于网格扭曲

为了获得更自由的局部变形，产生了网格卷绕。稀疏控制点，稠密集，有向直线分割，位移场的确定。

6.3 应用:基于特征的形态学

卷绕常用于改变单幅图像的外观以形成动画，也可用于多幅图像的融合以产生强大的变形效果，在两幅图像之间进行简单的渐隐渐显会导致鬼影，但采用图像卷绕建立了良好的对应关系，相应的特征便会对齐。

用一些优化准则明确表达想要变换的目标，再找到或推断出这个准则的解决办法。正则化和变分法，构建一个描述解特性的连续全局能量函数，然后用稀疏线性系统或相关迭代方法找到最小能量解，贝叶斯统计学对产生输入图像的有噪声的测量过程和关于解空间的先验假设进行建模，通常用马尔科夫随机场进行编码。常见示例有散列数据的表面插值，图像去噪和缺失区域恢复，将图像分为前景和背景区域。

7.1 正则化

正则化理论试图用模型来拟合严重欠约束解空间的数据。即用一个平滑的表面穿过或是靠近一个测量数据点集合的问题。这样的问题是病态的和不适定的。这样由采样数据点d(xi,yi)恢复完整图像f(x,y)的问题被称为逆问题。

为了定义平滑解，常在解空间上定义一个范数，对于一维函数，函数一阶导数的平方进行积分，或对函数二阶导数的平方进行积分，这种能量度量是泛函的样例，是将函数映射到标量值的算子，这种方法被称为变分法，用于度量函数的变化（非平滑性）。

7.2 马尔科夫随机场

7.3 应用:图像复原

㈧四道图像图像算法题目

取X=0时，在Y轴上画点1。
取Y=0时，在X轴上画点2。
画直线通过两点。
你画的X=0时，Y是几？自己数手指头去。

㈨计算机视觉算法工程师笔试主要什么内容

你好，领学网为你解答：
计算机视觉部分：
1、考察特征点匹配算法，输入两幅图像中的特征点对，输出匹配的特征点对，（128维描述子）距离计算函数已给出无需考虑复杂度。编写伪代码，分析算法复杂度；
2、考察图像旋转。左边图像时旋转一定角度后的图像(有黑边)，右边为正常图像。已知两幅图像都为WxH，以及左图像与四边的切点A1A2A3A4，设计旋转算法使左图像变换矫正成右图像，编写伪代码，分析算法复杂度及优缺点；
3、主要考察双目视觉中的标定知识。给出了双目视觉的成像原理图及相关定理和表达。第一小题，需要证明x'Fx=0 x'x为左右图像中的匹配点对，并要求给出F矩阵的秩；第二小题要求推导出最少可由多少对左右图像中匹配点可以推导出F矩阵；
4、要求写出图像处理和计算机视觉在无人飞行器中的3个重要应用。给出理由和解决方案并分析。
图像处理部分：
1、主要考察一维中值滤波，退化为区间滤波编写伪代码，分析算法复杂度；
2、主要考察二维中值滤波，编写伪代码，分析算法复杂度；
3、如何去除脉冲噪声，图像中有大量随机产生的255和0噪声；
4、考察加权中值滤波公式推导以及一维加权中值滤波
控制部分：
对象举例均为四旋翼无人飞行器，各题目要求设计控制器，给出控制率，还有观测方案设计等等；有一题比较简单就是说明PID的各部分含义以及如何调节。
希望帮到你!

导航:首页 > 源码编译 > 图像与算法应用题

图像与算法应用题

与图像与算法应用题相关的资料