图像算法面试_#图像识别算法工程师(ocr)#坐标上海为什么感觉招ocr公司太少我做这个都快三年了最近面试

A. #图像识别算法工程师(ocr)#坐标上海，为什么感觉招ocr公司太少。我做这个都快三年了，最近面试

招的还是有的，只是这个东西是一家公司的核心的东西，所以可遇不可求，通常也是公司内部知根知底的人，慢慢培养出来的
来自职Q用户：刘先生
算法工程师，还是挺多招的啊来自职Q用户：刘女士

B. 为什么一线互联网公司的校招高薪都是算法类

高端工程类岗位所需要的能力，高校很难培养出来。中低端工程类岗位，可能确实不太值钱。

。算法类因为一些历史遗留问题，大公司之前懂得人不多，而学校确实有些老师是行家里手，学生也可以在某一个小领域，做到精通。

这推高了前两年算法领域的校招价。然而，随着公司相关人才越来越多，算法类的稀缺性也在下降。另外，现在很多技术比较好的组也比较认清了，高端算法类毕业生已经不能靠论文数量，甚至已经不能靠发的会议质量了。

C. 计算机视觉算法工程师常见面试题1

参考： https://www.hu.com/column/c_1170719557072326656

反卷积也称为转置卷积，如果用矩阵乘法实现卷积操作，将卷积核平铺为矩阵，则转置卷积在正向计算时左乘这个矩阵的转置WT，在反向传播是左乘W，与卷积操作刚好相反，需要注意的是，反卷积不是卷积的逆运算。
[知乎问题+caffe实现]

实现上采样；近似重构输入图像，卷积层可视化。

只要激活函数选择得当，神经元的数量足够，至少有一个隐含层的神经网络可以 逼近闭区间上任意一个连续函数到任意指定的精度。

判别模型，直接输出类别标签，或者输出类后验概率p(y|x)
[ https://www.hu.com/question/268906476]
[ https://zhuanlan.hu.com/p/40024110]
[ https://zhuanlan.hu.com/p/159189617]

BN是在 batch这个维度上进行归一化，GN是计算channel方向每个group的均值方差.

检测结果与 Ground Truth 的交集比上它们的并集，即为检测的准确率 IoU

内存/显存占用；模型收敛速度等

Hessian矩阵是n*n，在高维情况下这个矩阵非常大，计算和存储都是问题。

mini-batch太小会导致收敛变慢，太大容易陷入sharp minima，泛化性不好。

可以把dropout看成是一种ensemble方法，每次做完dropout相当于从原网络中找到一个更瘦的网络。

pooling操作虽然能增大感受野，但是会丢失一些信息。空洞卷积在卷积核中插入权重为0的值，因此每次卷积中会skip掉一些像素点；

空洞卷积增大了卷积输出每个点的感受野，并且不像pooling会丢失信息，在图像需要全局信息或者需要较长sequence依赖的语音序列问题上有着较广泛的应用。

表达式为：

使用BN的原因是网络训练中每一层不断改变的参数会导致后续每一层输入的分布发生变化，而学习的过程又要使每一层去适应输入的分布，因此不得不降低网络的学习率，并且要小心得初始化（internal covariant shift）
如果仅通过归一化方法使得数据具有零均值和单位方差，则会降低层的表达能力（如使用Sigmoid函数时，只使用线性区域）
BN的具体过程（注意第三个公式中分母要加上epsilon）

最好的解释是通过1 * 1卷积核能实现多个channel间的解耦合，解耦cross-channel correlation和spatial correlation。
【但是因为解耦不彻底，因此后续有了mobile net的组卷积方式和shuffle net组卷积方式】

由于 1×1 并不会改变 height 和 width，改变通道的第一个最直观的结果，就是可以将原本的数据量进行增加或者减少。改变的只是 height × width × channels 中的 channels 这一个维度的大小而已。

1*1卷积核，可以在保持feature map尺度不变的（即不损失分辨率）的前提下大幅增加非线性特性（利用后接的非线性激活函数），把网络做的很deep。

备注：一个filter对应卷积后得到一个feature map，不同的filter(不同的weight和bias)，卷积以后得到不同的feature map，提取不同的特征，得到对应的specialized neuron。

例子：使用1x1卷积核，实现降维和升维的操作其实就是channel间信息的线性组合变化，3x3，64channels的卷积核后面添加一个1x1，28channels的卷积核，就变成了3x3，28channels的卷积核，原来的64个channels就可以理解为跨通道线性组合变成了28channels，这就是通道间的信息交互

注意：只是在channel维度上做线性组合，W和H上是共享权值的sliding window

并不能说明这个模型无效导致模型不收敛的原因可能有

A. 在实际场景下，应尽量使用ADAM，避免使用SGD
B. 同样的初始学习率情况下，ADAM的收敛速度总是快于SGD方法
C. 相同超参数数量情况下，比起自适应的学习率调整方式，SGD加手动调节通常会取得更好效果
D. 同样的初始学习率情况下，ADAM比SGD容易过拟合

A.保证每一层的感受野不变，网络深度加深，使得网络的精度更高
B.使得每一层的感受野增大，学习小特征的能力变大
C.有效提取高层语义信息，且对高层语义进行加工，有效提高网络准确度
D.利用该结构有效减轻网络的权重

A.计算简单
B.非线性
C.具有饱和区
D.几乎处处可微
【relu函数在0处是不可微的。】

A.Adam的收敛速度比RMSprop慢
B.相比于SGD或RMSprop等优化器，Adam的收敛效果是最好的
C.对于轻量级神经网络，使用Adam比使用RMSprop更合适
D.相比于Adam或RMSprop等优化器，SGD的收敛效果是最好的
【SGD通常训练时间更长，容易陷入鞍点，但是在好的初始化和学习率调度方案的情况下，结果更可靠。如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。】

A.使用ReLU做为激活函数，可有效地防止梯度爆炸
B.使用Sigmoid做为激活函数，较容易出现梯度消失
C.使用Batch Normalization层，可有效的防止梯度爆炸
D.使用参数weight decay，在一程度上可防止模型过拟合

对结果存疑。认为二者皆可防止。

A.SGD
B.FTRL
C.RMSProp
D.L-BFGS

L-BFGS（Limited-memory BFGS，内存受限拟牛顿法）方法：
所有的数据都会参与训练，算法融入方差归一化和均值归一化。大数据集训练DNN，容易参数量过大 (牛顿法的进化版本，寻找更好的优化方向，减少迭代轮数）从LBFGS算法的流程来看，其整个的核心的就是如何快速计算一个Hesse的近似：重点一是近似，所以有了LBFGS算法中使用前m个近似下降方向进行迭代的计算过程；重点二是快速，这个体现在不用保存Hesse矩阵上，只需要使用一个保存后的一阶导数序列就可以完成，因此不需要大量的存储，从而节省了计算资源；重点三，是在推导中使用秩二校正构造了一个正定矩阵，即便这个矩阵不是最优的下降方向，但至少可以保证函数下降。
FTRL(Follow-the-regularized-Leader)是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法，方便实用，而且效果很好，常用于更新在线的CTR预估模型；FTRL在处理带非光滑正则项（如L1正则）的凸优化问题上表现非常出色，不仅可以通过L1正则控制模型的稀疏度，而且收敛速度快；

A.LSTM在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题
B.CNN相比于全连接的优势之一是模型复杂度低，缓解过拟合
C.只要参数设置合理，深度学习的效果至少应优于随机算法
D.随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题

实际上，现在有很多针对小目标的措施和改良，如下：

最常见的是Upsample来Rezie网络输入图像的大小；

用dilated/astrous等这类特殊的卷积来提高检测器对分辨率的敏感度；（空洞卷积是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路。利用添加空洞扩大感受野，让原本3 x3的卷积核，在相同参数量和计算量下拥有5x5（dilated rate =2）或者更大的感受野，从而无需下采样。在保持参数个数不变的情况下增大了卷积核的感受野）

有比较直接的在浅层和深层的Feature Map上直接各自独立做预测的，这个就是我们常说的尺度问题。

用FPN这种把浅层特征和深层特征融合的，或者最后在预测的时候，用浅层特征和深层特征一起预测；

SNIP（Scale Normalization for Image Pyramids）主要思路：

在训练和反向传播更新参数时，只考虑那些在指定的尺度范围内的目标，由此提出了一种特别的多尺度训练方法。

D. 诺瓦星云算法图像工程师面试好过没

好过。
1、诺瓦星云算法图像工程师的面试首先是电话面试，回答一些基本问题。
2、然后是自我介绍和最后的反问，真正的面试时间就十几分钟，侧重点在项目上，没有关于通用能力的问题，所以好过。

E. 360图像算法二面后多久通知结果

一般3-7个工作日会收到通知。
1、首先，企业在结束面试后，会将所有候选人从专业技能，综合素质，稳定性等方面结合起来，进行评估对比，择优而选；
2、其次，选中候选人之后，还要结合候选人期望薪资，市场待遇，公司目前薪资水平，为候选人定薪，有些公司还会提前制定好试用期考核方案；
3、薪资定好之后，公司内部会走签字流程，确定各个相关部门领导的同意。

F. 做图像类算法面试的时候会不会面试数学

我在《再谈逗我是怎么招程序员地》中比较保守地说过，逗问难的算法题并没有错，错的很多面试官只是在肤浅甚至错误地理解着面试算法题的目的。地，今天，我想加强一下这个观点——我反对纯算法题面试！（注意，我说的是纯算法题）图片源Wikipedia（点击图片查看词条）我再次引用我以前的一个观点——能解算法题并不意味着这个人就有能力就能在工作中解决问题，你可以想想，小学奥数题可能比这些题更难，但并不意味着那些奥数能手就能解决实际问题。好了，让我们来看一个示例（这个示例是昨天在微博上的一个讨论），这个题是——逗找出无序数组中第2大的数地，几乎所有的人都用了O(n)的算法，我相信对于我们这些应试教育出来的人来说，不用排序用O(n)算法是很正常的事，连我都不由自主地认为O(n)算法是这个题的标准答案。我们太习惯于标准答案了，这是我国教育最悲哀的地方。（广义的洗脑就是让你的意识依赖于某个标准答案，然后通过给你标准答案让你不会思考而控制你）功能性需求分析试想，如果我们在实际工作中得到这样一个题我们会怎么做看我一定会分析这个需求，因为我害怕需求未来会改变，今天你叫我找一个第2大的数，明天你找我找一个第4大的数，后天叫我找一个第100大的数，我不搞死了。需求变化是很正常的事。分析完这个需求后，我会很自然地去写找第K大数的算法——难度一下子就增大了。很多人会以为找第K大的需求是一种逗过早扩展地的思路，不是这样的，我相信我们在实际编码中写过太多这样的程序了，你一定不会设计出这样的函数接口 —— Find2ndMaxNum(int* array, int len)，就好像你不会设计出 DestroyBaghdad(); 这样的接口，而是设计一个DestoryCity( City& ); 的接口，而把Baghdad当成参数传进去！所以，你应该是声明一个叫FindKthMaxNum(int* array, int len, int kth)，把2当成参数传进去。这是最基本的编程方法，用数学的话来说，叫代数！最简单的需求分析方法就是把需求翻译成函数名，然后看看是这个接口不是很二看！（注：不要纠结于FindMaxNum()或FindMinNum()，因为这两个函数名的业务意义很清楚了，不像Find2ndMaxNum()那么二）非功能性需求分析性能之类的东西从来都是非功能性需求，对于算法题，我们太喜欢研究算法题的空间和时间复杂度了。我们希望做到空间和时间双丰收，这是算法学术界的风格。所以，习惯于标准答案的我们已经失去思考的能力，只会机械地思考算法之内的性能，而忽略了算法之外的性能。如果题目是——逗从无序数组中找到第K个最大的数地，那么，我们一定会去思考用O(n)的线性算法找出第K个数。事实上，也有线性算法——STL中可以用nth_element求得类似的第n大的数，其利用快速排序的思想，从数组S中随机找出一个元素X，把数组分为两部分Sa和Sb。Sa中的元素大于等于X，Sb中元素小于X。这时有两种情况：1）Sa中元素的个数小于k，则Sb中的第 k-|Sa|个元素即为第k大数；2） Sa中元素的个数大于等于k，则返回Sa中的第k大数。时间复杂度近似为O(n)。搞学术的nuts们到了这一步一定会欢呼胜利！但是他们哪里能想得到性能的需求分析也是来源自业务的！我们一说性能，基本上是个人都会问，请求量有多大看如果我们的FindKthMaxNum()的请求量是m次，那么你的这个每次都要O(n)复杂度的算法得到的效果就是O(n*m)，这一点，是书呆子式的学院派人永远想不到的。因为应试教育让我们不会从实际思考了。工程式的解法根据上面的需求分析，有软件工程经验的人的解法通常会这样：1）把数组排序，从大到小。2）于是你要第k大的数，就直接访问 array[k]。排序只需要一次，O(n*log(n))，然后，接下来的m次对FindKthMaxNum()的调用全是O(1)的，整体复杂度反而成了线性的。其实，上述的还不是工程式的最好的解法，因为，在业务中，那数组中的数据可能会是会变化的，所以，如果是用数组排序的话，有数据的改动会让我重新排序，这个太耗性能了，如果实际情况中会有很多的插入或删除操作，那么可以考虑使用B+树。工程式的解法有以下特点：1）很方便扩展，因为数据排好序了，你还可以方便地支持各种需求，如从第k1大到k2大的数据（那些学院派写出来的代码在拿到这个需求时又开始挠头苦想了）2）规整的数据会简化整体的算法复杂度，从而整体性能会更好。（公欲善其事，必先利其器）3）代码变得清晰，易懂，易维护！（学院派的和STL一样的近似O(n)复杂度的算法没人敢动）争论你可能会和我有以下争论，如果程序员做这个算法题用排序的方式，他一定不会像你想那么多。是的，你说得对。但是我想说，很多时候，我们直觉地思考，恰恰是正确的路。因为逗排序地这个思路符合人类大脑处理问题的方式，而使用学院派的方式是反大脑直觉的。反大脑直觉的，通常意味着晦涩难懂，维护成本上升。就是一道面试题，我就是想测试一下你的算法技能，这也扯太多了。没问题，不过，我们要清楚我们是在招什么人看是一个只会写算法的人，还是一个会做软件的人看这个只有你自己最清楚。这个算法题太容易诱导到学院派的思路了。是的这道逗找出第K大的数地，其实可以变换为更为业务一点的题目——逗我要和别的商户竞价，我想排在所有竞争对手报价的第K名，请写一个程序，我输入K，和一个商品名，系统告诉我应该订多少价看（商家的所有商品的报价在一数组中）地——业务分析，整体性能，算法，数据结构，增加需求让应聘者重构，这一个问题就全考了。你是不是在说算法不重要，不用学看千万别这样理解我，搞得好像如果面试不面，我就可以不学。算法很重要，算法题能锻炼我们的思维，而且也有很多实际用处。我这篇文章不是让大家不要去学算法，这是完全错误的，我是让大家带着业务问题去使用算法。问你业务问题，一样会问到算法题上来。小结看过这上面的分析，我相信你明白我为什么反对纯算法面试题了。原因就是纯算法的面试题根本不能反应一个程序的综合素质！那么，在面试中，我们应该要考量程序员的那些综合素质呢看我以为有下面这些东西：会不会做需求分析看怎么理解问题的看解决问题的思路是什么看想法如何看会不会对基础的算法和数据结构灵活运用看另外，我们知道，对于软件开发来说，在工程上，难是的下面是这些挑战：软件的维护成本远远大于软件的开发成本。软件的质量变得越来越重要，所以，测试工作也变得越来越重要。软件的需求总是在变的，软件的需求总是一点一点往上加的。程序中大量的代码都是在处理一些错误的或是不正常的流程。所以，对于编程能力上，我们应该主要考量程序员的如下能力：设计是否满足对需求的理解，并可以应对可能出现的需求变化。

导航:首页 > 源码编译 > 图像算法面试

图像算法面试

与图像算法面试相关的资料