分歧算法原理图_DBSCAN原理是怎么样的

Ⅰ DES算法实现

完成一个DES 算法的 详细设计 ,内容包括：

DES（Data Encryption Standard）是一种用于电子数据加密的对称密钥块加密算法 .它以64位为分组长度，64位一组的明文作为算法的输入，通过一系列复杂的操作，输出同样64位长度的密文。DES 同样采用64位密钥，但由于每8位中的最后1位用于奇偶校验，实际有效密钥长度为56位。密钥可以是任意的56位的数，且可随时改变。

DES 使用加密密钥定义变换过程，因此算法认为只有持有加密所用的密钥的用户才能解密密文。DES的两个重要的安全特性是混淆和扩散。其中混淆是指通过密码算法使明文和密文以及密钥的关系非常复杂，无法从数学上描述或者统计。扩散是指明文和密钥中的每一位信息的变动，都会影响到密文中许多位信息的变动，从而隐藏统计上的特性，增加密码的安全。

DES算法的基本过程是换位和置换。如图，有16个相同的处理阶段，称为轮。还有一个初始和最终的排列，称为 IP 和 FP，它们是反向的 (IP 取消 FP 的作用，反之亦然)。

在主轮之前，块被分成两个32位的一半和交替处理；这种纵横交错的方案被称为Feistel 方法。Feistel 结构确保了解密和加密是非常相似的过程——唯一的区别是在解密时子键的应用顺序是相反的。其余的算法是相同的。这大大简化了实现，特别是在硬件中，因为不需要单独的加密和解密算法。

符号表示异或（XOR）操作。Feistel 函数将半块和一些键合在一起。然后，将Feistel 函数的输出与块的另一半组合在一起，在下一轮之前交换这一半。在最后一轮之后，两队交换了位置；这是 Feistel 结构的一个特性，使加密和解密过程类似。

IP 置换表指定64位块上的输入排列。其含义如下：输出的第一个比特来自输入的第58位;第二个位来自第50位，以此类推，最后一个位来自第7位输入。

最后的排列是初始排列的倒数。

展开函数被解释为初始排列和最终排列。注意，输入的一些位在输出时是重复的;输入的第5位在输出的第6位和第8位中都是重复的。因此，32位半块被扩展到48位。

P排列打乱了32位半块的位元。

表的“左”和“右”部分显示了来自输入键的哪些位构成了键调度状态的左和右部分。输入的64位中只有56位被选中；剩下的8（8、16、24、32、40、48、56、64）被指定作为奇偶校验位使用。

这个排列从56位键调度状态为每轮选择48位的子键。

这个表列出了DES中使用的8个S-box，每个S-box用4位的输出替换6位的输入。给定一个6位输入，通过使用外部的两个位选择行，以及使用内部的四个位选择列，就可以找到4位输出。例如，一个输入“011011”有外部位“01”和内部位“1101”。第一行为“00”，第一列为“0000”，S-box S5对应的输出为“1001”(=9)，即第二行第14列的值。

DES算法的基本流程图如下：

DES算法是典型的对称加密算法，在输入64比特明文数据后，通过输入64比特密钥和算法的一系列加密步骤后，可以得到同样为64比特的密文数据。反之，我们通过已知的密钥，可以将密文数据转换回明文。 我们将算法分为了三大块：IP置换、16次T迭代和IP逆置换 ，加密和解密过程分别如下：

实验的设计模式是自顶向下的结构，用C语言去分别是先各个函数的功能，最后通过主函数将所有函数进行整合，让算法更加清晰客观。

通过IP置换表，根据表中所示下标，找到相应位置进行置换。

对于16次迭代，我们先将传入的经过 IP 混淆过的64位明文的左右两部分，分别为32位的和32位的。之后我们将和进行交换，得到作为IP逆置换的输入：

，

子密钥的生成，经历下面一系列步骤：首先对于64位密钥，进行置换选择，因为将用户输入的64 位经历压缩变成了56位，所以我们将左面和右面的各28位进行循环位移。左右两部分分别按下列规则做循环移位：当，循环左移1位；其余情况循环左移2位。最后将得到的新的左右两部分进行连接得到56位密钥。

对半块的 Feistel 操作分为以下五步：

如上二图表明，在给出正确的密码后，可以得到对应的明文。

若密码错误，将解码出错误答案。

【1】 Data Encryption Standard

【2】 DES算法的详细设计（简单实现）

【3】深入理解并实现DES算法

【4】 DES算法原理完整版

【5】安全体系（一）—— DES算法详解

Ⅱ DBSCAN原理是怎么样的

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）聚类算法，它是一种基于高密度连通区域的、基于密度的聚类算法，能够将具有足够高密度的区域划分为簇，并在具有噪声的数据中发现任意形状的簇。我们总结一下DBSCAN聚类算法原理的基本要点：
DBSCAN算法需要选择一种距离度量，对于待聚类的数据集中，任意两个点之间的距离，反映了点之间的密度，说明了点与点是否能够聚到同一类中。由于DBSCAN算法对高维数据定义密度很困难，所以对于二维空间中的点，可以使用欧几里德距离来进行度量。
DBSCAN算法需要用户输入2个参数：一个参数是半径（Eps），表示以给定点P为中心的圆形邻域的范围；另一个参数是以点P为中心的邻域内最少点的数量（MinPts）。如果满足：以点P为中心、半径为Eps的邻域内的点的个数不少于MinPts，则称点P为核心点。
DBSCAN聚类使用到一个k-距离的概念，k-距离是指：给定数据集P={p(i); i=0,1,…n}，对于任意点P(i)，计算点P(i)到集合D的子集S={p(1), p(2), …, p(i-1), p(i+1), …, p(n)}中所有点之间的距离，距离按照从小到大的顺序排序，假设排序后的距离集合为D={d(1), d(2), …, d(k-1), d(k), d(k+1), …,d(n)}，则d(k)就被称为k-距离。也就是说，k-距离是点p(i)到所有点（除了p(i)点）之间距离第k近的距离。对待聚类集合中每个点p(i)都计算k-距离，最后得到所有点的k-距离集合E={e(1), e(2), …, e(n)}。
根据经验计算半径Eps：根据得到的所有点的k-距离集合E，对集合E进行升序排序后得到k-距离集合E’，需要拟合一条排序后的E’集合中k-距离的变化曲线图，然后绘出曲线，通过观察，将急剧发生变化的位置所对应的k-距离的值，确定为半径Eps的值。
根据经验计算最少点的数量MinPts：确定MinPts的大小，实际上也是确定k-距离中k的值，DBSCAN算法取k=4，则MinPts=4。
另外，如果觉得经验值聚类的结果不满意，可以适当调整Eps和MinPts的值，经过多次迭代计算对比，选择最合适的参数值。可以看出，如果MinPts不变，Eps取得值过大，会导致大多数点都聚到同一个簇中，Eps过小，会导致已一个簇的分裂；如果Eps不变，MinPts的值取得过大，会导致同一个簇中点被标记为噪声点，MinPts过小，会导致发现大量的核心点。
DBSCAN算法，需要输入2个参数，这两个参数的计算都来自经验知识。半径Eps的计算依赖于计算k-距离，DBSCAN取k=4，也就是设置MinPts=4，然后需要根据k-距离曲线，根据经验观察找到合适的半径Eps的值，下面的算法实现过程中，我们会详细说明。对于算法的实现，首先我们概要地描述一下实现的过程：
1）解析样本数据文件。
2）计算每个点与其他所有点之间的欧几里德距离。
3）计算每个点的k-距离值，并对所有点的k-距离集合进行升序排序，输出的排序后的k-距离值。
4）将所有点的k-距离值，在Excel中用散点图显示k-距离变化趋势。
5）根据散点图确定半径Eps的值。）根据给定MinPts=4，以及半径Eps的值，计算所有核心点，并建立核心点与到核心点距离小于半径Eps的点的映射。
6）根据得到的核心点集合，以及半径Eps的值，计算能够连通的核心点，得到噪声点。
7）将能够连通的每一组核心点，以及到核心点距离小于半径Eps的点，都放到一起，形成一个簇。
8）选择不同的半径Eps，使用DBSCAN算法聚类得到的一组簇及其噪声点，使用散点图对比聚类效果。

Ⅲ 线性回归算法原理（越详细越好）

线性回归是利用数理统计中的回归分析，来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一，运用十分广泛。

分析按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

我们以一简单数据组来说明什么是线性回归。假设有一组数据型态为y=y(x)，其中

x={0,1,2,3,4,5},y={0,20,60,68,77,110}

如果我们要以一个最简单的方程式来近似这组数据，则非一阶的线性方程式莫属。先将这组数据绘图如下

图中的斜线是我们随意假设一阶线性方程式y=20x，用以代表这些数据的一个方程式。以下将上述绘图的MATLAB指令列出，并计算这个线性方程式的y值与原数据y值间误差平方的总合。

>>x=[012345];

>>y=[020606877110];

>>y1=20*x;%一阶线性方程式的y1值

>>sum_sq=sum(y-y1).^2);%误差平方总合为573

>>axis([-1,6,-20,120])

>>plot(x,y1,x,y,'o'),title('Linearestimate'),grid

如此任意的假设一个线性方程式并无根据，如果换成其它人来设定就可能采用不同的线性方程式；所以我们须要有比较精确方式决定理想的线性方程式。我们可以要求误差平方的总合为最小，做为决定理想的线性方程式的准则，这样的方法就称为最小平方误差(leastsquareserror)或是线性回归。MATLAB的polyfit函数提供了从一阶到高阶多项式的回归法，其语法为polyfit(x,y,n)，其中x,y为输入数据组n为多项式的阶数，n=1就是一阶的线性回归法。polyfit函数所建立的多项式可以写成

从polyfit函数得到的输出值就是上述的各项系数，以一阶线性回归为例n=1，所以只有二个输出值。如果指令为coef=polyfit(x,y,n)，则coef(1)=,coef(2)=,...,coef(n+1)=。注意上式对n阶的多项式会有n+1项的系数。我们来看以下的线性回归的示范：

>>x=[012345];

>>y=[020606877110];

>>coef=polyfit(x,y,1);%coef代表线性回归的二个输出值

>>a0=coef(1);a1=coef(2);

>>ybest=a0*x+a1;%由线性回归产生的一阶方程式

>>sum_sq=sum(y-ybest).^2);%误差平方总合为356.82

>>axis([-1,6,-20,120])

>>plot(x,ybest,x,y,'o'),title('Linearregressionestimate'),grid

[编辑本段]线性回归拟合方程

一般来说，线性回归都可以通过最小二乘法求出其方程，可以计算出对于y=bx+a的直线，其经验拟合方程如下：

Ⅳ 常见密码算法原理

PBKDF2(Password-Based Key Derivation Function)是一个用来导出密钥的函数，用来生成加密的密码，增加破解的难度，类似bcrypt/scrypt等，可以用来进行密码或者口令的加密存储。主要是盐值+pwd，经过多轮HMAC算法的计算，产生的密文。
PBKDF2函数的定义
DK = PBKDF2(PRF, Password, Salt, c, dkLen)
• PRF是一个伪随机函数，例如HASH_HMAC函数，它会输出长度为hLen的结果。
• Password是用来生成密钥的原文密码。
• Salt是一个加密用的盐值。
• c是进行重复计算的次数。
• dkLen是期望得到的密钥的长度。
• DK是最后产生的密钥。
https://segmentfault.com/a/1190000004261009

下面我们以Alice和Bob为例叙述Diffie-Hellman密钥交换的原理。
1,Diffie-Hellman交换过程中涉及到的所有参与者定义一个组，在这个组中定义一个大质数p，底数g。
2,Diffie-Hellman密钥交换是一个两部分的过程，Alice和Bob都需要一个私有的数字a，b。
下面是DH交换的过程图：
本图片来自wiki
下面我们进行一个实例
1.爱丽丝与鲍伯协定使用p=23以及g=5.
2.爱丽丝选择一个秘密整数a=6, 计算A = g^a mod p并发送给鲍伯。
A = 5^6 mod 23 = 8.
3.鲍伯选择一个秘密整数b=15, 计算B = g^b mod p并发送给爱丽丝。
B = 5^15 mod 23 = 19.
4.爱丽丝计算s = B a mod p
19^6 mod 23 = 2.
5.鲍伯计算s = A b mod p
8^15 mod 23 = 2.

ECDH:
ECC算法和DH结合使用，用于密钥磋商，这个密钥交换算法称为ECDH。交换双方可以在不共享任何秘密的情况下协商出一个密钥。ECC是建立在基于椭圆曲线的离散对数问题上的密码体制，给定椭圆曲线上的一个点P，一个整数k，求解Q=kP很容易；给定一个点P、Q，知道Q=kP，求整数k确是一个难题。ECDH即建立在此数学难题之上。密钥磋商过程：
假设密钥交换双方为Alice、Bob，其有共享曲线参数（椭圆曲线E、阶N、基点G）。

来自 http://www.cnblogs.com/fishou/p/4206451.html

https://zh.wikipedia.org/wiki/SHA%E5%AE%B6%E6%97%8F

exponent1 INTEGER, -- d mod (p-1)
exponent2 INTEGER, -- d mod (q-1)
coefficient INTEGER, -- (inverse of q) mod p
otherPrimeInfos OtherPrimeInfos OPTIONAL
}
-----END RSA PRIVATE KEY-----
while a RSA public key contains only the following data:
-----BEGIN RSA PUBLIC KEY-----
RSAPublicKey ::= SEQUENCE {
molus INTEGER, -- n
publicExponent INTEGER -- e
}
-----END RSA PUBLIC KEY-----
and this explains why the private key block is larger.
Note that a more standard format for non-RSA public keys is
-----BEGIN PUBLIC KEY-----
PublicKeyInfo ::= SEQUENCE {
algorithm AlgorithmIdentifier,
PublicKey BIT STRING
}
AlgorithmIdentifier ::= SEQUENCE {
algorithm OBJECT IDENTIFIER,
parameters ANY DEFINED BY algorithm OPTIONAL
}
-----END PUBLIC KEY-----
More info here.
BTW, since you just posted a screenshot of the private key I strongly hope it was just for tests :)

密钥的长度
C:\herong>java RsaKeyGenerator 128
p: 17902136406704537069
q: 17902136406704537077
m:
Molus:
Key size: 128
Public key:
Private key:
C:\herong>java RsaKeyGenerator 256
p:
q:
m: ...
Molus: ...
Key size: 256
Public key: ...
Private key: ...

https://security.stackexchange.com/questions/90169/rsa-public-key-and-private-key-lengths
https://stackoverflow.com/questions/2921508/trying-to-understand-java-rsa-key-size >

http://www.herongyang.com/Cryptography/RSA-BigInteger-Keys-Generated-by-RsaKeyGenerator-java.html

update() adds data to the Cipher’s internal buffer, then returns all currently completely encoded blocks. If there are any encoded blocks left over, they remain in the Cipher’s buffer until the next call, or a call to doFinal(). This means that if you call update() with a four byte array to encrypt, and the buffer size is eight bytes, you will not receive encoded data on the return (you’ll get a null instead). If your next call to update() passes five bytes of data in, you will get an 8 byte (the block size) array back, containing the four bytes passed in on the previous call, the first four bytes from the current call – the remaining byte from the current call is left in the Cipher’s buffer.
doFinal() on the other hand is much simpler: it encrypts the passed data, pads it out to the necessary length, and then returns it. The Cipher is essentially stateless.

来自 https://segmentfault.com/a/1190000006931511

DH算法的中间人攻击
在最初的描述中，迪菲－赫尔曼密钥交换本身并没有提供通讯双方的身份验证服务，因此它很容易受到中间人攻击。一个中间人在信道的中央进行两次迪菲－赫尔曼密钥交换，一次和Alice另一次和Bob，就能够成功的向Alice假装自己是Bob，反之亦然。而攻击者可以解密（读取和存储）任何一个人的信息并重新加密信息，然后传递给另一个人。因此通常都需要一个能够验证通讯双方身份的机制来防止这类攻击。

优缺点：
1、仅当需要时才生成密钥，减小了将密钥存储很长一段时间而致使遭受攻击的机会。
2、除对全局参数的约定外，密钥交换不需要事先存在的基础结构。
然而，该技术也存在许多不足：
1、没有提供双方身份的任何信息。
2、它是计算密集性的，因此容易遭受阻塞性攻击，即对手请求大量的密钥。受攻击者花费了相对多的计算资源来求解无用的幂系数而不是在做真正的工作。
3、没办法防止重演攻击。
4、容易遭受中间人的攻击。第三方C在和A通信时扮演B；和B通信时扮演A。A和B都与C协商了一个密钥，然后C就可以监听和传递通信量。中间人的攻击按如下进行：
（1） B在给A的报文中发送他的公开密钥。
（2） C截获并解析该报文。C将B的公开密钥保存下来并给A发送报文，该报文具有B的用户ID但使用C的公开密钥YC，仍按照好像是来自B的样子被发送出去。A收到C的报文后，将YC和B的用户ID存储在一块。类似地，C使用YC向B发送好像来自A的报文。
（3） B基于私有密钥XB和YC计算秘密密钥K1。A基于私有密钥XA和YC计算秘密密钥K2。C使用私有密钥XC和YB计算K1，并使用XC和YA计算K2。
（4）从现在开始，C就可以转发A发给B的报文或转发B发给A的报文，在途中根据需要修改它们的密文。使得A和B都不知道他们在和C共享通信。

Ⅳ 决策树算法-原理篇

关于决策树算法，我打算分两篇来讲，一篇讲思想原理，另一篇直接撸码来分析算法。本篇为原理篇。
通过阅读这篇文章，你可以学到：
1、决策树的本质
2、决策树的构造过程
3、决策树的优化方向

决策树根据使用目的分为：分类树和回归树，其本质上是一样的。本文只讲分类树。

决策树，根据名字来解释就是，使用树型结构来模拟决策。
用图形表示就是下面这样。

其中椭圆形代表：特征或属性。长方形代表：类别结果。
面对一堆数据（含有特征和类别），决策树就是根据这些特征（椭圆形）来给数据归类（长方形）
例如，信用贷款问题，我根据《神奇动物在哪里》的剧情给银行造了个决策树模型，如下图：

然而，决定是否贷款可以根据很多特征，然麻鸡银行选择了：（1）是否房产价值>100w；（2）是否有其他值钱的抵押物；（3）月收入>10k；（4）是否结婚；这四个特征，来决定是否给予贷款。
先不管是否合理，但可以肯定的是，决策树做了特征选择工作，即选择出类别区分度高的特征。

由此可见， 决策树其实是一种特征选择方法。 （特征选择有多种，决策树属于嵌入型特征选择，以后或许会讲到，先给个图）即选择区分度高的特征子集。

那么， 从特征选择角度来看决策树，决策树就是嵌入型特征选择技术

同时，决策树也是机器学习中经典分类器算法，通过决策路径，最终能确定实例属于哪一类别。
那么， 从分类器角度来看决策树，决策树就是树型结构的分类模型

从人工智能知识表示法角度来看，决策树类似于if-then的产生式表示法。
那么， 从知识表示角度来看决策树，决策树就是if-then规则的集合

由上面的例子可知，麻鸡银行通过决策树模型来决定给哪些人贷款，这样决定贷款的流程就是固定的，而不由人的主观情感来决定。
那么， 从使用者角度来看决策树，决策树就是规范流程的方法

最后我们再来看看决策树的本质是什么已经不重要了。
决策树好像是一种思想，而通过应用在分类任务中从而成就了“决策树算法”。

下面内容还是继续讲解用于分类的“决策树算法”。

前面讲了决策树是一种 特征选择技术 。

既然决策树就是一种特征选择的方法，那么经典决策树算法其实就是使用了不同的特征选择方案。
如：
（1）ID3：使用信息增益作为特征选择
（2）C4.5：使用信息增益率作为特征选择
（3）CART：使用GINI系数作为特征选择
具体选择的方法网上一大把，在这里我提供几个链接，不细讲。

但，不仅仅如此。
决策树作为嵌入型特征选择技术结合了特征选择和分类算法，根据特征选择如何生成分类模型也是决策树的一部分。
其生成过程基本如下：

根据这三个步骤，可以确定决策树由：（1）特征选择；（2）生成方法；（3）剪枝，组成。
决策树中学习算法与特征选择的关系如下图所示：

原始特征集合T：就是包含收集到的原始数据所有的特征，例如：麻瓜银行收集到与是否具有偿还能力的所有特征，如：是否结婚、是否拥有100w的房产、是否拥有汽车、是否有小孩、月收入是否>10k等等。
中间的虚线框就是特征选择过程，例如：ID3使用信息增益、C4.5使用信息增益率、CART使用GINI系数。
其中评价指标（如：信息增益）就是对特征的要求，特征需要满足这种条件（一般是某个阈值），才能被选择，而这一选择过程嵌入在学习算法中，最终被选择的特征子集也归到学习算法中去。
这就是抽象的决策树生成过程，不论哪种算法都是将这一抽象过程的具体化。
其具体算法我将留在下一篇文章来讲解。

而决策树的剪枝，其实用得不是很多，因为很多情况下随机森林能解决决策树带来的过拟合问题，因此在这里也不讲了。

决策树的优化主要也是围绕决策树生成过程的三个步骤来进行优化的。
树型结构，可想而知，算法效率决定于树的深度，优化这方面主要从特征选择方向上优化。
提高分类性能是最重要的优化目标，其主要也是特征选择。
面对过拟合问题，一般使用剪枝来优化，如：李国和基于决策树生成及剪枝的数据集优化及其应用。
同时，决策树有很多不足，如：多值偏向、计算效率低下、对数据空缺较为敏感等，这方面的优化也有很多，大部分也是特征选择方向，如：陈沛玲使用粗糙集进行特征降维。
由此，决策树的优化方向大多都是特征选择方向，像ID3、C4.5、CART都是基于特征选择进行优化。

参考文献
统计学习方法-李航
特征选择方法综述-李郅琴
决策树分类算法优化研究_陈沛玲
基于决策树生成及剪枝的数据集优化及其应用-李国和

Ⅵ 大数据算法：分类算法

KNN算法，即K近邻（K Nearest Neighbour）算法，是一种基本的分类算法。其主要原理是：对于一个需要分类的数据，将其和一组已经分类标注好的样本集合进行比较，得到距离最近的K个样本，K个样本最多归属的类别，就是这个需要分类数据的类别。下面我给你画了一个KNN算法的原理图。

图中，红蓝绿三种颜色的点为样本数据，分属三种类别、、。对于待分类点，计算和它距离最近的5个点（即K为5），这5个点最多归属的类别为（4个点归属，1个点归属），那么的类别被分类为。

KNN的算法流程也非常简单，请看下面的流程图。

KNN算法是一种非常简单实用的分类算法，可用于各种分类的场景，比如新闻分类、商品分类等，甚至可用于简单的文字识别。对于新闻分类，可以提前对若干新闻进行人工标注，标好新闻类别，计算好特征向量。对于一篇未分类的新闻，计算其特征向量后，跟所有已标注新闻进行距离计算，然后进一步利用KNN算法进行自动分类。

读到这你肯定会问，如何计算数据的距离呢？如何获得新闻的特征向量呢？

KNN算法的关键是要比较需要分类的数据与样本数据之间的距离，这在机器学习中通常的做法是：提取数据的特征值，根据特征值组成一个n维实数向量空间（这个空间也被称作特征空间），然后计算向量之间的空间距离。空间之间的距离计算方法有很多种，常用的有欧氏距离、余弦距离等。

对于数据和，若其特征空间为n维实数向量空间，即，，则其欧氏距离计算公式为

这个欧式距离公式其实我们在初中的时候就学过，平面几何和立体几何里两个点之间的距离，也是用这个公式计算出来的，只是平面几何（二维几何）里的n=2，立体几何（三维几何）里的n=3，而机器学习需要面对的每个数据都可能有n维的维度，即每个数据有n个特征值。但是不管特征值n是多少，两个数据之间的空间距离的计算公式还是这个欧氏计算公式。大多数机器学习算法都需要计算数据之间的距离，因此掌握数据的距离计算公式是掌握机器学习算法的基础。

欧氏距离是最常用的数据计算公式，但是在文本数据以及用户评价数据的机器学习中，更常用的距离计算方法是余弦相似度。

余弦相似度的值越接近1表示其越相似，越接近0表示其差异越大，使用余弦相似度可以消除数据的某些冗余信息，某些情况下更贴近数据的本质。我举个简单的例子，比如两篇文章的特征值都是：“大数据”“机器学习”和“极客时间”，A文章的特征向量为（3, 3, 3），即这三个词出现次数都是3；B文章的特征向量为（6, 6, 6），即这三个词出现次数都是6。如果光看特征向量，这两个向量差别很大，如果用欧氏距离计算确实也很大，但是这两篇文章其实非常相似，只是篇幅不同而已，它们的余弦相似度为1，表示非常相似。

余弦相似度其实是计算向量的夹角，而欧氏距离公式是计算空间距离。余弦相似度更关注数据的相似性，比如两个用户给两件商品的打分分别是（3, 3）和（4, 4），那么两个用户对两件商品的喜好是相似的，这种情况下，余弦相似度比欧氏距离更合理。

我们知道了机器学习的算法需要计算距离，而计算距离需要还知道数据的特征向量，因此提取数据的特征向量是机器学习工程师们的重要工作，有时候甚至是最重要的工作。不同的数据以及不同的应用场景需要提取不同的特征值，我们以比较常见的文本数据为例，看看如何提取文本特征向量。

文本数据的特征值就是提取文本关键词，TF-IDF算法是比较常用且直观的一种文本关键词提取算法。这种算法是由TF和IDF两部分构成。

TF是词频（Term Frequency），表示某个单词在文档中出现的频率，一个单词在一个文档中出现的越频繁，TF值越高。

词频：

IDF是逆文档频率（Inverse Document Frequency），表示这个单词在所有文档中的稀缺程度，越少文档出现这个词，IDF值越高。

逆文档频率：

TF与IDF的乘积就是TF-IDF。

所以如果一个词在某一个文档中频繁出现，但在所有文档中却很少出现，那么这个词很可能就是这个文档的关键词。比如一篇关于原子能的技术文章，“核裂变”“放射性”“半衰期”等词汇会在这篇文档中频繁出现，即TF很高；但是在所有文档中出现的频率却比较低，即IDF也比较高。因此这几个词的TF-IDF值就会很高，就可能是这篇文档的关键词。如果这是一篇关于中国原子能的文章，也许“中国”这个词也会频繁出现，即TF也很高，但是“中国”也在很多文档中出现，那么IDF就会比较低，最后“中国”这个词的TF-IDF就很低，不会成为这个文档的关键词。

提取出关键词以后，就可以利用关键词的词频构造特征向量，比如上面例子关于原子能的文章，“核裂变”“放射性”“半衰期”这三个词是特征值，分别出现次数为12、9、4。那么这篇文章的特征向量就是（12, 9, 4），再利用前面提到的空间距离计算公式计算与其他文档的距离，结合KNN算法就可以实现文档的自动分类。

贝叶斯公式是一种基于条件概率的分类算法，如果我们已经知道A和B的发生概率，并且知道了B发生情况下A发生的概率，可以用贝叶斯公式计算A发生的情况下B发生的概率。事实上，我们可以根据A的情况，即输入数据，判断B的概率，即B的可能性，进而进行分类。

举个例子：假设一所学校里男生占60%，女生占40%。男生总是穿长裤，女生则一半穿长裤一半穿裙子。假设你走在校园中，迎面走来一个穿长裤的学生，你能够推断出这个穿长裤学生是男生的概率是多少吗？

答案是75%，具体算法是：

这个算法就利用了贝叶斯公式，贝叶斯公式的写法是：

意思是A发生的条件下B发生的概率，等于B发生的条件下A发生的概率，乘以B发生的概率，除以A发生的概率。还是上面这个例子，如果我问你迎面走来穿裙子的学生是女生的概率是多少。同样带入贝叶斯公式，可以计算出是女生的概率为100%。其实这个结果我们根据常识也能推断出来，但是很多时候，常识受各种因素的干扰，会出现偏差。比如有人看到一篇博士生给初中学历老板打工的新闻，就感叹读书无用。事实上，只是少见多怪，样本量太少而已。而大量数据的统计规律则能准确反映事物的分类概率。

贝叶斯分类的一个典型的应用场合是垃圾邮件分类，通过对样本邮件的统计，我们知道每个词在邮件中出现的概率，我们也知道正常邮件概率和垃圾邮件的概率，还可以统计出垃圾邮件中各个词的出现概率，那么现在一封新邮件到来，我们就可以根据邮件中出现的词，计算，即得到这些词出现情况下，邮件为垃圾邮件的概率，进而判断邮件是否为垃圾邮件。

现实中，贝叶斯公式等号右边的概率，我们可以通过对大数据的统计获得，当有新的数据到来的时候，我们就可以带入上面的贝叶斯公式计算其概率。而如果我们设定概率超过某个值就认为其会发生，那么我们就对这个数据进行了分类和预测，具体过程如下图所示。

训练样本就是我们的原始数据，有时候原始数据并不包含我们想要计算的维度数据，比如我们想用贝叶斯公式自动分类垃圾邮件，那么首先要对原始邮件进行标注，需要标注哪些邮件是正常邮件、哪些邮件是垃圾邮件。这一类需要对数据进行标注才能进行的机器学习训练也叫作有监督的机器学习。

Ⅶ 计算机视觉——典型的目标检测算法(OverFeat算法)（二）

【嵌牛导读】目标检测在现实中的应用很广泛，我们需要检测数字图像中的物体位置以及类别，它需要我们构建一个模型，模型的输入一张图片，模型的输出需要圈出图片中所有物体的位置以及物体所属的类别。在深度学习浪潮到来之前，目标检测精度的进步十分缓慢，靠传统依靠手工特征的方法来提高精度已是相当困难的事。而ImageNet分类大赛出现的卷积神经网络（CNN）——AlexNet所展现的强大性能，吸引着学者们将CNN迁移到了其他的任务，这也包括着目标检测任务，近年来，出现了很多目标检测算法。

【嵌牛鼻子】计算机视觉

【嵌牛提问】如何理解目标检测算法——OverFeat

【嵌牛正文】

一、深度学习的典型目标检测算法

深度学习目标检测算法主要分为双阶段检测算法和单阶段检测算法，如图1所示。

双阶段目标检测算法先对图像提取候选框，然后基于候选区域做二次修正得到检测结果，检测精度较高，但检测速度较慢;单阶段目标验测算法直接对图像进行计算生成检测结果，检测速度快,但检测精度低。

1、双阶段目标检测算法

双阶段目标检测方法主要通过选择性搜索（Selective Search）或者Edge Boxes等算法对输入图像选取可能包含检测目标的候选区域（Region Proposal），再对候选区域进行分类和位置回归以得到检测结果。

1.1 OverFeat 算法

《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》

Sermanet 等改进AlexNet 提出 OverFeat 算法。该算法结合AlexNet通过多尺度滑动窗口实现特征提取功能，并且共享特征提取层，应用于图像分类、定位和目标检测等任务。

关键技术：

1、FCN（全卷积神经网络）

对于一个各层参数结构都设计好的网络模型，要求输入图片的尺寸是固定的（例如，Alexnet要求输入图片的尺寸为227px*227px）。如果输入一张500*500的图片，希望模型仍然可以一直前向传导，即一个已经设计完毕的网络，可以输入任意大小的图片，这就是FCN。

FCN的思想在于：

1、从卷积层到全连接层，看成是对一整张图片的卷积层运算。

2、从全连接层到全连接层，看成是采用1*1大小的卷积核，进行卷积层运算。

如上图所示，绿色部分代表卷积核大小。假设一个CNN模型，其输入图片大小是14*14，通过第一层卷积后得到10*10大小的图片，然后接着通过池化得到了5*5大小的图片。像但是对于像素值为5*5的图片到像素值为1*1的图片的过程中：

（1）传统的CNN：如果从以前的角度进行理解的话，那么这个过程就是全连接层，我们会把这个5*5大小的图片，展平成为一维向量进行计算。

（2）FCN：FCN并不是把5*5的图片展平成一维向量再进行计算，而是直接采用5*5的卷积核，对一整张图片进行卷积运算。

二者本质上是相同的，只是角度不同，FCN把这个过程当成了对一整张特征图进行卷积，同样，后面的全连接层也是把它当做是以1*1大小的卷积核进行卷积运算。

当输入一张任意大小的图片，就需要利用以上所述的网络，例如输入一张像素为16*16的图片：

根据上图，该网络最后的输出是一张2*2的图片。可见采用FCN网络可以输入任意大小的图片。同时需要注意的是网络最后输出的图片大小不在是一个1*1大小的图片，而是一个与输入图片大小息息相关的一张图片。

Overfeat就是把采用FCN的思想把全连接层看成了卷积层，在网络测试阶段可以输入任意大小的图片。

2、offset max-pooling

简单起见，不用二维的图像作为例子，而是采用一维作为示例：

如上图所示，在X轴上有20个神经元，并且选择池化size=3的非重叠池化，那么根据之前所学的方法应该是：对上面的20个神经元，从1位置开始进行分组，每3个连续的神经元为一组，然后计算每组的最大值(最大池化)，19、20号神经元将被丢弃，如下图所示：

或者可以在20号神经元后面，添加一个数值为0的神经元编号21，与19、20成为一组，这样可以分成7组:[1,2,3]，[4,5,6]……,

[16,17,18],[19,20,21]，最后计算每组的最大值。

如果只分6组，除了以1作为初始位置进行连续组合之外，也可以从位置2或者3开始进行组合。也就是说其实有3种池化组合方法：

A、△=0分组:[1,2,3]，[4,5,6]……,[16,17,18]；

B、△=1分组:[2,3,4]，[5,6,7]……,[17,18,19]；

C、△=2分组:[3,4,5]，[6,7,8]……,[18,19,20]；

对应图片如下：

以往的CNN中，一般只用△=0的情况，得到池化结果后，就送入了下一层。但是该文献的方法是，把上面的△=0、△=1、△=2的三种组合方式的池化结果，分别送入网络的下一层。这样的话，网络在最后输出的时候，就会出现3种预测结果了。

前面所述是一维的情况，如果是2维图片的话，那么(△x,△y)就会有9种取值情况(3*3)；如果我们在做图片分类的时候，在网络的某一个池化层加入了这种offset 池化方法，然后把这9种池化结果，分别送入后面的网络层，最后的图片分类输出结果就可以得到9个预测结果(每个类别都可以得到9种概率值，然后我们对每个类别的9种概率，取其最大值，做为此类别的预测概率值)。

算法原理：

文献中的算法，就是把这两种思想结合起来，形成了文献最后测试阶段的算法。

1、论文的网络架构与训练阶段

(1)网络架构

对于网络的结构，文献给出了两个版本——快速版、精确版，一个精度比较高但速度慢；另外一个精度虽然低但是速度快。下面是高精度版本的网络结构表相关参数：

表格参数说明：

网络输入：图片大小为221px*221px；

网络结构方面基本上和AlexNet相同，使用了ReLU激活，最大池化。不同之处在于：(a)作者没有使用局部响应归一化层；(b)然后也没有采用重叠池化的方法；(c)在第一层卷积层，stride作者是选择了2，这个与AlexNet不同（AlexNet选择的跨步是4，在网络中，如果stride选择比较大得话，虽然可以减少网络层数，提高速度，但是却会降低精度）。

需要注意的是把f7这一层，看成是卷积核大小为5*5的卷积层，总之就是需要把网络看成前面所述的FCN模型，去除了全连接层的概念，因为在测试阶段可不是仅仅输入221*221这样大小的图片，在测试阶段要输入各种大小的图片，具体请看后面测试阶段的讲解。

(2)网络训练

训练输入：对于每张原图片为256*256，然后进行随机裁剪为221*221的大小作为CNN输入，进行训练。

优化求解参数设置：训练的min-batchs选择128，权重初始化选择高斯分布的随机初始化：

然后采用随机梯度下降法，进行优化更新，动量项参数大小选择0.6，L2权重衰减系数大小选择10-5次方。学习率初始化值为0.05，根据迭代次数的增加，每隔几十次的迭代后，就把学习率的大小减小一半。

然后就是DropOut，这个只有在最后的两个全连接层，才采用dropout，dropout比率选择0.5。

2、网络测试阶段

在Alexnet的文献中，预测方法是输入一张图片256*256，然后进行multi-view裁剪，也就是从图片的四个角进行裁剪，还有就是一图片的中心进行裁剪，这样可以裁剪到5张224*224的图片。然后把原图片水平翻转一下，再用同样的方式进行裁剪，又可以裁剪到5张图片。把这10张图片作为输入，分别进行预测分类，在后在softmax的最后一层，求取个各类的总概率，求取平均值。

然而Alexnet这种预测方法存在两个问题：

一方面这样的裁剪方式，把图片的很多区域都给忽略了，这样的裁剪方式，刚好把图片物体的一部分给裁剪掉了；

另一方面，裁剪窗口重叠存在很多冗余的计算，像上面要分别把10张图片送入网络，可见测试阶段的计算量还是较大的。

Overfeat算法：

训练完上面所说的网络之后，在测试阶段不再是用一张221*221大小的图片了作为网络的输入，而是用了6张大小都不相同的图片，也就是所谓的多尺度输入预测，如下表格所示：

当网络前向传导到layer 5的时候，就利用了前面所述的FCN、offset pooling这两种思想的相结合。现以输入一张图片为例(6张图片的计算方法都相同)，讲解layer 5后面的整体过程，具体流程示意图如下：

步骤一：

对于某个尺度的图片，经过前五层的卷积后得到特征图。上图中特征图的分辨率是20x23，256个通道。

步骤二：

对于该特征图，重复多次使用非重叠的池化，每次池化的偏置不同，有行偏置和列偏置。上图中偏置池化3次，偏置分别为为(0,1,2)。这就是offset pooling，也被称为fine stride。offset pooling得到的特征图的维度为6x7x3x3xD，其中6x7是特征图的分辨率，3x3是偏置池化的次数，D是通道数。上图中是以1维显示的。

步骤三：

池化后得到的特征图将被送入分类器。

步骤四：

分类器的输入是的5x5xD，输出是C(类别数)维向量。但是offset pooling后得到的特征图并不是5x5xD，比如上图中的特征图大小为6x7xD，因此分类器以滑动窗口的方式应用在特征图上，每个滑动窗口经过分类器输出一个C维向量。比如上图中输入的6x7xD的特征图最终得到2x3xC的输出，其中2x3是滑动窗口的个数。

步骤五：

而2x3xC只是一组偏置池化的输出，总的输出为2x3x3x3xC，将输出的张量reshape，得到6x9xC输出张量。最终输出分类张量为3d张量，即两个分辨率维度 x C维。

然后需要在后面把它们拉成一维向量，这样在一个尺度上，可以得到一个C*N个预测值矩阵，每一列就表示图片属于某一类别的概率值，并且求取每一列的最大值，作为本尺度的每个类别的概率值。

最后一共用了6种不同尺度(文献使用了12张，另外6张是水平翻转的图片)进行做预测，然后把这六种尺度结果再做一个平均，作为最最后的结果。

从上面过程可以看到整个网络分成两部分：layer 1~5这五层称之为特征提取层；layer 6~output称之为分类层。

六、定位任务

用于定位任务的时候，就把分类层(上面的layer 6~output)给重新设计一下，把分类改成回归问题，然后在各种不同尺度上训练预测物体的bounding box。

Ⅷ 常见加密算法原理及概念

在安全领域，利用密钥加密算法来对通信的过程进行加密是一种常见的安全手段。利用该手段能够保障数据安全通信的三个目标：

而常见的密钥加密算法类型大体可以分为三类：对称加密、非对称加密、单向加密。下面我们来了解下相关的算法原理及其常见的算法。

对称加密算法采用单密钥加密，在通信过程中，数据发送方将原始数据分割成固定大小的块，经过密钥和加密算法逐个加密后，发送给接收方；接收方收到加密后的报文后，结合密钥和解密算法解密组合后得出原始数据。由于加解密算法是公开的，因此在这过程中，密钥的安全传递就成为了至关重要的事了。而密钥通常来说是通过双方协商，以物理的方式传递给对方，或者利用第三方平台传递给对方，一旦这过程出现了密钥泄露，不怀好意的人就能结合相应的算法拦截解密出其加密传输的内容。

对称加密算法拥有着算法公开、计算量小、加密速度和效率高得特定，但是也有着密钥单一、密钥管理困难等缺点。

常见的对称加密算法有：
DES：分组式加密算法，以64位为分组对数据加密，加解密使用同一个算法。
3DES：三重数据加密算法，对每个数据块应用三次DES加密算法。
AES：高级加密标准算法，是美国联邦政府采用的一种区块加密标准，用于替代原先的DES，目前已被广泛应用。
Blowfish：Blowfish算法是一个64位分组及可变密钥长度的对称密钥分组密码算法，可用来加密64比特长度的字符串。

非对称加密算法采用公钥和私钥两种不同的密码来进行加解密。公钥和私钥是成对存在，公钥是从私钥中提取产生公开给所有人的，如果使用公钥对数据进行加密，那么只有对应的私钥才能解密，反之亦然。
下图为简单非对称加密算法的常见流程：

发送方Bob从接收方Alice获取其对应的公钥，并结合相应的非对称算法将明文加密后发送给Alice；Alice接收到加密的密文后，结合自己的私钥和非对称算法解密得到明文。这种简单的非对称加密算法的应用其安全性比对称加密算法来说要高，但是其不足之处在于无法确认公钥的来源合法性以及数据的完整性。
非对称加密算法具有安全性高、算法强度负复杂的优点，其缺点为加解密耗时长、速度慢，只适合对少量数据进行加密，其常见算法包括：
RSA ：RSA算法基于一个十分简单的数论事实：将两个大素数相乘十分容易，但那时想要对其乘积进行因式分解却极其困难，因此可以将乘积公开作为加密密钥，可用于加密，也能用于签名。
DSA ：数字签名算法，仅能用于签名，不能用于加解密。
DSS ：数字签名标准，技能用于签名，也可以用于加解密。
ELGamal ：利用离散对数的原理对数据进行加解密或数据签名，其速度是最慢的。

单向加密算法常用于提取数据指纹，验证数据的完整性。发送者将明文通过单向加密算法加密生成定长的密文串，然后传递给接收方。接收方在收到加密的报文后进行解密，将解密获取到的明文使用相同的单向加密算法进行加密，得出加密后的密文串。随后将之与发送者发送过来的密文串进行对比，若发送前和发送后的密文串相一致，则说明传输过程中数据没有损坏；若不一致，说明传输过程中数据丢失了。单向加密算法只能用于对数据的加密，无法被解密，其特点为定长输出、雪崩效应。常见的算法包括：MD5、sha1、sha224等等，其常见用途包括：数字摘要、数字签名等等。

密钥交换IKE（Internet Key Exchange）通常是指双方通过交换密钥来实现数据加密和解密，常见的密钥交换方式有下面两种：
1、公钥加密，将公钥加密后通过网络传输到对方进行解密，这种方式缺点在于具有很大的可能性被拦截破解，因此不常用；
2、Diffie-Hellman，DH算法是一种密钥交换算法，其既不用于加密，也不产生数字签名。DH算法的巧妙在于需要安全通信的双方可以用这个方法确定对称密钥。然后可以用这个密钥进行加密和解密。但是注意，这个密钥交换协议/算法只能用于密钥的交换，而不能进行消息的加密和解密。双方确定要用的密钥后，要使用其他对称密钥操作加密算法实际加密和解密消息。DH算法通过双方共有的参数、私有参数和算法信息来进行加密，然后双方将计算后的结果进行交换，交换完成后再和属于自己私有的参数进行特殊算法，经过双方计算后的结果是相同的，此结果即为密钥。
如：

在整个过程中，第三方人员只能获取p、g两个值，AB双方交换的是计算后的结果，因此这种方式是很安全的。

公钥基础设施是一个包括硬件、软件、人员、策略和规程的集合，用于实现基于公钥密码机制的密钥和证书的生成、管理、存储、分发和撤销的功能，其组成包括：签证机构CA、注册机构RA、证书吊销列表CRL和证书存取库CB。
PKI采用证书管理公钥，通过第三方可信任CA中心，把用户的公钥和其他用户信息组生成证书，用于验证用户的身份。
公钥证书是以数字签名的方式声明，它将公钥的值绑定到持有对应私钥的个人、设备或服务身份。公钥证书的生成遵循X.509协议的规定，其内容包括：证书名称、证书版本、序列号、算法标识、颁发者、有效期、有效起始日期、有效终止日期、公钥、证书签名等等的内容。

CA证书认证的流程如下图，Bob为了向Alice证明自己是Bob和某个公钥是自己的，她便向一个Bob和Alice都信任的CA机构申请证书，Bob先自己生成了一对密钥对（私钥和公钥），把自己的私钥保存在自己电脑上，然后把公钥给CA申请证书，CA接受申请于是给Bob颁发了一个数字证书，证书中包含了Bob的那个公钥以及其它身份信息，当然，CA会计算这些信息的消息摘要并用自己的私钥加密消息摘要（数字签名）一并附在Bob的证书上，以此来证明这个证书就是CA自己颁发的。Alice得到Bob的证书后用CA的证书（自签署的）中的公钥来解密消息摘要，随后将摘要和Bob的公钥发送到CA服务器上进行核对。CA在接收到Alice的核对请求后，会根据Alice提供的信息核对Bob的证书是否合法，如果确认合法则回复Alice证书合法。Alice收到CA的确认回复后，再去使用从证书中获取的Bob的公钥加密邮件然后发送给Bob，Bob接收后再以自己的私钥进行解密。

导航:首页 > 源码编译 > 分歧算法原理图

分歧算法原理图

与分歧算法原理图相关的资料