遗传算法原理及应用周玥_遗传算法

❶ 遗传算法原理简介

遗传算法（Genetic Algorithm, GA）是一种进化计算（Evolutionary Computing）算法，属于人工智能技术的一部分。遗传算法最早是由John Holland和他的学生发明并改进的，源于对达芬奇物种进化理论的模仿。在物种进化过程中，为了适应环境，好的基因得到保留，不好的基因被淘汰，这样经过很多代基因的变化，物种的基因就是当前自然环境下适应度最好的基因。该算法被广泛应用于优化和搜索中，用于寻求最优解（或最优解的近似），其最主要的步骤包括交叉（crossover）和突变（mutation）。

所有的生物体都由细胞组成，每个细胞中都包含了同样的染色体（chromosome）。染色体由一串DNA组成，我们可以简单地把一个生物个体表示为一条染色体。每条染色体上都包含着基因，而基因又是由多个DNA组成的。每个基因都控制着个体某个性状的表达，例如眼睛的颜色、眼皮的单双等。在物种繁衍的过程中，首先发生交叉，来自于父母的染色体经过分裂和重组，形成后代的染色体。之后，后代有一定概率发生基因突变，即染色体上某个位置处的基因以一定概率发生变化。之后，对每一代都重复进行交叉和突变两个步骤。对于每一个后代，我们可以通过一定的方式测量其适应度。适应度越好的个体，在下一次交叉中被选中的概率越大，它的基因越容易传给下一代。这样，后代的适应度就会越来越好，直到收敛到一个稳定值。

在优化问题中，可行解总是有很多个，我们希望寻找一个最优解，它相对于其他可行解来说具有更好的适应度（即目标函数值更大或更小）。每个可行解就是一个“生物个体”，可以表示为状态空间中的一个点和适应度。每个解都是一个经过编码的序列，已二进制编码为例，每个解都是一个二进制序列。这样每个染色体就是一个二进制序列。遗传算法从从一组可行解开始，称为population，从population中随机选择染色体进行交叉产生下一代。这一做法的基于下一代的适应度会好于上一代。遗传算法的过程如下：

终止条件可以是达到了最大迭代次数，或者是前后连续几代的最优染色体的适应度差值小于一个阈值。以上算法描述也许还不够直观，我们举例说明。假设解可以用二进制编码表示，则每个染色体都是一个二进制序列。假设序列长度为16，则每个染色体都是一个16位的二进制序列：

首先，我们随机生成一个population，假设population size为20，则有20个长度为16的二进制序列。计算每个染色体的适应度，然后选取两个染色体进行交叉，如下图所示。下图在第6为上将染色体断开再重组，断开的位置是可以随机选择的。当然，断裂位置也可以不止一个。可以根据具体问题选择具体的交叉方式来提升算法性能。

之后，随机选取后代染色体上某个基因发生基因突变，突变的位置是随机选取的。并且，基因突变并不是在每个后代上都会发生，只是有一定的概率。对于二进制编码，基因突变的方式是按位取反：

上述例子是关于二进制编码的，像求解一元函数在某个区间内的最大最小值就可以使用二进制编码。例如，求解函数f(x)=x+sin(3x)+cos(3x)在区间[0,6]内的最小值。假设我们需要最小值点x保留4位小数，那么求解区间被离散成60000个数。因为2 {15}<60000<2 {16}，所以，需要16位二进制数来表示这60000个可能的解。其中0x0000表示0，0x0001表示0.0001，以此类推。针对这个例子，文末给出了demo code．

然而，在排序问题中无法使用二进制编码，应该采用排列编码（permutation encoding）。例如有下面两个染色体：

交叉：随机选取一个交叉点，从该出将两个染色体断开。染色体A的前部分组成后代1的前部分，然后扫描染色体B，如果出现了后代1中不包含的基因，则将其顺序加入后代1中。同理，染色体B的前部分组成了后代2的前部分，扫描染色体A获得后代2的后部分。注意，交叉的方式多种多样，此处只是举出其中一种方式。

( 1 5 3 2 6 | 4 7 9 8) + ( 8 5 6 7 2 | 3 1 4 9) => ( 1 5 3 2 6 8 7 4 9) + ( 8 5 6 7 2 1 3 4 9)

突变：对于一个染色体，随机选中两个基因互换位置。例如第3个基因和倒数第2个基因互换：

(1 5 3 2 6 8 7 4 9) => (1 5 4 2 6 8 7 3 9)

此外还有值编码（value encoding）和树编码（tree encoding）等，具体例子可以参考这个链接： http://obitko.com/tutorials/genetic-algorithms/encoding.php

在实际的遗传算法中，往往会保留上一代中的少数几个精英（elite），即将上一代population中适应度最好的几个染色体加入到后代的poulation中，同时去除后代population中适应度最差的几个染色体。通过这个策略，如果在某次迭代中产生了最优解，则最优解能够一直保留到迭代结束。

用GA求函数最小值的demo code： https://github.com/JiaxYau/GA_test

参考资料 ：

[1] Introction to Genetic Algorithm, http://obitko.com/tutorials/genetic-algorithms/index.php

[2] Holland J H. Adaption in natural and artificial systems

❷ 遗传算法精英保留策略

我个人认为。直接复制本代的最优解到下一代的这种方法虽然会有益于形成较优解，但是违背了遗传规律。个人见解，哈哈。

❸ 遗传算法的基本原理

遗传算法的基本原理和方法

一、编码

编码：把一个问题的可行解从其解空间转换到遗传算法的搜索空间的转换方法。

解码（译码）：遗传算法解空间向问题空间的转换。

二进制编码的缺点是汉明悬崖（Hamming Cliff），就是在某些相邻整数的二进制代码之间有很大的汉明距离，使得遗传算法的交叉和突变都难以跨越。

格雷码（Gray Code）：在相邻整数之间汉明距离都为1。

（较好）有意义的积木块编码规则：所定编码应当易于生成与所求问题相关的短距和低阶的积木块；最小字符集编码规则，所定编码应采用最小字符集以使问题得到自然的表示或描述。

二进制编码比十进制编码搜索能力强，但不能保持群体稳定性。

动态参数编码（Dynamic Paremeter Coding）：为了得到很高的精度，让遗传算法从很粗糙的精度开始收敛，当遗传算法找到一个区域后，就将搜索现在在这个区域，重新编码，重新启动，重复这一过程，直到达到要求的精度为止。

编码方法：

1、二进制编码方法

缺点：存在着连续函数离散化时的映射误差。不能直接反映出所求问题的本身结构特征，不便于开发针对问题的专门知识的遗传运算算子，很难满足积木块编码原则

2、格雷码编码滚如：连续的两个整数所对应的编码之间仅仅只有一个码位是不同的，其余码位都相同。

3、浮点数编码方法：个体的每个基因值用某一范围内的某个浮点数来表示，个体的编码长度等于其决策变量的位数。

4、各参数级联编码：对含有多个变量的个体进行编码的方法。通常将各个参数分别以某种编码方法进行编码，然后再将他们的编码按照一定顺序连接在一起就组成了表示全部参数的个体编码。

5、多参数交叉编码：将各个参数中起主要作用的码位集中在一起，这样它们就不易于被遗传算子破坏掉。

评估编码的三个规范：完备性、健全性、非冗余性。

二、选择

遗传算法中的选择操作就是用来确定如何从父代群体中按某种方法选取那些个体遗传到下一代群体中的一种遗传运算，用来确定重组或交叉个体，以及被选个体将产生多少个子代个体。

常用的选择算子：

1、轮盘赌选择（Roulette Wheel Selection）：是一种回放式随机采样方法。每个个体进入下一代的概率等于它的适应度值与整个种群中个体适应度值和的比例。选择误差较大。

2、随机竞争选择（Stochastic Tournament）：每次按轮盘赌选择一对个体，然后让这两个个体进行竞争，适应度高的被选中，如此反复，直到选满为止。

3、最佳保留选择：首先按轮盘赌选择方法执行遗传算法的选择操作，然后将当前群体中适应度最高的大宏启个体结构完整地复制到下一代群体中。

4、无回放随机选择（也叫期望值选择Excepted Value Selection）：根据每个个体在下一代群体中的生存期望来进行随机选择运算。方法如下

（1）计算群体中每个个体在下一代群体中的生存期望数目N。

（2）若某一个体被选中参与交叉运算，则它在下一代中的生存期望数目减去0.5，若某一个体未被选中参与交叉运算，则它绝配在下一代中的生存期望数目减去1.0。

（3）随着选择过程的进行，若某一个体的生存期望数目小于0时，则该个体就不再有机会被选中。

5、确定式选择：按照一种确定的方式来进行选择操作。具体操作过程如下：

（1）计算群体中各个个体在下一代群体中的期望生存数目N。

（2）用N的整数部分确定各个对应个体在下一代群体中的生存数目。

（3）用N的小数部分对个体进行降序排列，顺序取前M个个体加入到下一代群体中。至此可完全确定出下一代群体中M个个体。

6、无回放余数随机选择：可确保适应度比平均适应度大的一些个体能够被遗传到下一代群体中，因而选择误差比较小。

7、均匀排序：对群体中的所有个体按期适应度大小进行排序，基于这个排序来分配各个个体被选中的概率。

8、最佳保存策略：当前群体中适应度最高的个体不参与交叉运算和变异运算，而是用它来代替掉本代群体中经过交叉、变异等操作后所产生的适应度最低的个体。

9、随机联赛选择：每次选取几个个体中适应度最高的一个个体遗传到下一代群体中。

10、排挤选择：新生成的子代将代替或排挤相似的旧父代个体，提高群体的多样性。

三、交叉

遗传算法的交叉操作，是指对两个相互配对的染色体按某种方式相互交换其部分基因，从而形成两个新的个体。

适用于二进制编码个体或浮点数编码个体的交叉算子：

1、单点交叉（One－pointCrossover）：指在个体编码串中只随机设置一个交叉点，然后再该点相互交换两个配对个体的部分染色体。

2、两点交叉与多点交叉：

（1）两点交叉（Two－pointCrossover）：在个体编码串中随机设置了两个交叉点，然后再进行部分基因交换。

（2）多点交叉（Multi－pointCrossover）

3、均匀交叉（也称一致交叉，UniformCrossover）：两个配对个体的每个基因座上的基因都以相同的交叉概率进行交换，从而形成两个新个体。

4、算术交叉（ArithmeticCrossover）：由两个个体的线性组合而产生出两个新的个体。该操作对象一般是由浮点数编码表示的个体。

四、变异

遗传算法中的变异运算，是指将个体染色体编码串中的某些基因座上的基因值用该基因座上的其它等位基因来替换，从而形成以给新的个体。

以下变异算子适用于二进制编码和浮点数编码的个体：

1、基本位变异（SimpleMutation）：对个体编码串中以变异概率、随机指定的某一位或某几位仅因座上的值做变异运算。

2、均匀变异（UniformMutation）：分别用符合某一范围内均匀分布的随机数，以某一较小的概率来替换个体编码串中各个基因座上的原有基因值。（特别适用于在算法的初级运行阶段）

3、边界变异（BoundaryMutation）：随机的取基因座上的两个对应边界基因值之一去替代原有基因值。特别适用于最优点位于或接近于可行解的边界时的一类问题。

4、非均匀变异：对原有的基因值做一随机扰动，以扰动后的结果作为变异后的新基因值。对每个基因座都以相同的概率进行变异运算之后，相当于整个解向量在解空间中作了一次轻微的变动。

5、高斯近似变异：进行变异操作时用符号均值为P的平均值，方差为P2的正态分布的一个随机数来替换原有的基因值。

❹ 遗传算法第一次提出来是在什么文献中

《搜索、优化和机器学习中的遗传算法》。

遗传算法（Genetic Algorithm，GA）最早是由美国的 John holland于20世纪70年代提出,该算法是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。

遗传算法的基本运算过程如下：

（1）初始化：设置进化代数计数器t=0，设置最大进化代数T，随机生成M个个体作为初始群体P(0)。

（2）个体评价：计算群体P(t)中各个个体的适应度。

（3）选择运算：将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。

（4）交叉运算：将交叉算子作用于群体。遗传算法中起核心作用的就是交叉算子。

（5）变异运算：将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值作变动。群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t+1)。

（6）终止条件判断：若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出，终止计算。

❺ 遗传算法

遗传算法是从代表问题可能潜在解集的一个种群开始的，而一个种群则由经过基因编码的一定数目的个体组成。每个个体实际上是染色体带有特征的实体。染色体作为遗传物质的主要载体，即多个基因的集合，其内部表现（即基因型）是某种基因的组合，它决定了个体形状的外部表现，如黑头发的特征是由染色体中控制这一特征的某种基因组合决定的。因此，在一开始需要实现从表现型到基因型的映射即编码工作。由于仿照基因编码的工作很复杂，我们往往进行简化，如二进制编码。初始种群产生之后，按照适者生存和优胜劣汰的原理，逐代（generation）演化产生出越来越好的近似解。在每一代，根据问题域中个体的适应度（fitness）大小挑选（selection）个体，并借助于自然遗传学的遗传算子（genetic operators）进行组合交叉（crossover）和变异（mutation），产生出代表新的解集的种群。这个过程将导致种群自然进化一样的后生代种群比前代更加适应环境，末代种群中的最优个体经过编码（decoding），可以作为问题近似最优解。

5.4.1 非线性优化与模型编码

假定有一组未知参量

x_i（i=1，2，…，M）

构成模型向量m，它的非线性目标函数为Φ（m）。根据先验知识，对每个未知量都有上下界α_i及b_i，即α_i≤x≤b_i，同时可用间隔d_i把它离散化，使

d_i=（b_i-α_i）/N （5.4.1）

于是，所有允许的模型m将被限制在集

x_i=α_i+jd_i（j=0，1，…，N）（5.4.2）

之内。

通常目标泛函（如经济学中的成本函数）表示观测函数与某种期望模型的失拟，因此非线性优化问题即为在上述限制的模型中求使Φ（m）极小的模型。对少数要求拟合最佳的问题，求目标函数的极大与失拟函数求极小是一致的。对于地球物理问题，通常要进行杀重离散化。首先，地球模型一般用连续函数表示，反演时要离散化为参数集才能用于计算。有时，也将未知函数展开成已知基函数的集，用其系数作为离散化的参数集x_i，第二次离散化的需要是因为每一个未知参数在其变化范围内再次被离散化，以使离散模型空间最终包含着有限个非线性优化可选择的模型，其个数为

地球物理数据处理教程

其中M为未知参数x_i的个数。由此式可见，K决定于每个参数离散化的间隔d_i及其变化范围（α_i，b_i），在大多数情况下它们只能靠先验知识来选择。

一般而言，优化问题非线性化的程度越高，逐次线性化的方法越不稳定，而对蒙特卡洛法却没有影响，因为此法从有限模型空间中随机地挑选新模型并计算其目标函数 Φ（m）。遗传算法与此不同的是同时计算一组模型（开始时是随机地选择的），然后把它进行二进制编码，并通过繁殖、杂交和变异产生一组新模型进一步有限的模型空间搜索。编码的方法可有多种，下面举最简单的例说明之，对于有符号的地球物理参数反演时的编码方式一般要更复杂些。

假设地球为有三个水平层的层次模型，含层底界面深度h_j（j=1，2，3）及层速度v_j（j=1，2，3）这两组参数。如某个模型的参数值为（十进制）：

h₁=6，h₂=18，h₃=28，单位为10m

v₁=6，v₂=18，v₃=28，单位为 hm/s

按正常的二进制编码法它们可分别用以下字符串表示为：

地球物理数据处理教程

为了减少字节，这种编码方式改变了惯用的单位制，只是按精度要求（深度为10m，波速为hm/s）来规定参数的码值，同时也意味着模型空间离散化间距d_i都规格化为一个单位（即10m，或hm/s）。当然，在此编码的基础上，还可以写出多种新的编码字符串。例如，三参数值的对应字节顺序重排，就可组成以下新的二进制码串：

地球物理数据处理教程

模型参数的二进制编码是一种数学上的抽象，通过编码把具体的非线性问题和生物演化过程联系了起来，因为这时形成的编码字符串就相当于一组遗传基因的密码。不仅是二进制编码，十进制编码也可直接用于遗传算法。根据生物系统传代过程的规律，这些基因信息将在繁殖中传到下一带，而下一代将按照“适者生存”的原则决定种属的发展和消亡，而优化准则或目标函数就起到了决定“适者生存”的作用，即保留失拟较小的新模型，而放弃失拟大的模型。在传带过程中用编码表示的基因部分地交合和变异，即字符串中的一些子串被保留，有的改变，以使传代的过程向优化的目标演化。总的来说，遗传算法可分为三步：繁殖、杂交和变异。其具体实现过程见图5.8。

图5.8 遗传算法实现过程

5.4.2 遗传算法在地震反演中的应用

以地震走时反演为例，根据最小二乘准则使合成记录与实测数据的拟合差取极小，目标函数可取为

地球物理数据处理教程

式中：T_i，0为观测资料中提取出的地震走时；T_i，s为合成地震或射线追踪算出的地震走时；ΔT为所有合成地震走时的平均值；N_A为合成地震数据的个数，它可以少于实测T_i，0的个数，因为在射线追踪时有阴影区存在，不一定能算出合成数据T_j，0。利用射线追踪计算走时的方法很多，参见上一章。对于少数几个波速为常数的水平层，走时反演的参数编码方法可参照上一节介绍的分别对深度和速度编码方法，二进制码的字符串位数1不会太大。要注意的是由深度定出的字符串符合数值由浅到深增大的规律，这一约束条件不应在杂交和传代过程中破坏。这种不等式的约束（h₁＜h₂＜h₃…）在遗传算法中是容易实现的。

对于波场反演，较方便的做法是将地球介质作等间距的划分。例如，将水平层状介质细分为100个等厚度的水平层。在上地壳可假定波速小于6400 m/s（相当于解空间的硬约束），而波速空间距为100m/s，则可将波速用100m/s为单位，每层用6位二进制字符串表示波速，地层模型总共用600位二进制字符串表示（l=600）。初始模型可随机地选取24～192个，然后通过繁殖杂交与变异。杂交概率在0.5～1.0之间，变异概率小于0.01。目标函数（即失拟方程）在频率域可表示为

地球物理数据处理教程

式中：P₀（ω_k，v_j）为实测地震道的频谱；ω_k为角频率；v_j为第j层的波速；P_s（ω_k，v_j）为相应的合成地震道；A（ω_k）为地震仪及检波器的频率滤波器，例如，可取

A（ω）=sinC⁴（ω/ω_N）（5.4.6）

式中ω_N为Nyquist频率，即ω_N=π/Δt，Δt为时间采样率。参数C为振幅拟合因子，它起到合成与观测记录之间幅度上匹配的作用。C的计算常用地震道的包络函数的平均比值。例如，设E［］为波动信号的包络函数，可令

地球物理数据处理教程

式中：t_max为包络极大值的对应时间；J为总层数。包络函数可通过复数道的模拟取得。

用遗传算法作波速反演时失拟最小的模型将一直保存到迭代停止。什么时候停止传代还没有理论上可计算的好办法，一般要显示解空间的搜索范围及局部密度，以此来判断是否可以停止传代。值得指出的是，由（5.4.4）和（5.4.5）式给出的目标函数对于有误差的数据是有问题的，反演的目标不是追求对有误差数据的完美拟合，而是要求出准确而且分辨率最高的解估计。

遗传算法在执行中可能出现两类问题。其一称为“早熟”问题，即在传代之初就随机地选中了比较好的模型，它在传代中起主导作用，而使其后的计算因散不开而白白浪费。通常，增加Q值可以改善这种情况。另一类问题正相反，即传相当多代后仍然找不到一个特别好的解估计，即可能有几百个算出的目标函数值都大同小异。这时，最好修改目标函数的比例因子（即（5.4.5）式的分母），以使繁殖概率P_s的变化范围加大。

对于高维地震模型的反演，由于参数太多，相应的模型字符串太长，目前用遗传算法作反演的计算成本还嫌太高。实际上，为了加快计算，不仅要改进反演技巧和传代的控制技术，而且还要大幅度提高正演计算的速度，避免对遗传算法大量的计算花费在正演合成上。

❻ 遗传算法的基本原理

遗传算法的基本原理是：

遗传算法是一种基于自然选择和群体遗传机理的搜索算法,它模拟了自然选择和自然遗传过程中的繁殖、杂交和突变现象，在利用遗传算法求解问题时，问题的每一个可能解都被编码成一个"染色体",即个体，若干个个体构成了群体(所有可能解)。在遗传算法开始时总是随机的产生一些个体(即初始解)，根据预定的目标函数对每一个个体进行评估，给出一个适应度值，基于此适应度值,选择一些个体用来产生下一代,选择操作体现了适者生存的原理，”好“的个体被用来产生下代，“坏”的个体则被淘汰，然后选择出来的个体经过交叉和变异，算子进行再组合生成新的一代，这一代的个体由于继承了上代的一些优良性状，因而在性能上上要优于上一代，这样逐步朝着最优解的方向进化，因此，遗传算法可以看成是一个由可行解组成的群体初步进化的过程。

导航:首页 > 源码编译 > 遗传算法原理及应用周玥

遗传算法原理及应用周玥

与遗传算法原理及应用周玥相关的资料