1. 为什么要进行知识建模,知识建模的方法是什么
1.为什么要进行知识建模:因为知识建模通常是知识的逻辑体系化过程,主要指应用知识来解决各种工程问题,自动完成工程中各种繁琐和重复的工作。
2.知识建模的方法:
一、主成分分析
降维,找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。
1. 对样本数据进行中心化处理;
2. 求样本协方差矩阵;
3. 对协方差矩阵进行特征值分解,将特征值从大到小排列;
4. 取特征值前 n 个最大的对应的特征向量 W1, W2, …, Wn ,这样将原来 m 维的样本降低到 n 维。
通过 PCA ,就可以将方差较小的特征给抛弃,这里,特征向量可以理解为坐标转换中新坐标轴的方向,特征值表示在对应特征向量上的方差,特征值越大,方差越大,信息量也就越大。这也是为什么选择前 n 个最大的特征值对应的特征向量,因为这些特征包含更多重要的信息。
PCA 是一种线性降维方法,这也是它的一个局限性。不过也有很多解决方法,比如采用核映射对 PCA 进行拓展得到核主成分分析(KPCA),或者是采用流形映射的降维方法,比如等距映射、局部线性嵌入、拉普拉斯特征映射等,对一些 PCA 效果不好的复杂数据集进行非线性降维操作。
二、线性判别分析:还需要一个投影方向,适合带类别信息。
三、独立成分分析:PCA特征转换降维,提取的是不相关的部分,ICA独立成分分析,获得的是相互独立的属性。ICA算法本质寻找一个线性变换 z = Wx,使得 z 的各个特征分量之间的独立性最大。
四、随机森林:集成思想,涉及到决策树和集成学习,将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器。
随机森林的既可以用于回归也可以用于分类任务,并且很容易查看模型的输入特征的相对重要性。随机森林算法被认为是一种非常方便且易于使用的算法,因为它是默认的超参数通常会产生一个很好的预测结果。超参数的数量也不是那么多,而且它们所代表的含义直观易懂。随机森林有足够多的树,分类器就不会产生过度拟合模型。由于使用大量的树会使算法变得很慢,并且无法做到实时预测。一般而言,这些算法训练速度很快,预测十分缓慢。越准确的预测需要越多的树,这将导致模型越慢。在大多数现实世界的应用中,随机森林算法已经足够快,但肯定会遇到实时性要求很高的情况,那就只能首选其他方法。当然,随机森林是一种预测性建模工具,而不是一种描述性工具。也就是说,如果您正在寻找关于数据中关系的描述,那建议首选其他方法。
五、FP-growth算法:FP代表频繁模式(Frequent Pattern)。
这里有几点需要强调一下:
第一,FP-growth算法只能用来发现频繁项集,不能用来寻找关联规则。
第二,FP-growth算法发现频繁集的效率比较高,Apriori算法要对于每个潜在的频繁项集都会扫描数据集来判定是否频繁,FP-growth算法只需要对数据集进行两次扫描。这种算法的执行速度要快于Apriori,通常性能要好两个数量级以上。
第三,FP-growth算法基于Apriori算法构建,在完成相同任务的时候采用了一些不同技术。
发现频繁项集的基本过程:
1、构建FP树
2、从FP树中挖掘频繁项集
优点:一般要快于Apriori
缺点:实现比较困难,在某些数据集上性能会下降。
适用数据类型:标称型数据。
六、粒子群算法:优化、最优解
七、灵敏度分析:线性规划问题
八、层次分析法:主要用于决策、确定权重
九、模拟退火算法:在解空间随机寻找目标函数的全局最优解
十、遗传算法:最优解,将方程求解问题转化为生存问题。
十一、几种问题:
P问题:P类问题就是所有复杂度为多项式时间的问题的集合。
NP问题:可以在多项式时间内验证一个解是否正确的问题称为NP问题。(它包括P问题)
十二、机理分析法:机理分析是根据对现实对象特性的认识,分析其因果关系,找出反映内部机理的规律。机理分析建模常用:常微分方程、偏微分方程、逻辑方法、比例方法、代数方法
建立微分方程模型时应用已知物理定律,可事半功倍。也可利用平衡与增长式微元法或者分析法。
求解常微分方程模型的常用方法:微分方程的数值解、微分方程的定性分析。
常微分方程数值解的定义:
在生产和科研中所处理的微分方程往往很复杂,且大多得不出一般解。而实际问题中对初值问题的求解,一般是要求得到在若干个点上满足规定精确度的近似值,或者得到一个满足精确度要求的便于计算的表达式。
建立数值解法的一些途径:
Ø 用差商代替导数
Ø 使用数值积分
Ø 使用泰勒公式,以此方法为基础,有龙格-库塔法、线性多步法等方法。
Ø 数值公式的精度
欧拉法是一阶公式,改进的欧拉法是二阶公式.
龙格-库塔法有二阶公式和四阶公式.
线性多步法有四阶亚当斯外插公式和内插公式.
虽然动态过程的变化规律一般要用微分方程建立的动态模型来描述,但是对于某些实际问题,建模的主要目的并不是要寻求动态过程每个瞬时的性态,而是研究某种意义下稳定状态的特征,特别是当时间充分长以后动态过程的变化趋势。譬如在什么情况下描述过程的变量会越来越接近某些确定的数值,在什么情况下又会越来越远离这些数值 而导致过程不稳定。
为了分析这种稳定与不稳定的规律常常不需要求解微分方程,而可以利用微分方程稳定性理论,直接研究平衡状态的稳定性就行了。
十三、动态规划: 动态规划是用来解决多阶段决策过程最优化的一种数量方法。其特点在于,它可以把一个n 维决策问题变换为几个一维最优化问题,从而一个一个地去解决。
需指出:动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是一种算法。必须对具体问题进行具体分析,运用动态规划的原理和方法,建立相应的模型,然后再用动态规划方法去求解。
多阶段线性规划典型为:1、生产决策问题2、机器负荷分配问题
能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程,即具有无后效性的多阶段决策过程。
十四、有限差分方法:有限差分法求解流动控制方程的基本过程是:首先将求解区域划分为差分网格,用有限个网格点代替连续的求解域,将待求解的流动变量(如密度、速度等)存储在各网格点上,并将偏微分方程中的微分项用相应的差商代替,从而将偏微分方程转化为代数形式的差分方程,得到含有离散点上的有限个未知变量的差分方程组。求出该差分方程组的解,也就得到了网格点上流动变量的数值解。
十六、几种特征工程技巧:
(1) 数据分箱
(2) 独热编码
(3) 特征哈希
(4) 嵌套法
(5) 取对数
(6) 特征缩放与标准化
(7) 特征交互
2. 在神经网络算法当中提到的在线训练和离线训练分别是什么意思
在线训练的话数据是实时过来的。所采用的算法必须得考虑这种实时性。而离线的话数据都已得到,即不会随着时间的变化有新的数据到来