1. 為什麼要進行知識建模,知識建模的方法是什麼
1.為什麼要進行知識建模:因為知識建模通常是知識的邏輯體系化過程,主要指應用知識來解決各種工程問題,自動完成工程中各種繁瑣和重復的工作。
2.知識建模的方法:
一、主成分分析
降維,找到數據中的主成分,並利用這些主成分表徵原始數據,從而達到降維的目的。
1. 對樣本數據進行中心化處理;
2. 求樣本協方差矩陣;
3. 對協方差矩陣進行特徵值分解,將特徵值從大到小排列;
4. 取特徵值前 n 個最大的對應的特徵向量 W1, W2, …, Wn ,這樣將原來 m 維的樣本降低到 n 維。
通過 PCA ,就可以將方差較小的特徵給拋棄,這里,特徵向量可以理解為坐標轉換中新坐標軸的方向,特徵值表示在對應特徵向量上的方差,特徵值越大,方差越大,信息量也就越大。這也是為什麼選擇前 n 個最大的特徵值對應的特徵向量,因為這些特徵包含更多重要的信息。
PCA 是一種線性降維方法,這也是它的一個局限性。不過也有很多解決方法,比如採用核映射對 PCA 進行拓展得到核主成分分析(KPCA),或者是採用流形映射的降維方法,比如等距映射、局部線性嵌入、拉普拉斯特徵映射等,對一些 PCA 效果不好的復雜數據集進行非線性降維操作。
二、線性判別分析:還需要一個投影方向,適合帶類別信息。
三、獨立成分分析:PCA特徵轉換降維,提取的是不相關的部分,ICA獨立成分分析,獲得的是相互獨立的屬性。ICA演算法本質尋找一個線性變換 z = Wx,使得 z 的各個特徵分量之間的獨立性最大。
四、隨機森林:集成思想,涉及到決策樹和集成學習,將若干個弱分類器的分類結果進行投票選擇,從而組成一個強分類器。
隨機森林的既可以用於回歸也可以用於分類任務,並且很容易查看模型的輸入特徵的相對重要性。隨機森林演算法被認為是一種非常方便且易於使用的演算法,因為它是默認的超參數通常會產生一個很好的預測結果。超參數的數量也不是那麼多,而且它們所代表的含義直觀易懂。隨機森林有足夠多的樹,分類器就不會產生過度擬合模型。由於使用大量的樹會使演算法變得很慢,並且無法做到實時預測。一般而言,這些演算法訓練速度很快,預測十分緩慢。越准確的預測需要越多的樹,這將導致模型越慢。在大多數現實世界的應用中,隨機森林演算法已經足夠快,但肯定會遇到實時性要求很高的情況,那就只能首選其他方法。當然,隨機森林是一種預測性建模工具,而不是一種描述性工具。也就是說,如果您正在尋找關於數據中關系的描述,那建議首選其他方法。
五、FP-growth演算法:FP代表頻繁模式(Frequent Pattern)。
這里有幾點需要強調一下:
第一,FP-growth演算法只能用來發現頻繁項集,不能用來尋找關聯規則。
第二,FP-growth演算法發現頻繁集的效率比較高,Apriori演算法要對於每個潛在的頻繁項集都會掃描數據集來判定是否頻繁,FP-growth演算法只需要對數據集進行兩次掃描。這種演算法的執行速度要快於Apriori,通常性能要好兩個數量級以上。
第三,FP-growth演算法基於Apriori演算法構建,在完成相同任務的時候採用了一些不同技術。
發現頻繁項集的基本過程:
1、構建FP樹
2、從FP樹中挖掘頻繁項集
優點:一般要快於Apriori
缺點:實現比較困難,在某些數據集上性能會下降。
適用數據類型:標稱型數據。
六、粒子群演算法:優化、最優解
七、靈敏度分析:線性規劃問題
八、層次分析法:主要用於決策、確定權重
九、模擬退火演算法:在解空間隨機尋找目標函數的全局最優解
十、遺傳演算法:最優解,將方程求解問題轉化為生存問題。
十一、幾種問題:
P問題:P類問題就是所有復雜度為多項式時間的問題的集合。
NP問題:可以在多項式時間內驗證一個解是否正確的問題稱為NP問題。(它包括P問題)
十二、機理分析法:機理分析是根據對現實對象特性的認識,分析其因果關系,找出反映內部機理的規律。機理分析建模常用:常微分方程、偏微分方程、邏輯方法、比例方法、代數方法
建立微分方程模型時應用已知物理定律,可事半功倍。也可利用平衡與增長式微元法或者分析法。
求解常微分方程模型的常用方法:微分方程的數值解、微分方程的定性分析。
常微分方程數值解的定義:
在生產和科研中所處理的微分方程往往很復雜,且大多得不出一般解。而實際問題中對初值問題的求解,一般是要求得到在若干個點上滿足規定精確度的近似值,或者得到一個滿足精確度要求的便於計算的表達式。
建立數值解法的一些途徑:
Ø 用差商代替導數
Ø 使用數值積分
Ø 使用泰勒公式,以此方法為基礎,有龍格-庫塔法、線性多步法等方法。
Ø 數值公式的精度
歐拉法是一階公式,改進的歐拉法是二階公式.
龍格-庫塔法有二階公式和四階公式.
線性多步法有四階亞當斯外插公式和內插公式.
雖然動態過程的變化規律一般要用微分方程建立的動態模型來描述,但是對於某些實際問題,建模的主要目的並不是要尋求動態過程每個瞬時的性態,而是研究某種意義下穩定狀態的特徵,特別是當時間充分長以後動態過程的變化趨勢。譬如在什麼情況下描述過程的變數會越來越接近某些確定的數值,在什麼情況下又會越來越遠離這些數值 而導致過程不穩定。
為了分析這種穩定與不穩定的規律常常不需要求解微分方程,而可以利用微分方程穩定性理論,直接研究平衡狀態的穩定性就行了。
十三、動態規劃: 動態規劃是用來解決多階段決策過程最優化的一種數量方法。其特點在於,它可以把一個n 維決策問題變換為幾個一維最優化問題,從而一個一個地去解決。
需指出:動態規劃是求解某類問題的一種方法,是考察問題的一種途徑,而不是一種演算法。必須對具體問題進行具體分析,運用動態規劃的原理和方法,建立相應的模型,然後再用動態規劃方法去求解。
多階段線性規劃典型為:1、生產決策問題2、機器負荷分配問題
能用動態規劃方法求解的多階段決策過程是一類特殊的多階段決策過程,即具有無後效性的多階段決策過程。
十四、有限差分方法:有限差分法求解流動控制方程的基本過程是:首先將求解區域劃分為差分網格,用有限個網格點代替連續的求解域,將待求解的流動變數(如密度、速度等)存儲在各網格點上,並將偏微分方程中的微分項用相應的差商代替,從而將偏微分方程轉化為代數形式的差分方程,得到含有離散點上的有限個未知變數的差分方程組。求出該差分方程組的解,也就得到了網格點上流動變數的數值解。
十六、幾種特徵工程技巧:
(1) 數據分箱
(2) 獨熱編碼
(3) 特徵哈希
(4) 嵌套法
(5) 取對數
(6) 特徵縮放與標准化
(7) 特徵交互
2. 在神經網路演算法當中提到的在線訓練和離線訓練分別是什麼意思
在線訓練的話數據是實時過來的。所採用的演算法必須得考慮這種實時性。而離線的話數據都已得到,即不會隨著時間的變化有新的數據到來