視覺碼生成演算法_各類場景應用中涉及的AI演算法匯總

『壹』短時記憶的編碼方式為什麼以聽覺編碼為主

短時記憶的的編碼方式可以分為聽覺編枯皮碼和視覺編碼，其中1964年Conrad對短時記憶的聽覺編碼的相關研究，結果發現聽覺編碼是記憶的一種有效方式。1969年，Posner等人對短時記憶的視覺編碼進行了研究，並認為某些短時記憶信息可以有視覺編碼和聽覺編碼兩個連續的階段，視覺編碼實為存在。相關研究表明造成學生對不同類別材料的記憶力差異是由記憶時的編碼方式與加工程度不同而引起的。短時記憶主要以聽覺編碼為主，長時記憶以視覺編碼為主。反應時: 信息加工理論認為~信息在腦內要經過一系列操作加工，這些操作加工有明確的先後次序，在不同的加工階段信息處於不同的狀態，而這些都是自愛時間上進行的的，其特徵必然能在反應時上表現出來。因此不同的的心理操作按時間分布上的不同加以區分，反應時技術在認知心理學研究上具有重要的地位。
減數法: 減數法是一種用減法方法將反應時分解成各個成分，然後來分陵空析信息加工過程的方法。減數法的反應時實驗邏輯是如果一種作業包含另一種作業所沒有的某個特定的心理過程，且除此過程之外二者在其他方面均相同，那麼這兩種反應時的差即為此心理過程所需的時間。
短時記憶的編碼方式一直是一個重要的研究課題，從已有的研究可以看出，短時記憶不但有聽覺編碼，還有視覺編碼和語義編碼。本實驗主要討論的是短時記沒汪差憶的視覺編碼。波斯納(1967,1969)用減法反應時,字母匹配任務研究了短時記憶信息的編碼。實驗是讓被試辨認兩個字母是否相同。兩個字母都用大寫體,如A、A,叫做等同辨認;兩個字母一個用大寫體,一個用小寫體,如A、a,叫做同稱辨認(辨認前告訴被試不管字母是大寫還是小寫)。結果表明,在兩個字母同時呈現而

讓被試進行辨認的情況下,則等同辨認的反應時短;但若使兩個字母的呈現時間間隔1-2秒,則等同辨認的優熱趨於消失。這表明由瞬間記憶轉入短時記憶後,編碼的形狀(視覺)優勢已經讓位於語音(聽覺)了。這種情況似乎可以說明由主要為視覺的感覺記憶過渡到主要為聽覺的語詞記憶。

『貳』幼兒園視覺編碼意義

可以培養小朋友的注意力和邏輯思維能力。拆扮
小朋友山賣在游戲中會不由自主地提高注意力，而視覺編碼是記憶中具體事物的形象表徵，對邏輯思維這一方面有很大的作用。
視覺編碼是指在個體接收外界信息時，對外界信息的視覺刺激進行編碼，如：逗御逗對顏色、數字、字母、圖形等視覺刺激的信息進行編碼。

『叄』各類場景應用中涉及的AI演算法匯總

整理了各類場景應用中AI演算法

一、圖像CV

內容安全，目標檢測，圖像識別，智能視覺生產，圖像搜索，圖像分割，物體檢測，圖像分類，圖像標簽，名人識別，概念識別，場景識別，物體識別，場景分析，智能相冊，內容推薦，圖庫管理，網紅人物識別，明星人物識別，圖像搜索，商品圖片搜索，版權圖片搜索，通用圖片搜索，車牌識別，垃圾分類，車輛檢測，菜品識別，車型識別，犬類識別，實例分割，風格遷移，智能填充，智能識圖，拍照搜商品，精準廣告投放，電商導購，圖像分析，圖像理解，圖像處理，圖像質量評估，場景識別，物體識別，場所識別，圖像自訓練平台，圖像分類，目標檢測，圖像分割，關鍵點檢測，圖像生成，場景文字識別，度量學習，圖像識別，圖像比對，圖像分類使用手冊，圖像分類API文檔目標檢測使用手冊，目標檢測API文檔Logo檢測使用手冊，Logo檢測API文檔，通用圖片搜索，車牌識別，垃圾分類，車輛檢測，車型識別，犬類識別，實例分割，風格遷移，智能填充，車牌識別，相冊聚類，場景與物體識別，無限天空，圖像識別引擎，黃色圖片識別，暴力圖像識別，工業輪胎智能檢測，肋骨骨折識別，顯微識別，圖像處理，廣告識別，人臉演算法，人體演算法，圖像識別，圖像增強，OCR，圖像處理，ZoomAI，智能貼圖，智能製作，質量評價，圖像識別，智能鑒黃，圖像識別，實時手寫識別，唇語識別，通用文字識別，手寫文字識別，圖像技術，圖像識別，圖像審核，圖像搜索，圖像增強，圖像特效，車輛分析，圖像生成，繪畫機器人獨家，動漫化身獨家，像素風獨家，超清人像獨家，圖像融合，換臉技術，神奇變臉，圖像風格化，證件照生成，線稿圖像識別，寶寶檢測，圖像分類，圉像深度估計，天空分割，食物分割，貓狗臉技術，食物識別獨家，圖像美學評分，車輛分析，車型識別，車型識別（含指導價），車型識別（含配置參數），車標識別，人臉識別（活體），車牌識別，表情識別，安全帽識別，計算機影像，計算機視覺，聚焦光學字元識別、人臉識別、質檢、感知、理解、交互，圖像視頻分析，Logo檢測，內容審核，智能批改，筆記評估，思維導圖評估，物體檢測，物體識別。

二、人臉、體態、眼瞳、聲音、指紋

人臉分割人臉識別，無，人體分析HAS，識別人的年齡，性別，穿著信息，客流統計分析，智能客服，熱點區域分析，人體檢測，人臉口罩識別，人臉對比，人臉搜索，人臉檢測與屬性分析，人臉活體檢測，人體關鍵點檢測，行人重識別，細粒度人像分割，人像分割，人臉解析，3D人體姿態估計，人臉融合，人臉識別，換臉甄別，人臉支付，人臉核身，人像變換，人臉試妝，人臉融合，人體分析，手勢識別，人臉驗證與檢索，人臉比對，人臉比對sensetime，人臉水印照比對，靜默活體檢測，靜默活體檢測sensetime，人臉檢測和屬性分析，人臉特徵分析tuputech，配合式活體檢測，人臉安防，計算機視覺，智能應用服務，人臉查詢人臉分析人臉統計名單庫管理人臉布控，人臉應用，人體應用，人體查詢，車輛查詢車輛分析車輛統計車輛布控車輛名單庫管理，車輛應用，人臉圖像識別人體圖像識別車輛圖像識別，圖像識別，圖像比對，人臉比對，人體檢測，人臉口罩識別，人臉對比，人臉搜索，人臉檢測與屬性分析，人臉活體檢測，人體關鍵點檢測，行人重識別，細粒度人像分割，人像分割，人臉解析，3D人體姿態估計，人臉融合，人臉識別，人臉檢測，人臉比對，人臉搜索，人臉關鍵點，稠密關鍵點，人臉屬性，情緒識別，顏值評分，視線估計，皮膚分析，3D人臉重建，面部特徵分析人體識別，人體檢測，人體關鍵點，人體摳像，人體屬性，手勢識別人像處理，美顏美型，人臉融合，濾鏡，聲紋識別支付，語音合成，語音合成，聲紋識別，語音喚醒，人臉識別引擎，攝像頭人臉識別，圖片人臉檢測，身份識別，人臉識別，人臉屬性，人體識別，聲紋識別，衣服檢索及聚類，語音分析，聲紋識別，說話人歸檔，人臉和人體識別，人臉檢測，手勢識別，人臉與人體識別，人臉識別雲服務，人臉識別私有化，人臉離線識別SDK，人臉實名認證，人像特效，人體分析，人臉技不，皮膚分析獨家，頭部分割，宏觀人臉分析，人臉關鍵點檢測，微觀人臉分析獨家，頭發分析獨家，五官分割，頭發分割人體技術，人體外輪廓點檢測獨家，精細化人像摳圖，人體框檢測，肢體關鍵點檢測，人像分割，服飾識別，手勢識別，皮膚分割，人臉，說話人識別，人臉檢測識別，人臉1：1比對，人臉檢測，AI人臉/人形車輛，大數據人像圖片防偽，QoS保障，CDN，表情識別，舉手動作識別，人臉檢測，網路切片，邊緣計算，人臉分析，人臉檢測，人臉搜索，人體分析，手勢識別，著裝檢測，人臉識別，行為檢測，人臉識別，人形檢測，行為分析，人臉檢測，人臉跟蹤，人臉比對，人臉查找，人臉屬性分析，活體檢測，聲音指紋，聲紋識別。

三、視頻

視頻分割、視頻處理、視頻理解、智能視覺、多媒體，視頻內容分析，人體動作監控，視頻分類，智能交通，人/動物軌跡分析，目標計數，目標跟蹤，視頻編輯-，精彩片段提取，新聞視頻拆分，視頻摘要，視頻封面，視頻拆條，視頻標簽-，視頻推薦，視頻搜索，視頻指紋-，數字版權管理，廣告識別，視頻快速審核，視頻版權，視頻查重，視頻換臉，車輛解析，體育視頻摘要，視頻內容分析，顏色識別，貨架商品檢測，時尚搭配，危險動作識別，無，無，視頻，視頻換臉，車輛解析，體育視頻摘要，視頻內容分析，顏色識別，貨架商品檢測，時尚搭配，危險動作識別，菜品識別，視頻識別引擎，結腸息肉檢測，胃鏡評估系統，視頻標簽，場景識別，客流分析，手勢識別，視頻技術，短視頻標簽，視覺看點識別，動態封面圖自動生成，智能剪輯，新聞拆條，智能插幀，視頻技術，多模態媒資檢索公測中，媒體內容分析，媒體內容審核，視頻生成，視頻動作識別，

四、ocr文字識別

手寫識別，票據識別，通用文檔，通用卡證，保險智能理賠，財稅報銷電子化，證照電子化審批，票據類文字識別，行業類文字識別，證件類文字識別，通用類文字識別，通用文字識別，駕駛證識別，身份證識別，增值稅發票識別，行駛證識別，營業執照識別，銀行卡識別，增值稅發票核驗，營業執照核驗，智能掃碼，行業文檔識別，汽車相關識別，票據單據識別，卡證文字識別，通用文字識別，手寫文字識別，印刷文字識別，銀行卡識別，名片識別，身份證識別intsig，營業執照識別intsig，增值稅發票識別intsig，拍照速算識別，公式識別，指尖文字識別，駕駛證識別JD，行駛證識別JD，車牌識別JD，身份證識別，增值稅發票識別，營業執照識別，火車票識別，計程車發票識別，印刷文字識別（多語種），印刷文字識別（多語種）intsig內容審核，色情內容過濾，政治人物檢查，暴恐敏感信息過濾，廣告過濾，OCR自定義模板使用手冊，OCR自定義模板API文檔，通用文字識別，駕駛證識別，身份證識別，增值稅發票識別，行駛證識別，營業執照識別，銀行卡識別，身份證識別，駕駛證識別，行駛證識別，銀行卡識別，通用文字識別，自定義模板文字識別，文字識別引擎，身份證識別，圖片文字識別，通用文字識別，身份證識別，名片識別，光學字元識別服務，通用文字識別，手寫體文字識別，表格識別，整題識別（含公式），購物小票識別，身份證識別，名片識別，自定義模板文字識別，文字識別，通用文字識別，銀行卡識別，身份證識別，字幕識別，網路圖片識別，游戲直播關鍵字識別，新聞標題識別，OCR文字識別，通用場景文字識別，卡證文字識別，財務票據文字識別，醫療票據文字識別，汽車場景文字識別，教育場景文字識別，其他場景文字識別，iOCR自定義模板文字識別，通用類OCR，通用文本識別(中英)通用文本識別(多語言)通用表格識別，證照類OCR，身份證社保卡戶口本護照名片銀行卡結婚證離婚證房產證不動產證，車輛相關OCR，行駛證駕駛證車輛合格證車輛登記證，公司商鋪類OCR，商戶小票稅務登記證開戶許可證營業執照組織機構代碼證，票據類OCR，增值稅發票增值稅卷票火車票飛機行程單計程車發票購車發票智能技術，票據機器人證照機器人文本配置機器人表格配置機器人框選配置機器人，文字識別，行駛證識別，駕駛證識別，表單識別器，通用文本，財務票據識別，機構文檔識別，個人證件識別，車輛相關識別，通用表格，印章識別，財報識別，合同比對，識別文字識別，簽名比對，OCR識別，教育OCR，印刷識別，手寫識別，表格識別，公式識別，試卷拆錄

五、自然語言NPL

文本相似度，文本摘要，文本糾錯，中心詞提取，文本信息抽取，智能文本分類，命名實體，詞性標注，多語言分詞，NLP基礎服務，地址標准化，商品評價解析智能簡訊解析，機器閱讀理解，金融研報信息識別，法律案件抽取，行業問答推理，行業知識圖譜構建，文本實體關系抽取，搜索推薦，知識問答，短文本相似度，文本實體抽取，情感傾向分析，興趣畫像匹配，文本分類-多標簽，文本分類-單標簽，定製自然語言處理，語言生成，語言理解，自然語言處理基礎，文本摘要，數據轉文字，文本生成，智能問答系統，內容推薦，評價分析，文本分類，對話理解，意圖理解，情感分析，觀點抽取，中文分詞，短文本相似度，關鍵詞提取，詞向量，命名實體，識別依存，句法分析，情感分析，評論觀點抽取，短文本相似度，機器翻譯，詞法分析，詞義相似度，詞向量，句法分析，文本分類，短語挖掘，閑聊，文本流暢度，同義詞，聚類，語言模型填空，新聞熱詞生成，機器閱讀理解，商品信息抽取，詞法分析，情感分析，關鍵詞提取，用戶評論分析，資訊熱點挖掘，AIUI人機交互，文本糾錯，詞法分析，依存句法分析，語義角色標注，語義依存分析（依存樹），語義依存分析（依存圖），情感分析，關鍵詞提取，NLP能力生產平台，NLP基礎技術，中文詞法分析-LAC，詞向量—Word2vec，語言模型—Language_model，NLP核心技術，情感分析、文本匹配、自然語言推理、詞法分析、閱讀理解、智能問答，信息檢索、新聞推薦、智能客服，情感分析、文本匹配、自然語言推理、詞法分析、閱讀理解、智能問答，機器問答、自然語言推斷、情感分析和文檔排序，NLP系統應用，問答系統對話系統智能客服，用戶消費習慣理解熱點話題分析輿情監控，自然語言處理，文本分類使用手冊，文本分類API文檔，情感分析，評論觀點抽取，短文本相似度，機器翻譯，詞法分析，詞義相似度，詞向量，句法分析，文本分類，短語挖掘，閑聊，文本流暢度，同義詞，聚類，語言模型填空，新聞熱詞生成，機器閱讀理解，商品信息抽取智能創作，智能寫作，搭配短文，種草標題，賣點標題，社交電商營銷文案，自然語言處理能力，基礎文本分析，分詞、詞性分析技術，詞向量表示，依存句法分析，DNN語言模型，語義解析技術，意圖成分識別，情感分析，對話情緒識別，文本相似度檢測，文本解析和抽取技術，智能信息抽取，閱讀理解，智能標簽，NLG，自動摘要，自動寫文章，語言處理基礎技術，文本審核，情感分析，機器翻譯，智能聊天，自然語言，基於標題的視頻標簽，台詞看點識別，意圖識別，詞法分析，相關詞，輿情分析，流量預測，標簽技術，自然語言處理，語義對話，自然語言處理，車型信息提取，關鍵詞提取，語義理解，語義相似度，意圖解析，中文詞向量，表示依存，句法分析，上下文理解，詞法分析，意圖分析，情緒計算，視覺情感，語音情感，情感分析，沉浸式閱讀器，語言理解，文本分析，自然語言處理，在線語音識別，自然語言理解火速上線中，情感判別，語義角色標注，依存句法分析，詞性標注，實體識別，中文分詞，分詞，

6、知識圖譜

知識圖譜，葯學知識圖譜，智能分診，騰訊知識圖譜，無，葯學知識圖譜，智能分診，知識理解，知識圖譜Schema，圖資料庫BGraph，知識圖譜，語言與知識，語言處理基礎技術，語言處理應用技術，知識理解，文本審核，智能對話定製平台，智能文檔分析平台，智能創作平台，知識圖譜，實體鏈接，意圖圖譜，識別實體，邏輯推理，知識挖掘，知識卡片

7、對話問答機器人

智能問答機器人，智能語音助手，智能對話質檢，智能話務機器人，無，電話機器人，NeuHub助力京東智能客服升級，騰訊雲小微，智能硬體AI語音助手，對話機器人，無，問答系統對話系統智能客服，Replika對話技術，客服機器人，智能問答，智能場景，個性化回復，多輪交互，情緒識別，智能客服，金融虛擬客服，電話質檢，AI語音交互機器人，中移雲客服·智能AI外呼，人機對話精準語義分析

8、翻譯

協同翻譯工具平台，電商內容多語言工具，文檔翻譯，專業版翻譯引擎，通用版翻譯引擎，無，機器翻譯，無，機器翻譯，音視頻字幕平台，機器翻譯，機器翻譯niutrans，文本翻譯，語音翻譯，拍照翻譯，機器翻譯，機器翻譯，文本翻譯，語音翻譯，通用翻譯，自然語言翻譯服務，文本翻譯，圖片翻譯，語音翻譯，實時語音翻譯，文檔翻譯(開發版，機器翻譯，文本翻譯，語音翻譯，拍照翻譯，機器翻譯實時長語音轉寫，錄音文件長語音轉寫，翻譯工具，機器翻譯火速上線中

9、聲音

便攜智能語音一體機，語音合成聲音定製，語音合成，一句話識別，實時語音識別錄音文件識別，客服電話，語音錄入，語音指令，語音對話，語音識別，科學研究，安防監控，聲音分類，語音合成，語音識別，實時語音轉寫，定製語音合成，定製語音識別，語音合成，語音合成聲音定製，離線語音合成，短語音識別，錄音文件識別，聲紋識別，離線語音識別，實時語音識別，呼叫中心短語音識別，呼叫中心錄音文件識別，呼叫中心實時語音識別，語音識別，語音合成，聲紋識別，語音識別，語音聽寫，語音轉寫，實時語音轉寫，語音喚醒，離線命令詞識別，離線語音聽寫，語音合成，在線語音合成，離線語音合成，語音分析，語音評測，性別年齡識別，聲紋識別，歌曲識別，A.I.客服平台能力中間件，語音識別，語音交互技術，語音合成，語音合成聲音定製，離線語音合成，短語音識別，錄音文件識別，聲紋識別，離線語音識別，實時語音識別，呼叫中心短語音識別，呼叫中心錄音文件識別，呼叫中心實時語音識別，遠場語音識別，語音識別，一句話識別，實時語音識別，錄音文件識別，語音合成，實時語音識別，長語音識別，語音識別，語音合成，波束形成，聲源定位，去混響，降噪，回聲消除，分布式拾音，語音識別，語音喚醒，語音合成，聲紋識別，智能語音服務，語音合成，短語音識別，實時語音識別，語音理解與交互，離線喚醒詞識別，語音識別，一句話識別，實時語音識別，錄音文件識別，電話語音識別，語音喚醒，離線語音識別，離線命令詞識別，遠場語音識別，語音合成，通用語音合成，個性化語音合成，語音技術，短語音識別，實時語音識別，音頻文件轉寫，在線語音合成，離線語音合成，語音自訓練平台，語音交互，語音合成，語音識別，一句話識別，實時短語音識別，語音合成，語音喚醒，本地語音合成，語音翻譯，語音轉文本，短語音聽寫，長語音轉寫，實時語音轉寫，語音內容審核，會議超極本，語音交互技術，語音識別，語義理解，語音合成，音頻轉寫，音視頻類產品，語音通知/驗證碼，訂單小號，撥打驗證，點擊撥號，數據語音，統一認證，語音會議，企業視頻彩鈴，語音識別，語音文件轉錄，實時語音識別，一句話語音識別，語音合成，通用語音合成，個性化語音合成，語音評測，通用語音評測，中英文造句評測，在線語音識別，語音識別，語音喚醒，語音合成，語音合成，語音識別，語音聽寫，語音轉寫，短語音轉寫(同步)，語音識別，語音情感識別

十、數據挖掘AI硬體

演算法類型：包括二分類、多分類和回歸，精準營銷，表格數據預測，銷量預測，交通流量預測，時序預測，大數據，無，機器學習使用手冊，機器學習API文檔，大數據處理，大數據傳輸，數據工廠，大數據分析，數據倉庫，數據採集與標注，數據採集服務，數據標注服務，AI開發平台，全功能AI開發平台BML，零門檻AI開發平台EasyDL，AI硬體與平台，GPU雲伺服器，機器人平台，度目視頻分析盒子，度目AI鏡頭模組，度目人臉應用套件，度目人臉抓拍機，人臉識別攝像機，昆侖AI加速卡，智能預測，購車指數，數據科學虛擬機，平台效率，雲與AI，抗DDoS，天盾，網站漏洞掃描，網頁防篡改，入侵檢測防護，彈性雲伺服器，對象存儲服務，雲專線（CDA，AI計算機平台—360net深度學習基礎模型，AI演算法訓練適配主流AI框架

十一、其他

內容審核，智能鑒黃，特定人物識別，通用圖片審核，文本智能審核，廣告檢測，Logo檢測，商品理解，拍照購，商品圖片搜索，通用商品識別，疫情物資識別，酒標識別，細分市場劃分，品牌競爭力分析，老品升級，新品定製，商品競爭力分析，商品銷量預測，商品營銷，用戶評論佔比預測，商品命名實體識別，商品顏色識別，強化學習，智能地圖引擎，內容審核，智能鑒黃，特定人物識別，通用圖片審核，文本智能審核，廣告檢測，Logo檢測商品理解，拍照購，商品圖片搜索，通用商品識別，疫情物資識別，酒標識別，細分市場劃分，品牌競爭力分析，老品升級，新品定製，商品競爭力分析，商品銷量預測，商品營銷，用戶評論佔比預測，商品命名實體識別，商品顏色識別，個性化與推薦系統，推薦系統，輿情分析，輿情標簽，智慧教育，智能語音評測，拍照搜題，題目識別切分，整頁拍搜批改，作文批改，學業大數據平台，文檔校審系統，會議同傳系統，文檔翻譯系統，視頻翻譯系統，教育學習，口語評測，朗讀聽書，增強現實，3D肢體關鍵點SDK，美顏濾鏡SDK，短視頻SDK，基礎服務，私有雲部署，多模態交互，多模態情感分析，多模態意圖解析，多模態融合，多模態語義，內容審查器，Microsoft基因組學，醫學人工智慧開放平台，數據查驗介面，身份驗證（公安簡項），銀行卡驗證，發票查驗，設備接入服務Web/H5直播消息設備託管異常巡檢電話提醒，音視頻，視頻監控服務雲廣播服務雲存儲雲錄制，司乘體驗，智能地圖引擎，消息類產品，視頻簡訊，簡訊通知/驗證碼，企業掛機彩信，來去電身份提示，企業固話彩印，模板閃信，異網簡訊，內容生產，試卷拆錄解決方案，教學管理，教學質量評估解決方案，教學異常行為監測，授課質量分析解決方案，路況識別，人車檢測，視覺SLAM，高精地圖，免費SDK，智能診後隨訪管理，用葯管家，智能預問診，智能導診，智能自診，智能問葯，智能問答，裁判文書近義詞計算，法條推薦，案由預測，

『肆』人臉識別演算法是指什麼

本教程操作環境：windows7系統、Dell G3電腦。
人臉識別（Facial Recognition），就是通過視頻採集設備獲取用戶的面部圖像，再利用核心的演算法對其臉部的五官位置、臉型和角度進行計算分析，進而和自身資料庫里已有的範本進行比對，後判斷出用戶的真實身份。
人臉識別演算法是指在檢測到人臉並定位面部關鍵特徵點之後，主要的人臉區域就可以被裁剪出來，經過預處理之後，饋入後端的識別演算法。識別演算法要完成人臉特徵的提取，並與庫存的已知人臉進行比對，完成最終的分類。
人臉識別的演算法有 4 種：基於人臉特徵點的識別演算法、基於整幅人臉圖像的識別演算法、基於模板的識別演算法、利用神經網路進行識別的演算法。

人臉識別演算法的原理：
系統輸入一般是一張或者一系列含有未確定身份的人臉圖像，以及人臉資料庫中的若干已知身份的人臉圖象或者相應的編碼，而其輸出則是一系列相似度得分，表明待識別的人臉的身份。
人臉識別的三個經典演算法
1、Eigenfaces（特徵臉）演算法

Eigenfaces是在人臉識別的計算機視覺問題中使用的一組特徵向量的名余滑舉稱，豎碧Eigenfaces是基於PCA（主成分分析）的，所以學習Eigenfaces需要我們了解PCA的原理。
基本思想
主成分分析（PCA）是一種矩陣的壓縮演算法，在減少矩陣維數的同時盡可能的保留原矩陣的信息，簡單來說就是將 n×m的矩陣轉換成n×k的矩陣，僅保留矩陣中所存在的主要特性，從而可以大大節省空間和數據量。PCA的實現需要進行降維，也就是將矩陣進行變換，從更高的維度降到低的維度，然而PCA的降維離不開協方差矩陣。方差是描述一維數據樣本本身相對於均值的偏離程度，是一種用來度量兩個隨機變數關系的統計量，從角度來說，其夾角越小，值越大，方向越相近，也就是越正相關。協方差矩陣度量除了是兩個隨機變數的關系外，還是維度與維度之間的關系，而非樣本與樣本之間的關系。
學習一種新的東西，尤其是知識，我們需要了解知識中的思想。我在了解和學習Eigenface演算法時它的思想是圖像識別首先要選擇一個合適的子空間，將所有的圖像集中到這個子空間中，然後在這個子空間中衡量相似性或者進行分類學習，再講子空間變換到另一個空間中，這樣的作用一是同一個類別的圖像離得更近，二是不同的類別的圖像會離得比較遠；這樣經過線性分類分開的圖像在新空間就能容易分開。同時特徵臉技術會尋找人臉圖像分布的基本元素，即人臉圖像樣本集協方差矩陣的特徵向量，以此來表徵人臉圖像。人臉圖像的基本元素有很多，比如眼、面頰、唇等基本元素，這些特徵向量在特徵臉的圖像空間中對應生成的子空間被稱為子臉空間。
生成了子空間之後就要進行空間構造，那麼如何進行空間構造呢？首先要尋找人臉的共性，其次是要尋找個體與共性的差異，還有就是要明白共性其實是空間，個體就是向量。利用協方差矩陣把目標集中所有人臉圖像的特徵值進行分解，得到對應的特徵向量，這些特徵向量就是「特徵臉」。尋找特徵向量的特性，將其進行線性組合。在以每一個特徵子臉為基的空間，每個人臉就是一個點，這個點的坐標就是每一個人臉在每個特徵基下的的投影坐標。
Eigenfaces演算法過程
獲得人臉圖像數據，將每一個人臉圖像矩陣按行串成一維，每個人臉就是一個向量；
將M個人臉在對應維度上加起來，然後求平均得到「平均臉」；
將每個圖像都減去平均臉向量；
計算協方差矩陣；
運用Eigenfaces記性人臉識別；
演算法實踐過程;
訓練圖像
求出平均臉
獲得特徵子臉
進行圖像重構
尋找相似度高的人臉圖像。
2、FisherFace演算法
FisherFace是Fisher線性判別在人臉識別的應用。線性判別分析（LDA）演算法思想最早由英國統計與遺傳學家，現代統計科學的奠讓巧基人之一羅納德*費舍爾(Ronald)提出。LDA演算法使用統計學方法，嘗試找到物體間特徵的一個線性組合，在降維的同時考慮類別信息。通過該演算法得到的線性組合可以用來作為一個線性分類器或者實現降維。
基本思想
線性判別分析的基本思想是：將高維的模式樣本投影到低維最佳矢量空間，以達到抽取重要分類信息和壓縮特徵空間維度的效果，投影後保證模式樣本在新的子空間有最大的類間距離、最小的類內距離，即模式在該空間中有最佳的可分離性。理論和特徵臉里用到的Eigenfaces有相似之處，都是對原有數據進行整體降維映射到低維空間的方法，fisherfaces和Eigenfaces都是從數據整體入手而不同於LBP提取局部紋理特徵。
對降維後的樣本使用Fisher線性判別方法，確定一個最優的投影方向，構造一個一維的體征空間，將多維的人臉圖像投影到 fisherfaces特徵空間，利用類內樣本數據形成一組特徵向量，這組特徵向量就代表了人臉的特徵。
我們知道，該演算法是在樣本數據映射到另外一個特徵空間後，將類內距離最小化，類間距離最大化。LDA演算法可以用作降維，該演算法的原理和PCA演算法很相似，因此LDA演算法也同樣可以用在人臉識別領域。通過使用PCA演算法來進行人臉識別的演算法稱為特徵臉法，而使用LDA演算法進行人臉識別的演算法稱為費舍爾臉法。
LDA和PCA相比：
相同：1、在降維的時候，兩者都使用了矩陣的特徵分解思想；2、兩者都假設數據符合高斯分布。不同：1、LDA是有監督的降維方法，而PCA是無監督的。2、如果說數據是k維的，那麼LDA只能降到(k-1)維度，而PCA不受此限制。3、從數學角度來看，LDA選擇分類性能最好的投影方向，而PCA選擇樣本投影點具有最大方差的方向。Fisherfaces演算法和Eigenfaces演算法相比：
相同：兩者均可以對數據進行降維；兩者在降維時均使用了矩陣特徵分解的思想。
不同：Fisherfaces是有監督的降維方法，而是Eigenfaces無監督的降維方法；Fisherfaces除了可以用於降維，還可以用於分類。
值得一提的是，FisherFace演算法識別的錯誤率低於哈佛和耶魯人臉資料庫測試的Eigenfaces識別結果。
Fisherface演算法流程
獲得人臉圖像數據，然後求出人臉的均值。
觀察各個人臉的特徵值。
進行人臉鑒定，觀察人臉特徵，判斷是否是個人。
最後進行人臉識別。
3、LBPH（Local Binary Patter Histogram）演算法
Local Binary Patterns Histograms即LBP特徵的統計直方圖，LBPH將LBP（局部二值編碼）特徵與圖像的空間信息結合在一起。如果直接使用LBP編碼圖像用於人臉識別。其實和不提取LBP特徵區別不大，因此在實際的LBP應用中，一般採用LBP編碼圖像的統計直方圖作為特徵向量進行分類識別。
原始的LBP運算元定義為在33的窗口內，以窗口中心像素為閾值，將相鄰的8個像素的灰度值與其進行比較，若周圍像素值大於或等於中心像素值，則該像素點的位置被標記為1，否則為0。這樣，33鄰域內的8個點經比較可產生8位二進制數（通常轉換為十進制數即LBP碼，共256種），即得到該窗口中心像素點的LBP值，並用這個值來反映該區域的紋理特徵。
LBPH的維度：采樣點為8個，如果用的是原始的LBP或Extended LBP特徵，其LBP特徵值的模式為256種，則一幅圖像的LBP特徵向量維度為：64256=16384維，而如果使用的UniformPatternLBP特徵，其LBP值的模式為59種，其特徵向量維度為：6459=3776維，可以看出，使用等價模式特徵，其特徵向量的維度大大減少，這意味著使用機器學習方法進行學習的時間將大大減少，而性能上沒有受到很大影響。
基本思想
建立在LBPH基礎上的人臉識別法基本思想如下：首先以每個像素為中心，判斷與周圍像素灰度值大小關系，對其進行二進制編碼，從而獲得整幅圖像的LBP編碼圖像；再將LBP圖像分為個區域，獲取每個區域的LBP編碼直方圖，繼而得到整幅圖像的LBP編碼直方圖，通過比較不同人臉圖像LBP編碼直方圖達到人臉識別的目的，其優點是不會受到光照、縮放、旋轉和平移的影響。
LBPH演算法「人」如其名，採用的識別方法是局部特徵提取的方法，這是與前兩種方法的最大區別。
LBPH 演算法流程
LBP特徵提取：根據上述的均勻LBP運算元處理原始圖像；
LBP特徵匹配（計算直方圖）：將圖像分為若干個的子區域，並在子區域內根據LBP值統計其直方圖，以直方圖作為其判別特徵。
4、演算法的復現代碼
1）、EigenFaces演算法
#encoding=utf-8
import numpy as np
import cv2
import os

class EigenFace(object):
def __init__(self,threshold,dimNum,dsize):
self.threshold = threshold # 閾值暫未使用
self.dimNum = dimNum
self.dsize = dsize

def loadImg(self,fileName,dsize):
『『『
載入圖像，灰度化處理，統一尺寸，直方圖均衡化
:param fileName: 圖像文件名
:param dsize: 統一尺寸大小。元組形式
:return: 圖像矩陣
『『『
img = cv2.imread(fileName)
retImg = cv2.resize(img,dsize)
retImg = cv2.cvtColor(retImg,cv2.COLOR_RGB2GRAY)
retImg = cv2.equalizeHist(retImg)
# cv2.imshow(『img』,retImg)
# cv2.waitKey()
return retImg

def createImgMat(self,dirName):
『『『
生成圖像樣本矩陣，組織形式為行為屬性，列為樣本
:param dirName: 包含訓練數據集的圖像文件夾路徑
:return: 樣本矩陣，標簽矩陣
『『『
dataMat = np.zeros((10,1))
label = []
for parent,dirnames,filenames in os.walk(dirName):
# print parent
# print dirnames
# print filenames
index = 0
for dirname in dirnames:
for subParent,subDirName,subFilenames in os.walk(parent+』/』+dirname):
for filename in subFilenames:
img = self.loadImg(subParent+』/』+filename,self.dsize)
tempImg = np.reshape(img,(-1,1))
if index == 0 :
dataMat = tempImg
else:
dataMat = np.column_stack((dataMat,tempImg))
label.append(subParent+』/』+filename)
index += 1
return dataMat,label

def PCA(self,dataMat,dimNum):
『『『
PCA函數，用於數據降維
:param dataMat: 樣本矩陣
:param dimNum: 降維後的目標維度
:return: 降維後的樣本矩陣和變換矩陣
『『『
# 均值化矩陣
meanMat = np.mat(np.mean(dataMat,1)).T
print 『平均值矩陣維度』,meanMat.shape
diffMat = dataMat-meanMat
# 求協方差矩陣，由於樣本維度遠遠大於樣本數目，所以不直接求協方差矩陣，採用下面的方法
covMat = (diffMat.T*diffMat)/float(diffMat.shape[1]) # 歸一化
#covMat2 = np.cov(dataMat,bias=True)
#print 『基本方法計算協方差矩陣為』,covMat2
print 『協方差矩陣維度』,covMat.shape
eigVals, eigVects = np.linalg.eig(np.mat(covMat))
print 『特徵向量維度』,eigVects.shape
print 『特徵值』,eigVals
eigVects = diffMat*eigVects
eigValInd = np.argsort(eigVals)
eigValInd = eigValInd[::-1]
eigValInd = eigValInd[:dimNum] # 取出指定個數的前n大的特徵值
print 『選取的特徵值』,eigValInd
eigVects = eigVects/np.linalg.norm(eigVects,axis=0) #歸一化特徵向量
redEigVects = eigVects[:,eigValInd]
print 『選取的特徵向量』,redEigVects.shape
print 『均值矩陣維度』,diffMat.shape
lowMat = redEigVects.T*diffMat
print 『低維矩陣維度』,lowMat.shape
return lowMat,redEigVects

def compare(self,dataMat,testImg,label):
『『『
比較函數，這里只是用了最簡單的歐氏距離比較，還可以使用KNN等方法，如需修改修改此處即可
:param dataMat: 樣本矩陣
:param testImg: 測試圖像矩陣，最原始形式
:param label: 標簽矩陣
:return: 與測試圖片最相近的圖像文件名
『『『
testImg = cv2.resize(testImg,self.dsize)
testImg = cv2.cvtColor(testImg,cv2.COLOR_RGB2GRAY)
testImg = np.reshape(testImg,(-1,1))
lowMat,redVects = self.PCA(dataMat,self.dimNum)
testImg = redVects.T*testImg
print 『檢測樣本變換後的維度』,testImg.shape
disList = []
testVec = np.reshape(testImg,(1,-1))
for sample in lowMat.T:
disList.append(np.linalg.norm(testVec-sample))
print disList
sortIndex = np.argsort(disList)
return label[sortIndex[0]]

def predict(self,dirName,testFileName):
『『『
預測函數
:param dirName: 包含訓練數據集的文件夾路徑
:param testFileName: 測試圖像文件名
:return: 預測結果
『『『
testImg = cv2.imread(testFileName)
dataMat,label = self.createImgMat(dirName)
print 『載入圖片標簽』,label
ans = self.compare(dataMat,testImg,label)
return ans

if __name__ == 『__main__』:
eigenface = EigenFace(20,50,(50,50))
print eigenface.predict(『d:/face』,』D:/face_test/1.bmp』)2）、FisherFaces演算法
#encoding=utf-8
import numpy as np
import cv2
import os

class FisherFace(object):
def __init__(self,threshold,k,dsize):
self.threshold = threshold # 閾值，暫未使用
self.k = k # 指定投影w的個數
self.dsize = dsize # 統一尺寸大小

def loadImg(self,fileName,dsize):
『『『
載入圖像，灰度化處理，統一尺寸，直方圖均衡化
:param fileName: 圖像文件名
:param dsize: 統一尺寸大小。元組形式
:return: 圖像矩陣
『『『
img = cv2.imread(fileName)
retImg = cv2.resize(img,dsize)
retImg = cv2.cvtColor(retImg,cv2.COLOR_RGB2GRAY)
retImg = cv2.equalizeHist(retImg)
# cv2.imshow(『img』,retImg)
# cv2.waitKey()
return retImg

def createImgMat(self,dirName):
『『『
生成圖像樣本矩陣，組織形式為行為屬性，列為樣本
:param dirName: 包含訓練數據集的圖像文件夾路徑
:return: 包含樣本矩陣的列表，標簽列表
『『『
dataMat = np.zeros((10,1))
label = []
dataList = []
for parent,dirnames,filenames in os.walk(dirName):
# print parent
# print dirnames
# print filenames
#index = 0
for dirname in dirnames:
for subParent,subDirName,subFilenames in os.walk(parent+』/』+dirname):
for index,filename in enumerate(subFilenames):
img = self.loadImg(subParent+』/』+filename,self.dsize)
tempImg = np.reshape(img,(-1,1))
if index == 0 :
dataMat = tempImg
else:
dataMat = np.column_stack((dataMat,tempImg))
dataList.append(dataMat)
label.append(subParent)
return dataList,label

def LDA(self,dataList,k):
『『『
多分類問題的線性判別分析演算法
:param dataList: 樣本矩陣列表
:param k: 投影向量k的個數
:return: 變換後的矩陣列表和變換矩陣
『『『
n = dataList[0].shape[0]
W = np.zeros((n,self.k))
Sw = np.zeros((n,n))
Sb = np.zeros((n,n))
u = np.zeros((n,1))
N = 0
meanList = []
sampleNum = []

for dataMat in dataList:
meanMat = np.mat(np.mean(dataMat,1)).T
meanList.append(meanMat)
sampleNum.append(dataMat.shape[1])

dataMat = dataMat-meanMat
sw = dataMat*dataMat.T
Sw += sw
print 『Sw的維度』,Sw.shape

for index,meanMat in enumerate(meanList):
m = sampleNum[index]
u += m*meanMat
N += m
u = u/N
print 『u的維度』,u.shape

for index,meanMat in enumerate(meanList):
m = sampleNum[index]
sb = m*(meanMat-u)*(meanMat-u).T
Sb += sb
print 『Sb的維度』,Sb.shape

eigVals, eigVects = np.linalg.eig(np.mat(np.linalg.inv(Sw)*Sb))
eigValInd = np.argsort(eigVals)
eigValInd = eigValInd[::-1]
eigValInd = eigValInd[:k] # 取出指定個數的前k大的特徵值
print 『選取的特徵值』,eigValInd.shape
eigVects = eigVects/np.linalg.norm(eigVects,axis=0) #歸一化特徵向量
redEigVects = eigVects[:,eigValInd]
print 『變換矩陣維度』,redEigVects.shape

transMatList = []
for dataMat in dataList:
transMatList.append(redEigVects.T*dataMat)
return transMatList,redEigVects

def compare(self,dataList,testImg,label):
『『『
比較函數，這里只是用了最簡單的歐氏距離比較，還可以使用KNN等方法，如需修改修改此處即可
:param dataList: 樣本矩陣列表
:param testImg: 測試圖像矩陣，最原始形式
:param label: 標簽矩陣
:return: 與測試圖片最相近的圖像文件夾，也就是類別
『『『
testImg = cv2.resize(testImg,self.dsize)
testImg = cv2.cvtColor(testImg,cv2.COLOR_RGB2GRAY)
testImg = np.reshape(testImg,(-1,1))
transMatList,redVects = fisherface.LDA(dataList,self.k)
testImg = redVects.T*testImg
print 『檢測樣本變換後的維度』,testImg.shape
disList = []
testVec = np.reshape(testImg,(1,-1))
sumVec = np.mat(np.zeros((self.dsize[0]*self.dsize[1],1)))
for transMat in transMatList:
for sample in transMat.T:
disList.append( np.linalg.norm(testVec-sample))
print disList
sortIndex = np.argsort(disList)
return label[sortIndex[0]/9]

def predict(self,dirName,testFileName):
『『『
預測函數
:param dirName: 包含訓練數據集的文件夾路徑
:param testFileName: 測試圖像文件名
:return: 預測結果
『『『
testImg = cv2.imread(testFileName)
dataMat,label = self.createImgMat(dirName)
print 『載入圖片標簽』,label
ans = self.compare(dataMat,testImg,label)
return ans

if __name__==「__main__」:

fisherface = FisherFace(10,20,(20,20))
ans = fisherface.predict(『d:/face』,』d:/face_test/8.bmp』)
print ans3）、LBPH演算法
#encoding=utf-8
import numpy as np
import os
import cv2

class LBP(object):
def __init__(self,threshold,dsize,blockNum):
self.dsize = dsize # 統一尺寸大小
self.blockNum = blockNum # 分割塊數目
self.threshold = threshold # 閾值，暫未使用

def loadImg(self,fileName,dsize):
『『『
載入圖像，灰度化處理，統一尺寸，直方圖均衡化
:param fileName: 圖像文件名
:param dsize: 統一尺寸大小。元組形式
:return: 圖像矩陣
『『『
img = cv2.imread(fileName)
retImg = cv2.resize(img,dsize)
retImg = cv2.cvtColor(retImg,cv2.COLOR_RGB2GRAY)
retImg = cv2.equalizeHist(retImg)
# cv2.imshow(『img』,retImg)
# cv2.waitKey()
return retImg

def loadImagesList(self,dirName):
『『『
載入圖像矩陣列表
:param dirName:文件夾路徑
:return: 包含最原始的圖像矩陣的列表和標簽矩陣
『『『
imgList = []
label = []
for parent,dirnames,filenames in os.walk(dirName):
# print parent
# print dirnames
# print filenames
for dirname in dirnames:
for subParent,subDirName,subFilenames in os.walk(parent+』/』+dirname):
for filename in subFilenames:
img = self.loadImg(subParent+』/』+filename,self.dsize)
imgList.append(img) # 原始圖像矩陣不做任何處理，直接加入列表
label.append(subParent+』/』+filename)
return imgList,label

def getHopCounter(self,num):
『『『
計算二進制序列是否只變化兩次
:param num: 數字
:return: 01變化次數
『『『
binNum = bin(num)
binStr = str(binNum)[2:]
n = len(binStr)
if n = center)*(1擴展知識：人臉識別演算法研究的難點
人臉識別演算法研究已久，在背景簡單的情形下，大部分演算法都能很好的處理。但是，人臉識別的應用范圍頗廣，僅是簡單圖像測試，是遠遠不能滿足現實需求的。所以人臉識別演算法還是存在很多的難點。
光照
光照問題是機器視覺中的老問題，在人臉識別中的表現尤為明顯，演算法未能達到使用的程度。
姿態
與光照問題類似，姿態問題也是人臉識別研究中需要解決的一個技術難點。針對姿態的研究相對比較少，多數的人臉識別演算法主要是針對正面，或接近正面的人臉圖像，當發生俯仰或者左右側而比較厲害的情況下，人臉識別演算法的識別率也將會急劇下降。
遮擋
對於非配合情況下的人臉圖像採集，遮擋問題是一個非常嚴重的問題，特別是在監控環境下，往往被監控對象都會帶著眼鏡﹑帽子等飾物，使得被採集出來的人臉圖像有可能不完整，從而影響了後面的特徵提取與識別，甚至會導致人臉識別演算法的失效。
年齡變化
隨著年齡的變化，面部外觀也在變化，特別是對於青少年，這種變化更加的明顯。對於不同的年齡段，人臉識別演算法的識別率也不同。
圖像質量
人臉圖像的來源可能多種多樣，由於採集設備的不同，得到的人臉圖像質量也不同，特別是對於那些低解析度﹑雜訊大﹑質量差的人臉圖像如何進行有效的人臉識別是個需要關注的問題。同樣的，對於高分辨圖像，對人臉識別演算法的影響也需要進一步研究。
樣本缺乏
基於統計學習的人臉識別演算法是人臉識別領域中的主流演算法，但是統計學習方法需要大量的培訓。由於人臉圖像在高維空間中的分布是一個不規則的流行分布，能得到的樣本只是對人臉圖像空間中的一個極小部分的采樣，如何解決小樣本下的統計學習問題有待進一步的研究。
大量數據
傳統人臉識別演算法如PCA、LDA等在小規模數據中可以很容易進行訓練學習。但是對於大量數據，這些方法其訓練過程難以進行，甚至有可能崩潰。
大規模人臉識別
隨著人臉資料庫規模的增長，人臉演算法的性能將呈現下降。

『伍』短時記憶的編碼方式主要是

短時記憶的編碼方式主要是聽覺編碼和視覺編碼。
人們通過研究語音類似性對回憶效果的影響，證帆鬧實了語音聽覺編碼方式的存在。
短時記憶的編碼態卜罩以聽覺編碼為主，也存在視覺編碼和語義編碼。康拉德（Conrad）1964年實驗結果發現了，被試回憶由視覺呈現的刺激字母時，所發生的錯誤絕大多數是同音混淆。因此得出結論，短時記憶中存在聽覺編碼。即在短時記憶中，對刺激信息主要以聽覺形式進行編碼和儲存，即使刺激信息以視覺方式呈現，個體對視覺刺激進行加工處理時也會把它們轉換成聽覺代碼。波斯納（Posner）1969年用Aa實驗發現，被試對同形關系（AA）比同音關系（Aa）的字母的反應時要快，但這種同形關系的刺激信息具有的優勢，只有在依靠視覺編碼進行的信息加工中才會出現。因此得出推斷：在短時記憶的最初階段，存在視覺編碼過程，然後才向聽覺編碼過渡。短時記憶信息存儲的有效方法——復述。它可以防止短弊差時記憶中的信息受到無關刺激的干擾而發生遺忘。
更多職業教育培訓，請查看：https://wenda.hqwx.com/catlist-3.html/?utm_campaign=hehuoren

『陸』短時記憶的編碼方式是什麼

短時記憶也稱工作記憶，是信息加工系統的的核心。很多人知道短時記憶，但是很多人不知道短時記憶的編碼方式是什麼。短時記憶有它的編碼方式，你知道是什麼嗎?下面由我給你帶來關於短時記憶的編碼方式，希望對你有幫助!

方式1.聽覺編碼

Conrad(1964)的實驗為短時記憶的聽覺編碼提供了有力的證據。他把B、C、P、T、V這五個音近字母,和另外五個音近字母F、M、N、S、X,隨時混合,逐個用速示器呈現,每個呈現0.75秒,然後要求被試按原來呈現次序把各字母默寫出來,記不清時允許猜寫。實驗結果表明:各字母盡管是以視覺方式呈現的,但記憶中的混淆次數,將近80%發生在音近字母之間。實驗繼續下去,則進一步發現,各字母之間混淆的次數分配在視覺呈現和聽覺呈現兩種條件下相當一致,等級相關達0.64,因而證明短時記憶的編碼是以語音聽覺占優熱的。[9]Conrad認為短時記憶錯誤的產生是以聽覺特徵而不是以視覺特徵為基礎的。即使是視覺呈現的刺激材料,進入短時記憶時發生了形-音轉換,其編碼仍具有聽覺性質。

Posner.M.I(1967,1969)用減法反應時,字母匹配任務研究了短時記憶信息的編碼。實驗是讓被試辨認兩個字母是否相同。兩個字母都用大寫體,如A、A,叫做等同辨認;兩個字母一個用大寫體,一個用小寫體,如A、a,叫做同稱辨認(辨認前告訴被試不管字母是大寫還是小寫)。結果表明,在兩個字母同時呈現而讓被試進行辨認的情況下,則等同辨認的反應時短;但若使兩個字母的呈現時間間隔1-2秒,則等同辨認的優熱趨於消失。這表明由瞬間記憶轉入短時記憶後,編碼的形狀(視覺)優勢已經讓位於語音(聽覺)了。這桐碼種情況似乎可以說明由主要為視覺的感覺記憶過渡到主要為聽覺的語詞記憶。[

方式2.視覺編碼

Conrad(1964)的實驗有兩點值得考慮:一是認為短時記憶聽覺編碼的存在是以聽覺混淆為證據的,而聽覺混淆現象也可能是內部言語運動轎跡或發音的混淆所致,二是Conrad的實驗材料是有利於聲音編碼的英文字母,因而其短時記憶聽覺編碼的普遍性受到懷疑。而Posner(1969)的實驗也可以說明短時記憶的編碼有視覺和聽覺編碼兩個連續階段,至少在部分時間里,信息在短時記憶中是以視覺編碼的。

莫雷(1986)的實驗證明了漢字的短時記憶是以形狀編碼為主。實驗者設計了三種類型漢字:第一類型漢字字型較復雜,字義較常用,設想是相對有利於意義編碼而不利於形狀編碼;第二類型漢字字形較簡單,但字義較不常用,設想是相對有利於形狀編碼而不利於意義編碼;第三類型漢字則形狀較復雜字義較不常用,設想有利於聲音編碼。實驗用信號檢測論法研究,結果表明,從總的來看,各類型漢字的再認都是形狀噪音產生的干擾作用最大,據此推論,漢字的短時記憶主要採取局帆哪形狀編碼。

劉愛倫等(1989)的研究表明,視覺呈現方式下對漢字的回憶成績明顯優於聽覺呈現方式下的回憶成績,並且從聽覺呈現轉換成視覺呈現是,出現明顯的前攝抑制釋放。這意味著漢字短時記憶確實存在視覺編碼。王乃治(1993)通過對聽力正常人與聾人短時記憶的比較研究,結果顯示,從兩組被試對不同編碼維量被強化的相似性字表的短時記憶的比較研究,結果顯示,從兩組被試對不同編碼維量被強化的相似性定表的短時記憶獲得最上看,都顯示出形義兩給編碼量在短時記憶加工過程中的作用最強,而音碼的作用相對比較弱。其實一些研究(鄭涌,1991;彭聃齡等人,1985,1986)也都證明在短時記憶編碼過程中視覺編碼的存在。

方式3.語義編碼

早期研究認為語義編碼是長時記憶的本質特徵,但隨研究的深入,人們發現短時記憶也有語義編碼。Wickens(1970,1972)採用前攝抑制設計,若前後識記材料有意義聯系時(字母-字母),表現出前攝抑制的作用,而前後識記材料失去意義聯系時(字母-數字),則出現前攝抑制的釋放。Wickens還用了各種不同范疇刺激進行實驗,如字母數字、分類詞、感覺印象詞以及陰性陽性名詞,都獲得類似的結果。這表明短時記憶與長時記憶一樣,也有語義編碼。

國內學者的許多研究也證明了語義編碼的存在。喻伯林等(1986)採用中文語詞材料,在控制被試的輸入編碼條件下發現,語義信息也能和語音信息一樣在短時記憶中得到儲存和提取,而且語義編碼比語音編碼有更好的回憶成績。莫雷(1986)和王乃怡(1993)的研究也都反映出語義編碼在短時記憶中的作用。其它一些研究(黃英,1991;張武田,1990)也為短時記憶的語義編碼提供證據。

由此可見,短時記憶的編碼方式不只是聽覺編碼,還有視覺編碼和語義編碼。莫雷(1986)認為,短時記憶編碼可能是隨情境而不斷改變的一種策略,也有人(劉愛倫,1989;鄭涌,1991)認為,顯示通道(視、聽)通道改變也會引起短時記憶編碼方式的改變。

『柒』什麼是ADCT技術

10、靜態圖像壓縮標准JEPG

10.1、JEPG演算法概要

10.1.1、JEPG演算法的主要研究內容

多灰度連續色調靜態圖像壓縮編碼（即JPEG標准）是適用於彩色和單色多灰度或連續色彩靜止數字圖像的壓縮標注。它包括無損壓縮和基於離散餘弦變換和Huffman編碼的有損壓縮兩個部分，JEPG定義了兩種相互獨立的基本壓縮演算法：

·基於DCT的有失真壓縮演算法；
·基於空間線性預測技術（DPCM）的無失真壓縮演算法。

JEPG演算法主要存儲顏色變化，尤其是亮度變化，因為人眼對亮度變化要比對顏色變化更為敏感。只要壓縮後重建的圖像鍵念與原來圖像在亮度變化、顏色變化上相似，在人眼看來就是同樣的圖像。其原理是不重建原始畫面，而生成與原始畫面類似的圖像，丟掉那些未被注意到的顏色。

JEPG演算法與彩色空間無關，因此「RGB到YUV變換」和「YUV到RGB變換」不包含在JEPG演算法中。JEPG演算法處理的彩色圖像是單獨的彩色分量圖像，因此，它可以壓縮來自不同彩色空間的數據，如RGB，YcbCr和CMYK。

10.1.2、JEPG演算法框圖

壓縮的過程，如下圖所示：

JEPG壓縮編碼大致分為三個步驟：

·使用正向離散餘弦變換（forward discrete cosine transform，FDCT）把空間域表示的圖變換成頻率域表示的圖。肆敬
·使用加權函數對DCT系數進行量化，這個加權函數對於人的視覺系統視最佳的。
·使用Huffuman可變字長編碼器對量化系數進行編碼。

解壓縮的過程與壓縮編碼過程正好相反，如下圖所示：

10.2、JEPG演算法主要計算步驟

JEPG壓縮編碼演算法的主要計算步驟如下：

（1）、正向離散餘弦變換（FDCT）。
（2）、量化（quantization）。
（3）、Z字形編碼（zigzag scan）。
（4）、使用差分脈沖編碼調制（DPCM）對直流系數DC進行編碼。
（5）、使用行程長度編碼（run-length encoding,RLE）對交流系數（AC）進行編碼。
（6）、熵裂亮慎編碼（entropy coding）。

10.2.1、DCT變換（離散餘弦變換）

按序分塊，將圖像分成 8 * 8 的圖像子塊。對每一個子塊，進行DCT變換，得到DCT系數矩陣。DCT變換，即離散餘弦變化。DCT（x,y）= f（像素（x，y））。為了壓縮RGB彩色圖像，這項工作必須進行3遍，因為JPEG分別處理每個顏色成分。

10.2.2、量化

量化說起來很簡單，是一種降低整數精度的過程，因此就減少了存儲整數所需的位數。量化的過程：試圖確定什麼信息可以安全地消去，而沒有任何明顯的視覺保真度損失。DCT系數矩陣被量化以減少系數的精度，因此提高了壓縮率。

『捌』展現完美的自己英偉達AI演算法提升視頻會議體驗

受新冠疫情的影響，加速了各行業企業移動化辦公的需求，這期間，有大量的用戶和企業選擇了線上視頻會議。那麼，我們如何在視頻會議中展現更完美的自己呢？

近日，2021年國際計算機視覺與模式識別會議（CVPR 2021）正式召開。基於GAN研究的NVIDIA Maxine雲AI視頻流SDK現已在CVPR 2021上展出。讓我們看一看GAN研究是如何重塑視頻會議的呢？

起床、啟動筆記本電腦、打開網路攝像頭——得益於NVIDIA研究人員開發的AI技術，每次都能在視頻通話中展現完美的自己。

Vid2Vid Cameo是用於視頻會議的NVIDIA Maxine SDK背後的深度學習模型之一，它藉助生成式對抗網路(GAN)，僅用一張人物2D圖像即可合成逼真的人臉說話視頻。

要使用該模型，參與者需要在加入視頻通話之前提交一張參照圖像（真實照片或卡通頭像）。在會議期間，AI模型將捕捉每個人的實時動作，並將其應用於之前上傳的靜態圖像。

也就是說，上傳一張穿著正裝的照片之後，與會人員即使頭發凌亂、穿著睡衣，也能在通話中以穿著得體工作服裝的形象出現，因為AI可以將用戶的面部動作映射到參照照片上。如果主體向左轉，則技術可以調整視角，以便參與者看上去是直接面對攝像頭的。

除了可以幫助與會者展現出色狀態外，這項AI技術還可將視頻會議所需的帶寬降低10倍，從而避免抖動和延遲。它很快將在NVIDIA Video Codec SDK中作為AI Face Codec推出。

NVIDIA研究人員兼項目的聯合創作者Ming-Yu Liu表示：「許多人的互聯網帶寬有限，但仍然希望與朋友和家人進行流暢的視頻通話。這項基礎技術除了可以為他們提供幫助外，還可用於協助動畫師、照片編輯師和游戲開發者的工作。」

Vid2Vid Cameo本周發表於著名的國際計算機視覺與模式識別會議，這是NVIDIA在本次虛擬會議上發表的28篇論文之一。此外，它還在AI Playground上推出，在此所有人均可親身體驗我們的研究演示。

AI大出風頭

在一部經典盜賊電影（同時也是Netflix的熱門節目）的致謝中，NVIDIA研究人員將他們的人臉說話GAN模型迅速用於虛擬會議。演示重點介紹Vid2Vid Cameo的主要功能，包括面部重定向、動畫頭像和數據壓縮。

這些功能即將登陸NVIDIA Maxine SDK，為開發者提供經過優化的預訓練模型，以便在視頻會議和直播中實現視頻、音頻和增強現實效果。

開發者已經能採用Maxine AI效果，包括智能除噪、視頻升采樣和人體姿態估計。SDK支持免費下載，還可與NVIDIA Jarvis平台搭配用於對話式AI應用，包括轉錄和翻譯。

來自AI的問候

Vid2Vid Cameo只需兩個元素，即可為視頻會議打造逼真的AI人臉說話動態，這兩個元素分別是一張人物外貌照片和一段視頻流，它們決定了如何對圖像進行動畫處理。

模型基於NVIDIA DGX系統開發，使用包含18萬個高質量人臉說話視頻的數據集進行訓練。網路已掌握識別20個關鍵點，這些關鍵點可用於在沒有人工標注的情況下對面部動作進行建模。這些點對特徵（包括眼睛、嘴和鼻子）的位置進行編碼。

然後，它會從通話主導者的參照圖像中提取這些關鍵點，這些關鍵點可以提前發送給其他的視頻會議參與者，也可以重新用於之前的會議。這樣一來，視頻會議平台只需發送演講者面部關鍵點的移動情況數據，無需將某參與者的大量直播視頻流推送給其他人。

對於接收者一端，GAN模型會使用此信息，模擬參照圖像的外觀以合成一個視頻。

通過僅來回壓縮及發送頭部位置和關鍵點，而不是完整的視頻流，此技術將視頻會議所需的帶寬降低10倍，從而提供更流暢的用戶體驗。該模型可以進行調整，傳輸不同數量的關鍵點，以實現在不影響視覺質量的條件下，適應不同的帶寬環境。

此外，還可以自由調整所生成的人臉說話視頻的視角，可以從側邊輪廓或筆直角度，也可以從較低或較高的攝像頭角度來顯示用戶。處理靜態圖像的照片編輯者也可以使用此功能。

NVIDIA研究人員發現，無論是參照圖像和視頻來自同一個人，還是AI負責將某個人的動作轉移到另一個人的參照圖像，Vid2Vid Cameo均能生成更逼真、更清晰的結果，優於先進的模型。

後一項功能可將演講者的面部動作，應用於視頻會議中的數字頭像動畫，甚至可以應用於製作視頻游戲或卡通角色的逼真形象和動作。

Vid2Vid Cameo論文由NVIDIA研究人員Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰寫。NVIDIA研究團隊在全球擁有超過200名科學家，專注於AI、計算機視覺、自動駕駛汽車、機器人和圖形等領域。

我們要感謝演員Edan Moses ，他在Netflix上的《紙鈔屋》中擔任教授的英語配音，感謝他在以上我們最新AI研究的介紹視頻中做出的貢獻。

寫在最後，視頻會議現已經成為人們日常生活的一部分,能夠幫助數百萬人工作、學習、娛樂 ,甚至就醫。NVIDIA Maxine集成了先進的視頻、音頻和對話式AI功能,給那些幫助我們保持聯絡的視頻會議平台帶來效率突破。（陶然）

『玖』網頁圖形驗證碼如何比對

網頁圖形驗證碼的比對方法主要是基於人工智慧技術和計算機州芹視覺演算法，一般可以採取以下幾個步驟：

1. 預處理：首先需要對圖形驗證碼進行預處理，包括圖像去噪、二值化、字元分割等操作，以提高圖像的清晰度和可讀性。

2. 特徵提取：通過特定的計算機視覺演算法，從圖像中提取出與圖形驗證碼相關的特徵信息。一般來說，這些特徵信息可以包括字元輪廓、顏色、字元間距等方面的特徵。

3. 比對演算法：將識別到的圖形驗證碼特徵與已知的樣本進行比對，確定最符合的匹配結果。比對演算法可以採用傳統的模式匹配演算法，也可以使用基於機器學習或深度學虧頃習的演算法來實現。

4. 驗證碼校驗：在完成圖形驗證碼比對後，需要將識別結果返回給伺服器進行驗證。如果識別結果正確，則表示用戶輸入的驗證碼正確；如果識別結果錯誤，則需要提示用戶重新銷跡陸輸入驗證碼。

需要注意的是，為了防止惡意機器人攻擊，網站開發者可能會在驗證碼上加入干擾線條和干擾字元等措施，增加圖形驗證碼的難度，從而提高安全性。因此，在進行圖形驗證碼的比對時，需要綜合考慮多種因素，以確保識別結果的准確性

導航:首頁 > 源碼編譯 > 視覺碼生成演算法

視覺碼生成演算法

方式1.聽覺編碼

方式2.視覺編碼

方式3.語義編碼

與視覺碼生成演算法相關的資料