① 【硬核技術文】研發績效,AI演算法的完美舞台
作者 | 胡豫隴
清華大學博士後
方雲智能團隊核心成員,AI演算法應用專家
方雲創始團隊具有深厚技術研發和企業管理經驗,依託長期行業積累和對數字化產業的深刻理解,以數字化方式評價研發團隊,驅動企業精確度量研發組織及個人的工作效能,合理調配研發資源。幫助技術決策者精確測評研發組織績效(便於向上匯報、平級溝通)和個人績效(便於向下管理)。回顧2020年度,我們在數據分析方面,基於實際用戶數據做了大量嘗試,取得了顯著成效,並將研究成果轉化為實際應用,深度提升了產品能力。
(一)演算法研究過程
演算法研究的基礎是數據,無論是基於數學和經驗知識的建模分析,還是基於統計學和機器學習的數據分析,都需要依託數據來開展。
演算法研究的第一步 ,我們建 立了自主的數據指標體系,並在這個指標體系基礎上,開展後續的研究。 指標體系由三級指標組成,一級為最基礎元數據,二級指標由一級指標計算得到、三級指標由二級指標和一級指標計算得到。一般來說,高級指標具有更高的信息密度,在進行信息表徵時,也能夠實現更加深度的信息傳達效果。但另一方面,數據分析時並不是選擇的高級指標越多,越有效果。而是要根據具體場景和演算法要求,選擇必要的各級指標,才能達到所需的分析效果。例如在kmeans演算法中,低級別指標反而具有更好的分類效果,而在SVM演算法中,則需要高級別指標。
研究的第二步,Kmeans。 我們鑒於元數據收集較為完整,同時數據量不是很大的情況,結合sklearn的演算法選擇引導圖,選擇了Kmeans演算法對員工的行為數據進行無監督學習聚類。
在選擇了若干基礎指標數據的同時,我們引入RFM思想,將員工在指定周期內的工作新鮮度(R)、工作頻次(F)和工作量(M)也作為聚類指標,一並用於演算法聚類,取得了十分明顯的分類效果。這里的核心在於我們不僅通過基礎指標評價了員工的工作結果數據,還通過RFM方法評價了員工的工作過程數據。將這兩類數據相結合做出的聚類,能夠很好的對員工進行分類表徵。分類結果的解讀可以直接根據指標的含義進行解釋。
研究第三步,SVM。 在聚類取得了較好的效果的基礎上,我們認為數據質量是可靠的,這相當於我們有了很好的客觀數據集,在此基礎上,我們提出由企業管理者對員工的表現進行打分,形成Label,這樣我們就得到了監督學習的訓練集,從而可以對員工行為進行監督學習下的預測。這項工作我們進行了多種嘗試,並最終通過特徵工程,選取了最為有效的15個指標,來作為員工行為的表徵指標。
這里我們回顧一下研究的歷程,以作為以後研究的經驗參考。SVM最初分析時,我們選擇了多於60個指標進行監督學習,但是學習效果並不好,類別間的區分度很低,這主要是由於過多的指標導致SVM演算法無法清楚地尋找到類別間的界線。所以我們通過一些特徵工程的方法,來進行降維。首先通過pearson相關度分析,我們將大量的指標根據關聯度,分為了24類,每一類中的指標都具有高度的相關性。因此可以在每一類指標中選出一個最具代表性的指標。這個選取過程由我們研究團隊根據實際情況,選擇了最具代表性的24個指標。其次,24個指標做SVM依然過多,我們用RFE演算法來判斷哪些指標對學習准確率影響最大,從而來選出最有效的那些指標。RFE過程中,我們使用Lasso、Ridge、Logistic、RFClassifier、linerSVM這5種演算法來作為篩選器,分別得到每一種演算法下最有效的特徵,進而,我們選取那些被更多演算法視為「有效」的特徵,例如任務平均完成時長,在5種篩選器種都被認為有效,那麼這個特徵對於我們做監督學習,就是一個很好的特徵。
此外,特徵篩選還應考慮一個問題,那就是篩選器和分類器是否要具有相同的演算法範式。例如,如果分類准備用SVM,那麼篩選器就業要選SVM類的。這樣才能保證篩選出來的特徵,在對應的分類演算法下是最為有效的。
研究第四步,數據分布擬合。 雖然在前三步研究中我們取得了一定的成效,但通過仔細檢驗已有的數據我們發現數據仍然存在兩方面問題,一是一些數據還是會存在漏填、錯填的問題,這屬於數據錯誤問題。二是在填報比較完整的數據中,存在一些極值數據,這些數據並不一定是錯誤數據,也有可能是個別員工行為表現異常導致。無論是哪種情況導致的數據異常(前提是已經預處理過缺失值),我們都可以通過擬合數據的分布,來判斷數據的分布情況,並尋找那些離群點。
在數據分布擬合研究中,我們通過對多種分布函數的嘗試,最終提出可通過正態分布、F分布、卡方分布、Gamma分布這四種常見的分布函數來擬合員工行為數據。以正態分布為例,如果我們擬合某個指標符合正態分布,那麼我們可以認為左右兩側5%區間以內的數據是常規行為,而兩側5%以外的數據是異常行為。並且通過進一步分析我們發現,一側5%到千分之一之間的數據,有時也屬於合理行為,而一側千分之一以外的數據,才最有可能稱為異常行為。通過這樣的分析,我們就可以通過數據分布擬合的方式,來發現員工的異常行為數據,並提出對應的管理策略。
此外,我們還曾提出在擬合時,要擬合顯著才能認為數據符合某一分布。但如果這樣判斷,我們發現有的數據並不滿足顯著的要求,但是數據確本身具有很強的實用信息,因此我們提出,不必以顯著為分析前提。而這其實也表明,數字化時代,要以更加符合實際的分析手段來分析數據,指導業務。而不用拘泥於過於學術或刻板的分析標准。
總結而言,在這四條主線研究思路下,我們對合作客戶的員工行為數據開展了特徵工程、非監督學習、監督學習、數據分布擬合等一系列標準的演算法研究。進而,結合實際應用場景,將研究結果轉化為了具體應用。接下來總結一下所形成的具體應用。
(二)產品轉化結果
研究成果向產品轉化,是一個不斷積累,由量變引起質變的過程。在最初的研究中,我們會在多個點上開展研究,但最終哪些研究成果能轉變為實際應用,是不確定的。而隨著研究的增多,能夠轉變為實際產品功能的成果就會顯現,這體現在三個層次。第一層次,一些好的研究點,一些對特定場景的解決方案,能夠轉變為實際產品功能。第二層次,單個功能點看似沒有太大價值,但是當出現某個典型功能點後,我們會意識到,其他看似無用的功能點,卻是對這個典型功能點的有效補充。第三層次,多個研究會呈現出一些共性,這些共性能夠轉化為產品思路和產品模式,這是要比單點產品功能更具價值的地方。這樣的由研究向產品轉化的思路,紮根實踐,又提煉總結,是具有很好的參考意義的。
我們在多個研究點探索後,不斷思考如何將研究點轉化為實用的功能,這既要結合客戶需求,也要結合我們自己對用戶痛點、產品功能的設計。2020年度的研究,我們始終在做的主線是員工行為畫像,無論是監督學習還是非監督學習,都是為了選定一套合適的指標和權重,來達成對員工的排名。在這個思路下,我們整合多種排名演算法,最終提出:由用戶自主選擇排名模式。在不同的排名模式下,我們為用戶提供不同的演算法或排名方式,這就相當於我們以後端智能化的方式,滿足了用戶在前端多樣化的需求。而這也正是數字化時代,產品以智能化方式,為用戶提供個性化功能的體現。具體而言,我們為用戶提供四種可選模式,來實現對員工排名。
模式一、行業最佳實踐 ,以成熟用戶已有案例,制定一套指標和相應權重。用戶選取想要的案例類別,我們根據其實際數據,計算相應排名結果。這里打分模式有兩種,一是產品自定義給出,二是根據已有打分排名,用Kmeans確認不同類別優秀度,回歸樹反推指標權重。
模式二:AI聚類演算法 ,系統對員工進行自然狀態進行三次或多次kmeans聚類,每次調整指標種類和權重,然後由客戶選擇一種符合預期的聚類結果,那麼客戶的選擇就對應了指標種類和權重。
模式三:AI監督學習 ,對員工進行kmeans聚類,得到n個類別,客戶對n類按優秀度進行排序打分,接下來,系統依據打分情況,通過RFE演算法(Estimator選用決策樹回歸或決策樹分類),判斷不同指標重要度。
模式四:AI輔助定製(純手動) ,由用戶指定n個指標,並為n個指標確定權重,系統對員工進行排名,可選擇演算法有:加權求和、RandomForestRegressor、GradientBoostingRegressor。備注,後兩種具體實現方式是,根據加權求和打分得到y,x就是輸入的加權指標。然後訓練得到模型。
方雲智能多種AI績效評價方法均已通過實踐驗證,並實現產品化。
(三) 演算法准確率分析
數據分析時結果一般需要有一定的准確度,才可以說演算法對問題實現了一定解決。在數字化轉型的過程中,我們不必以絕對的預測准確率來判斷演算法好壞。這是由於我們在評價員工行為時,訓練集標注或者人的認知,都是極具主觀性的,而且這種主觀性又是會動態變化的,所以演算法能夠捕捉到的,有時候也許是客觀規律,但有時候也許就只是管理者的一時情緒。我們評價演算法的好壞,應該從實踐出發,對於符合認知、規律的演算法是好演算法,但是能解釋或捕捉短期用戶態度的演算法,也是可靠的。具體而言,我們針對已有的研究,給出下述准確率總結。
一、Kmeans是非監督學習,無准確率,但可以闡述我們對老黃牛和南郭先生的發現,是符合管理常識的。
SVM預測,我們首先得到了一個關鍵結論,管理嚴格程度高、中、低,對應員工表現中、高、低。這一結論的得出是符合常識規律的,那麼我們也可以反推認為演算法是有效的。
二、根據對過去員工數據+label進行SVM訓練,我們預測未來的准確率最初僅為60%,但經過樣本篩選,參數調優後,准確率可達到93%。
三、數據合理性分析中,我們通過以不同的分布擬合員工行為數據,選出95%區間內的員工,再進一步選出95%到0.001之間的員工,准確選出數據出現問題的員工。具體實踐結果表明,我們確實捕捉到了行為極值點,也捕捉到了5%以外但行為合理的點。
(四)研究總結和下一步計劃
演算法研究、數據分析的目的,最終還是為了找到新的用戶需求,開發新的產品功能。第二部分中我們總結了由研究向產品實際功能轉化的思路。一是好的研究點直接轉變為實際產品功能。二是一些低價值的功能點支撐典型功能點後。三是研究體現出的共性思路,轉化為產品思路和產品模式。
接下來我們的研究也致力於從這三個方面來探索更多的產品功能和產品模式。目前提的主思路有:
一是將項目管理的知識和流程植入產品,幫助企業管理者簡單、高效的完成項目管理。這其中將人員動態分配到不同的任務中,就會是十分典型的一個功能。在此基礎上,員工行為的分析和排名就會成為很好的輔助功能,我們可以依據員工行為特點,將他們分配到不同情況的任務中。
二是深化單點功能。我們在SVM訓練模型時發現,每個月的模型放到下個月或者其他月份來預測,准確率不穩定。其中很可能的原因是每個月的評價標准有所波動。那我們就可以在長期數據上,對每個月都進行模型訓練,得到多個模型。在此基礎上,將未來一個月的數據放在過去多個月的模型上預測,這樣就會出現一個月的數據在多個月模型下評價各不相同的情況,這就能反應出每個月評價標準的波動情況。
三是產品模式的升級。我們可以採用輕量化前端,收集一些簡單必要的數據後,將復雜的分析都放在後端來實現。功能上的呈現就是,用戶在前端進行一些個性化的數據和模式選擇,系統能夠在後端為用戶進行多樣化的分析,呈現給用戶智能化的操作界面(如智能化流程、模板化流程)、分析結果(排名、雷達圖、行為空間映射等),甚至是客制化流程、數據,演算法,系統提供分析結果。
免費試用地址: FarCloud|方雲|方雲數據智能研發績效|30天提效30%
② 信也科技王春平:價值觀在前的人工智慧演算法發展
9月27日,由瑪娜數據基金會主辦的「促進人工智慧演算法性別平等」報告發布會暨政策研討會在上海舉行,聯合國婦女署駐華辦公室高級項目官員馬雷軍、上海市浦東新區婦女聯合會副主席國雲丹、瑪娜數據基金會秘書長張唯、瑪娜數據基金會課題組專家負責人周旅軍、專家況琨,以及小米集團 科技 委員會技術向善議題召集人朱汐、信也集團首席演算法科學家王春平、Thought Works(中國)數據智能團隊解決方案架構師任添石等各界嘉賓出席了本次會議,共同探討如何促進人工智慧演算法中的性別平等。
作為金融 科技 企業信也 科技 集團的代表,也是在人工智慧領域取得優秀成就的女性從業者,王春平博士在會上闡述了其對於人工智慧在研究、應用中對於數據倫理、性別平等的觀點與建議。
人工智慧時代加速,促進性別平等即發展大前提
人工智慧自1956年被提出以來,短短60餘年的時間中,這項科學技術的飛速發展給人類 社會 帶來了不小的變化。人工智慧演算法是以數學方式或計算機代碼表達的意見,由演算法模型和數據輸入決定著預測的後果。
隨著人工智慧時代的加速到來,人類將生活在一個演算法無所不在的世界,隨著演算法決策開始介入並主導人類 社會 事務,演算法對人類的生活和未來都將產生不可估量的影響。基於此,由演算法偏見可能帶來的倫理風險也開始引起人們重視。單就性別角度而言,由於目前人工智慧領域目前仍處於男性主導的狀況,使得人工智慧演算法在日常應用中不自覺就容易出現 「性別歧視「的爭議。
據當日發布的《促進人工智慧演算法性別平等》報告(後文簡稱《報告》)介紹,目前人工智慧演算法的諸多應用場景中均存在一定的性別歧視現象。以人工智慧開放平台為例,一張「端著水果籃的男性」圖片被AI人臉識別平台檢測為「女性」,單獨截出頭像卻能夠被檢測為「男性」。在就業場景中,2018年亞馬遜公司的自動招聘演算法傾向於給關鍵詞含「女」字的簡歷打低分,降低了女性工作申請成功率,最後棄用了該招聘演算法。
信也 科技 首席科學家王春平表示:「人工智慧演算法的基礎是數據,但在實際生活中因為種種原因,沉澱下來的很多數據分布是有偏的,從而可能將 社會 中的一些偏見滲透進演算法中。作為人工智慧演算法的女性從業者,我認為需要通過多種方式去消除這些偏見。」
消除偏見與歧視,數據演算法從業者新課題
2019年,國家新一代人工智慧治理專業委員會發布《新一代人工智慧治理原則——發展負責任的人工智慧》,提出了人工智慧治理的框架和行動指南,明確提出要在數據獲取、演算法設計、技術開發、產品研發和應用過程中消除偏見和歧視。該委員會近日又發布了《新一代人工智慧倫理規范》,第十三條特別強調避免偏見歧視,在數據採集和演算法開發中,加強倫理審查,充分考慮差異化訴求,避免可能存在的數據與演算法偏見,努力實現人工智慧系統的普惠性、公平性和非歧視性。
「演算法中存在性別歧視問題,主要源於訓練AI的數據集反映了人類 社會 存在的性別偏見,而演算法工程師對這一問題缺乏意識,未將解決性別偏見納入開發需求,從而使得演算法放大了性別歧視。「瑪娜數據基金會課題組專家況坤表示。
據《報告》中專題 社會 調研的數據顯示,58%的人工智慧演算法從業者不知道演算法當中存在的性別偏見問題,73%的從業者不知道存在專門針對女性的惡意演算法。從業者對演算法性別平等的意識及能力亟需提升。
王春平博士表示,「對於在人工智慧演算法中盡可能地促進性別平等,我們認為首先需要從研發者的意識與環境培養開始。比如在信也 科技 集團內部,我們有很多公司政策都在保證並促進不同性別員工得到平等的機會。比如說我們會有比較完善針對人工智慧領域或數字化應用相關的培訓課程,這些課程包含了業務場景、演算法學習、工程化落地,會開放給所有職位的員工,並且會盡可能地幫助公司內部對於人工智慧演算法有興趣的員工參與一些實驗性的創新項目,為其提供平等的崗位機會。我們認為保障女性員工獲得公平的職業機會,為演算法開發團隊營造沒有明顯兩性區分的環境,並有意識消除演算法工程師們的性別偏見,對於人工智慧演算法在應用中盡可能實現性別平等是有益的。」
商業與倫理的平衡,價值觀在前的人工智慧演算法未來
人工智慧演算法獨特的運行邏輯導致人們 社會 生活的結構性場景發生了重大變化,加劇了決策者與相對人之間的「數字鴻溝」,人工智慧演算法獨特的運行邏輯正在深刻地改變著以往的生產方式和生活方式,並與人的行為形成了支配關系。這也表示,人們的行為可以藉助於數據演算法來預測甚至被改變。
對於企業來說,人工智慧演算法的准確為商業行為的執行提供了准確的預判,但同時演算法發展帶來的倫理問題、性別歧視問題同樣也是企業需要考慮的問題。
王春平博士認為,目前為止,人工智慧演算法在應用中反映的依然是相關性,在開發過程中考慮的因素與得到的決策結果之間,很大程度上只是相關。在很多應用里,性別可能是被引入的一個帶有相關性的干擾項,如何排除偏見,公平地看待不同的性別,但是又不會影響到最終的商業判斷准確性,具有不小挑戰。目前這個問題已經引起了重視,有很多從不同角度試圖解決這個問題的嘗試,比如基於因果推理理論,尋找與期望預測結果擁有直接因果關系的因素;通過創新性地構造特徵表徵空間,抑制某些帶有偏見的因素,比如由於性別帶來差異。
「雖然很多時候,基於商業行為,我們很難判定部分情況下演算法在偏好與偏見之間的界限,但是在演算法的創新開發過程中,作為人工智慧演算法工程師如果擁有正確的價值觀,就能盡可能提前審視並察覺歧視偏見的存在,很好地利用對於演算法的不斷更新去調整它帶來的問題,這是我們作為演算法開發者的使命與責任,也是人工智慧演算法發展的重要前提。」 王春平如是說到。
信也 科技 作為國內領先的金融 科技 企業之一,一直致力於推進 科技 應用與 社會 發展的互相融合與發展,尤其是在人工智慧領域,信也 科技 通過在開發過程中納入 社會 性別多元化視角,盡己所能為促進演算法中的性別平等而努力。作為企業,信也 科技 致力推動在內部技術開發中的客觀認識和理性反思,從而更好地促進 科技 發展。未來,信也 科技 將繼續通過技術的不斷創新,以確立正確價值觀,助力促進人工智慧時代的性別平等。
③ 浜у搧緇忕悊闇瑕佷簡瑙g殑鍑犵嶅父瑙佺畻娉
鍦ㄤ駭鍝佺畻娉曞寲鐨勬椂浠o紝涓嶄簡瑙g畻娉曪紝鎮愭曢毦浠ュ仛濂戒竴嬈句駭鍝佺殑璁捐°傛棤璁烘槸淇℃伅嫻佺殑鎺ㄩ佽繕鏄鎼滅儲緇撴灉鐨勫睍紺猴紝綆楁硶娣卞埢濉戦犱簡鐢ㄦ埛浣撻獙銆傚洜姝わ紝浜嗚В綆楁硶錛屾槸浣滀負PM鐨勪竴欏瑰熀紜鍔熻俱傛湰鏂囨葷粨浜嗗父瑙佺殑涓浜涚畻娉曠煡璇嗭紝寰堝氭潵鑷鎴戝圭綉璺澶х炰滑鐨勫垎浜榪涜岀殑姊崇悊錛屽ぇ瀹朵竴璧瘋ˉ琛ヨ俱傜敱浜庢枃絝犲唴瀹硅緝闀匡紝鍥犳や細鍒嗗緢澶氬ぉ鏇存柊瀹岋紝涓嬮潰榪涘叆姝i樸
涓銆佺儹搴︾畻娉曘
鍋囧傜幇鍦ㄦ垜浠瑕佺粰涓嬈炬柊闂誨簲鐢ㄨ捐″唴瀹圭殑鍒嗗彂鏈哄埗錛岃烽棶鎬庢牱鍒嗗彂鏂伴椈鍐呭規洿涓哄悎鐞嗗憿錛熷湪鑰冭檻綆楁硶鏃訛紝鎴戜滑棣栧厛鎯沖埌鏈夊嚑涓綰︽潫鏉′歡錛
鈶犱笉鍚屾柊闂葷殑閲嶈佹у苟涓嶇浉鍚屻
鈶$敤鎴峰弬涓庣殑鍚勭嶈屼負浼氬姪鎺ㄦ垨鎷変綆鏂伴椈鐑搴︺
鈶㈡柊闂繪湁鏃舵晥鎬э紝鐑搴﹂殢鏃墮棿琛板噺銆
鈶d笉鍚岀殑浜猴紝鏂伴椈鍠滃ソ鏄涓嶅悓鐨勩
鍓3涓闂棰橈紝鎴戜滑棣栧厛瑙e喅銆
1.1鍒濆嬬儹搴﹀垎S0
闂棰1鐨勮В鍐蟲柟妗堝緢綆鍗曪紝緇欎笉鍚岀被鍨嬬殑鏂伴椈璧嬩簣涓嶅悓鐨勫垵濮嬪糞0銆傛瘮濡傦紝濞變箰綾繪柊闂誨線寰姣旀枃鍖栫被鐨勬柊闂葷殑鐑搴︽洿楂橈紝澶у舵洿鐖辯湅錛屽洜姝ゅ垵濮嬪兼洿澶т竴鐐廣
涓婂浘涓錛0.6銆0.8銆1.2銆1.5灝辨槸涓嶅悓綾誨埆鏂伴椈鐨勫垵濮嬫潈閲嶃
涓婅堪鍒濆嬪肩殑璁懼畾榪樻湁涓鏉¤ˉ鍏咃紝灝辨槸褰撳ぉ鐨勯噸澶уご鏉℃柊闂伙紝鎴戜滑甯屾湜鍏ュ簱鏃剁儹搴﹀氨寰堥珮銆傛瘮濡傞┈淇濆浗鑰佸笀鎵撴嫵灞呯劧璧浜嗚開榪﹀ゥ鐗規浖銆備負浜嗚╂柊闂誨獟浣撳垰鍙戝嚭鏉ュ氨鏈夊緢楂樼殑鐑搴︺傛垜浠闇瑕佹彁鍓嶅噯澶囦竴涓 鐑璇嶅簱 錛屾瘡澶╂姄鍙栧悇綾誨ご閮ㄩ棬鎴風綉絝欐垨紺句氦緗戠珯涓婄殑鏂伴椈鐑璇嶃備竴鏃﹀鉤鍙頒笂鏈夌敤鎴峰彂甯冪殑鏂伴椈鍛戒腑浜嗗綋澶╃殑鐑璇嶏紝濡傦細鈥滈┈淇濆浗鈥濄佲滃ゥ鐗規浖鈥濄佲滆開榪︹濓紝鎴戜滑灝辯粰榪欎釜鐢ㄦ埛鐨勫唴瀹硅祴浜堣緝楂樼殑鍒濆嬬儹搴︺
1.2鐢ㄦ埛浜や簰鐑搴﹀垎S(Users)
闂棰2鐨勮В鍐蟲柟妗堬紝鏄鎶婅〃寰佺敤鎴峰枩濂界殑鍚勭嶈屼負鎷庡嚭鏉ャ傛瘮濡傛祻瑙堛佽瘎璁恆佺偣璧炪佸枩嬈銆佹敹鈃忋佸垎浜銆佽漿鍙戙佺偣韙┿佷婦鎶ャ佹埅鍥劇瓑絳夈傝屼負瓚婂氾紝棰楃矑瓚婄粏銆
姣斿傛垜浠鍙鍙栧嚑涓鎸囨爣錛氭祻瑙堬紙1鍒嗭級銆佺偣璧烇紙3鍒嗭級銆佽瘎璁猴紙5鍒嗭級銆佸垎浜錛10鍒嗭級
涓涓鐢ㄦ埛濡傛灉鍦ㄦ煇鏉℃柊闂諱笂閮藉懡涓浜嗕笂榪拌屼負錛岄偅涔堣繖鏉℃柊闂誨彲浠ヨ幏寰楃殑璇ョ敤鎴稴(Users)涓猴細18鍒嗐
浣嗘槸錛岃繖縐嶈$畻鏂規硶榪樻湁涓涓闂棰樿佽В鍐籌紝閭e氨鏄鐢ㄦ埛瑙勬ā鐨勯棶棰樸傚垰鍙戝嚭鍘葷殑鏂伴椈錛岃偗瀹氱湅寰椾漢灝戱紝鎴戜滑甯屾湜鍙浠ュ己鍖栫敤鎴瘋屼負鍒嗭紝璁╃敤鎴風殑涓涓鐐硅禐鍜岃瘎浠峰彲浠ュ緢寮哄湴鍔╂帹璇ユ潯鏂伴椈鐑搴︺備絾鏄闅忕潃闃呰葷殑浜鴻秺鏉ヨ秺澶氾紝鎴戜滑甯屾湜鍙浠ュ急鍖栫敤鎴瘋屼負鍒嗐傚洜姝わ紝闇瑕侀拡瀵圭敤鎴瘋勬ā錛屽己鍖栨垨鑰呭急鍖栫敤鎴風殑琛屼負鏉冮噸銆傜敤浠涔堟暟瀛﹀伐鍏峰幓瑙e喅榪欎竴闂棰橈紵鐣欑粰浣犳濊冦
1.3鏃墮棿琛板噺鐑搴﹀垎
闂棰3鐨勮В鍐蟲柟妗堥渶瑕佺敤鍒頒竴涓宸ュ叿銆傛垜浠甯屾湜鏂伴椈鐨勭儹搴︽槸闅忕潃鏃墮棿鑰岄掑噺鐨勶紝榪欐牱澶у墮殢鏃剁湅鍒扮殑閮芥槸鏂伴椈鑰屼笉鏄鏃ч椈浜嗐傚備綍鏉ュ害閲忚繖縐嶉殢鏃墮棿閫掑噺鐨勭儹搴﹀憿錛
鎯沖儚涓涓嬶紝鎴塊棿閲屾斁浜嗕竴鏉鐑鍜栧暋錛岃繖鏉鍜栧暋浼氶殢鐫娓╁害鎱㈡參琛板噺錛岀洿鍒頒笌鎴塊棿瀹ゆ俯鎸佸鉤銆傛柊闂葷殑鐑搴﹀氨鍍忔埧闂撮噷鐨勭儹鍜栧暋錛岄殢鐫鏃墮棿鑰屾參鎱㈤檷娓┿傚洜姝わ紝榪欓噷鐨勫伐鍏峰氨鏄鐗涢】鍐峰嵈瀹氬緥銆
鐗涢】鍐峰嵈瀹氬緥 鏄鐢辮嫳鍥界墿鐞嗗﹀惰壘钀ㄥ厠路鐗涢】鐖靛+錛1642-1727錛夋墍鎻愬嚭鐨勪竴涓緇忛獙鎬х殑鍏崇郴銆傛槸鎸囩墿浣撴墍鎹熷け鐨勭儹鐨勯熺巼涓庣墿浣撳拰鍏跺懆鍥寸幆澧冮棿鐨勬俯搴﹀樊鏄鎴愭瘮渚嬬殑銆傚綋鐗╀綋琛ㄩ潰涓庡懆鍥村瓨鍦ㄦ俯搴﹀樊鏃訛紝鍗曚綅鏃墮棿浠庡崟浣嶉潰縐鏁eけ鐨勭儹閲忎笌娓╁害宸鎴愭f瘮錛屾瘮渚嬬郴鏁扮О涓虹儹浼犻掔郴鏁般
鏁板﹀叕寮忎負錛
鍏寮忓彉鎹涔嬪悗錛屽彉鎴愪笅闈㈡洿瀹規槗鐞嗚В鐨勫叕寮忥細
鍏朵腑錛孴0錛氬垵濮嬫俯搴︺乀(t)錛氱墿浣撳綋鍓嶇殑娓╁害銆乼o錛氬垵濮嬫椂鍒匯乼錛氭煇涓鏃跺埢銆丠錛氬懆鍥寸殑娓╁害銆佄憋細 鍐峰嵈緋繪暟銆
灝嗗叕寮忛噷鐨勬俯搴T鎹㈡垚鐑搴︼紝灝卞彲浠ョ敤鏉ヨ閲忔柊闂葷殑鐑搴﹁「鍑忎簡銆傝繖閲岄潰鏈鏍稿績鐨勬槸鍐峰嵈緋繪暟偽錛屛卞湪鎺у埗涓嶅悓綾誨瀷鍐呭圭殑琛板噺紼嬪害銆傛湁浜涘唴瀹圭殑鏇存浛閫熷害蹇錛屾垜浠璁劇疆鐨勫喎鍗寸郴鏁板彲浠ュぇ涓浜涳紝鏈変簺鏇存浛閫熷害鎱錛屾垜浠鍙浠ユ帶鍒跺緱灝忎竴浜涖
鍏蜂綋璁$畻鍐峰嵈緋繪暟錛屽彲浠ヨ繖鏍鋒搷浣溿傚亣璁炬垜浠璁や負鍒濆嬬儹搴﹀垎涓100錛24灝忔椂鍚庯紝鐑搴﹀垎涓1錛岄偅涔堝氨鏈夛細1=100*e^(-24偽)錛屽緱鍒拔=0.192銆備粠榪欓噷鍙浠ョ湅鍒幫紝褰撴垜浠甯屾湜涓鏉″唴瀹癸紝鐢ㄦ椂澶氫箙錛屽彲浠ュ喎鍗村埌浣曠嶇▼搴︽椂錛屽嵆鍙紜瀹毼卞箋傞渶瑕佹敞鎰忕殑鏄錛屾ゅ勮$畻鎴戜滑璁懼畾鐨則-to鐨勫樊鍊礆紝鏄鎸夊皬鏃朵負鍗曚綅鏉ヨ$畻鐨勶紝鑰屼笉鏄鎸夌収鍒嗛挓鎴栬呯掋
鎵懼埌浜嗚閲忔柊闂葷儹搴﹁「鍑忕殑鍔炴硶錛屽備綍鐢ㄥ湪鏁翠綋鐨勬柊闂葷儹搴﹀垎鍛錛
寮澶撮儴鍒嗙敤浜嗚繖涓鍏寮忔潵澶ф傛弿榪版垜浠甯屾湜杈炬垚鐨勬晥鏋滐細 鏂伴椈鐑搴﹀垎 = 鍒濆嬬儹搴﹀垎 + 鐢ㄦ埛浜や簰浜х敓鐨勭儹搴﹀垎 鈥 闅忔椂闂磋「鍑忕殑鐑搴﹀垎錛 Score = S0 + S(Users) 鈥 S(Time)銆
鐪嬩簡涓婇潰鐨勭墰欏垮喎鍗村畾寰嬪悗錛岃ュ叕寮忓彲浠ユ紨鍖栦負Score =錛圫0 + S(Users)錛/(e^偽*(t-t0))
濡傛灉鍙鏄瑙e喅浜嗗墠3涓闂棰橈紝鍗籌細鍒濆嬬儹搴﹀垎銆佺敤鎴瘋屼負鍔╂帹鐑搴﹀垎銆佺儹搴﹀垎琛板噺錛岄偅涔堝ぇ瀹剁湅鍒扮殑鏂伴椈閮芥槸涓鏍風殑錛屼互鍓嶇殑緗戞槗鏂伴椈銆佽吘璁鏂伴椈涓嶅氨鏄榪欐牱涔堬紵鐜板湪鎴戜滑鎯崇粰涓嶅悓鐨勪漢鎺ㄨ崘涓嶅悓鐨勬柊闂伙紝鎬庝箞鍔烇紵榪欎究鏄浠婃棩澶存潯瑙e喅鐨勯棶棰樹簡銆傞渶瑕佺敤鍒頒釜鎬у寲鎺ㄨ崘浜嗐
涓鎬у寲鎺ㄨ崘涓鑸鏈変袱縐嶆柟娉曪紝鏂規硶1鏄鏍規嵁鍐呭圭浉璇嗗害鎺ㄨ崘銆傛瘮濡備綘鍠滄㈢湅縐戞瘮鐨勬柊闂伙紝閭d箞鎴戞帹鑽愭ф枃鐨勪技涔庝篃涓嶉敊銆傛柟娉2鏄鏍規嵁鐢ㄦ埛鍝佸懗鐩歌瘑搴︽帹鑽愩傛瘮濡備綘鍠滄㈢戞瘮錛屽彟涓涓浜轟篃鍠滄㈢戞瘮錛岄偅涔堟垜鍙浠ユ帹鑽愬彟涓涓鍠滄㈢殑鏂伴椈緇欏埌浣犮備笅鏉ユ潵璇翠竴璇村備綍閲囧彇榪欎袱縐嶅姙娉曟潵鎺ㄨ崘銆
浜屻佸熀浜庡唴瀹規帹鑽
鎸夌収鏂規硶1錛屾垜浠鏄闇瑕佽$畻鍑轟袱綃囨柊闂葷殑鐩鎬技搴︺傞偅涔堜袱綃囨柊闂葷殑鍏崇郴瑕佹庝箞璁$畻鍛錛
棣栧厛鍛錛岀涓姝ユ垜浠闇瑕佸規柊闂昏繘琛屽垎璇嶃傛瘮濡傝繖鏍蜂竴涓鍙ュ瓙錛氱戞瘮鏄涓栫晫涓婃渶浼樼鐨勭鐞冭繍鍔ㄥ憳錛岃┕濮嗘柉涔熸槸銆傝繖鍙ヨ瘽鎴戜滑鍒嗚瘝鍚庝究寰楀埌浜嗗備笅璇嶇粍錛氱戞瘮銆佷笘鐣屻佷紭縐銆佺鐞冭繍鍔ㄥ憳銆佽┕濮嗘柉銆佹槸銆佷篃銆佷笂銆
浠庤繖涓璇嶇粍鍙浠ョ湅鍑猴紝鈥滄槸鈥濄佲滀篃鈥濄佲滀笂鈥濊繖綾昏瘝騫舵病鏈夊お澶氬惈涔夛紝闇瑕佸幓鎺夛紝鐣欎笅鐨勮瘝鎵嶆湁鎰忎箟銆傚洜姝わ紝鎴戜滑鍒嗚瘝鐨勬椂鍊欙紝闇瑕佺敤鍒頒袱涓璇嶅簱錛屾e父璇嶅簱鍜屽仠鐢ㄨ瘝搴撱傚仠鐢ㄨ瘝搴撶殑鍐呭瑰氨鏄涓婅堪鍘繪帀鐨勯偅綾昏瘝錛岃屾e父璇嶅簱灝辨槸鎴戜滑鎷嗚В鍐呭圭殑鏍囧噯銆備竴綃囨柊闂誨氨鏄鎸夌収姝e父璇嶅簱鎷嗘垚涓涓涓鍗曠嫭鐨勮瘝&璇嶇粍鐨勩
閭d箞榪欓噷鏈変釜闂棰橈紝灝辨槸鍒嗚瘝鍒板簳鏄鎬庝箞鍒嗙殑銆備竴鑸鍒嗚瘝鐨勬柟娉曟湁寰堝氱嶏紝姝e悜鍖歸厤鎷嗗垎錛岄嗗悜鍖歸厤鎷嗗垎錛屾渶灝戝垏鍒嗐
姝e悜鍖歸厤娉曟槸浠庡乏鍚戝彸鎵鎻忓繪壘璇嶇殑鏈澶у尮閰嶃備竴鑸浼氬厛瑙勫畾涓涓璇嶇殑鏈澶ч暱搴︼紝姣忔℃壂鎻忕殑鏃跺欏繪壘褰撳墠寮濮嬬殑榪欎釜闀垮害鐨勮瘝鏉ュ拰瀛楀吀涓鐨勮瘝鍖歸厤錛屽傛灉娌℃湁鎵懼埌錛屽氨緙╃煭闀垮害緇х畫瀵繪壘錛岀洿鍒版壘鍒版垨鑰呮垚涓哄崟瀛椼
涓句釜渚嬪瓙銆傛垜浠鎷熷垎璇嶇殑闀垮彞涓猴細縐戞瘮瑙佽繃鍑屾櫒鍥涚偣鐨勫ぉ絀恆
鎴戜滑璇嶅吀鏄榪欐牱鐨勶細{縐戞瘮銆佽佽繃銆佸噷鏅ㄥ洓鐐廣佸ぉ絀簘
閭d箞姝e悜鍖歸厤娉曟槸鎬庝箞榪愯岀殑鍛錛
棣栧厛鎴戜滑璁懼畾鏈澶ц瘝闀誇負4銆傛垜浠浠庡乏鍒板彸錛屽厛璇曡瘯4涓瀛楃"縐戞瘮瑙佽繃"錛屾潵璺熸垜浠璇嶅吀鍖歸厤錛屽彂鐜版病鏈夊尮閰嶅埌鐨勩傞偅灝辯緝鐭瀛楃︼紝璇曚竴璇曗滅戞瘮瑙佲濓紝鍙戠幇榪樻槸娌℃湁銆傜戶緇緙╃煭瀛楃︼紝璇曚竴璇曗滅戞瘮鈥濓紝璇嶇粍涓鍑虹幇浜嗭紒
濂戒簡錛屾垜浠鍒嗗嚭浜嗙涓涓璇嶏紝鎶婅繖涓璇嶄粠鍘熷彞涓韙㈡帀錛岄偅涔堝師鍙ョ幇鍦ㄥ彉涓猴細瑙佽繃鍑屾櫒鍥涚偣鐨勫ぉ絀恆
緇х畫鎸夌収鍘熸柟娉曞垎璇嶃傚厛璇曡瘯鏈宸︿晶鐨4涓瀛楃︹滆佽繃鍑屾櫒鈥濓紝鏉ヨ窡璇嶅吀鍖歸厤錛屾壘涓嶅埌鍖歸厤鐨勮瘝銆傜戶緇緙╃煭瀛楃︹滆佽繃鍑屸濓紝鏉ヨ窡璇嶅吀鍖歸厤錛岃繕鏄鍖歸厤涓嶅埌錛岄偅涔堢戶緇緙╃煭銆
渚濇℃寜鐓т笂榪版柟娉曪紝榪欐牱闀垮彞灝變細琚鍒嗘垚涓涓涓璇嶇粍浜嗐傝繖灝辨槸姝e悜鍖歸厤娉曘
閫嗗悜鍖歸厤娉曟槸浠庡彸鑷沖乏錛屽垎璇嶈勫垯璺熸e悜鍖歸厤娉曞樊涓嶅氾紝灝變笉璧樺彊浜嗐
鏈灝戝垏鍒嗘硶鏄渚濇嵁鏈灝戝垏鍒嗗師鍒欙紝浠庡嚑縐嶅垎璇嶇畻娉曞垏鍒嗙粨鏋滀腑鍙栧垏鍒嗚瘝鏁版渶灝戜竴縐嶇殑銆傛瘮濡傦紝浠庢e悜鏈澶у尮閰嶅拰閫嗗悜鏈澶у尮閰嶄袱鑰呬腑閫夋嫨璇嶆暟杈冨皯鐨勬柟妗堬紝褰撹瘝鏁扮浉鍚屾椂錛岄噰鍙栨煇縐嶇瓥鐣ワ紝閫夋嫨鍏朵腑涓涓銆
④ 論內容理解演算法
經過幾年的膨脹期,演算法的熱度快速下降,不論是AI四小龍的上市之路艱辛,還是各大頭部互聯網公司的副總裁重返學術界,以及演算法人員的招聘凍結。這里有總體經濟形勢惡化帶來的影響,也與演算法本身的能力上限有關,在各類學習任務上,演算法的性能正在逐漸進入瓶頸,通用任務效果提升的梯度在逐漸變小,有效的進展都依賴於超大規模的數據和模型參數,以通用語義表徵任務為例,完成一次超大規模的預訓練模型的成本達到數百萬元,極大地限制了中小企業參與的機會。
在業務應用方面,經過幾年的持續建設和多種類型功能的輸出,業務依賴的不同方向所對應的內容理解演算法在應用和效果層面已趨成熟,能夠帶來驚喜效果的機會變的很少。這種形勢下,作為偏後台支持的角色,如何去識別並持續深化內容理解演算法的作用變得很重要。本文試圖從價值視角分析內容理解的生存形勢,發掘未來發展的可能性以及從業人員的應對手段方面做了些不算嚴謹的闡述。
一直以來我們定義內容理解演算法為業務的萬金油,隨時隨地可以插拔式應用。從配合內容生產者做創作提示,幫助運營做質量分析,版權保護,相似查找,幫助搜索演算法提供長尾查詢的效率增強,幫助推薦演算法提供標簽等細粒度語義特徵,根據消費者的負向反饋進行同類型的內容屏蔽(如軟色情,惡心,不喜歡的明星)。因此很自然地,我們把內容理解演算法的使命定義為「內容流轉的全鏈路提質提效」,這里的質量包含對確定性劣質的去除,以及優質內容的免審或者高曝推薦。效率指的是把內容從生產到消費的鏈路上的時間優化到最快,包括配合運營進行快速的內容篩選,輔助分發演算法進行人群和內容的精準匹配。
這里需要回答的是,在上述相對完備的能力基礎上,內容理解演算法所能提供的最核心的價值是什麼?
首先是客戶的定義問題,內容理解演算法的客戶不是運營,不是分發演算法,也不是生產者和消費者。而是要回歸到最原始的「內容」,用於對內容進行附加值的極大化提升。
其次,參與到內容流轉各環節的角色承擔了對內容理解演算法的價值落地和放大,不論是運營所主導的平台意志實現,分發演算法對內容和消費者的高效匹配,以及生產者和消費者分別從內容供給和消費方面對內容理解演算法的訴求。
最後,內容本身是一種載體,載體背後是人對現實世界的刻畫,平台層面有對內容進行按需取用的邏輯,消費者也有用腳投票的權利,這里的內容理解演算法不應當做任何的自我傾向,按照業務訴求的多樣化能力輸出是內容理解存在的核心價值,否則通過簡單搬運學術界的開源模型便可形成表面上的業務能力堆砌,顯然是無法滿足業務的增長訴求。
因此,我們可以形成價值定義: 「內容理解演算法的核心價值是內容全生命周期內,根據服務業務的多樣化訴求,提供智能化和結構化的理解能力,其衡量標准為上述能力帶來的附加效率提升和成本下降。」
從這個定義來看,內容理解演算法似乎沒有站在主戰線上,價值被隱性地統計起來。實則不然,就如戰爭一樣,沖鋒在前的部隊只有少數,而承擔防守和輔助任務的兵種實際上是不可或缺的,很多時候也決定了戰爭的走向, 歷史 上由於後勤保障問題導致戰爭走向改變的例子比比皆是。就如定義中的效率提升,它其實不是一票式的,由於效率的提升會帶來供給者和消費者的規模增大,又會產出對內容理解演算法效率提升的更多訴求,這種正反饋式的鏈路也是內容業務可以快速實現既定目標的重要方式。
一、估值 游戲
以2021年11月小紅書的估值來看,彼時6千萬DAU和47分鍾人均時長的內容社區獲得200億美金的估值認可,這屬於一個早期內容社區經歷過較長時間的成長後才能達到的高度。考慮一個相對創新內容業務,兩到三年的時間想要達到5000萬DAU和5分鍾的人均時長其實還是比較困難的,按照對標小紅書的邏輯,估值上限為30億美金,假設內容理解演算法對業務貢獻率用3%折算,估算下來內容理解估值為9千萬美金,按照簡單的市銷率10倍計算,內容理解每年的營收為900萬美金(按照估值反推營收的原因是是內容理解演算法對業務的點狀式能力輸出難以做到精準的量化統計)。
900萬美金是非常尷尬的數字,因為內容理解演算法存在比較高昂的成本,從大頭上來看,內容理解演算法支出分為三部分,第一部分是演算法人員,以15人的支撐團隊計算(看起來有點多,實則不然,想要支撐對未來預期的增長,15個人實際並不夠用),按照單人每年的支付成本150萬計算(這個成本折算到員工回報大約為100萬左右,已經沒多大市場競爭力),大約400萬美金/年;第二部分是資源消耗,按照百萬內容/天的規模計算,各種資源成本(包括機器,存儲、輔助軟體等)大約500萬美金/年;第三部分是配套工程人員,產品經理,外包標注支持等,這部分大約150萬美金/年。可以看到業務發展到這個階段,內容理解演算法是入不敷出的。
按照上述口徑,能夠改善內容理解價值的核心方法包括三個方向,一是業務估值的上升,需要業務DAU和時長的穩定提升。二是內容理解演算法的業務貢獻率提升,這里對內容理解演算法的要求是比較高的,不僅僅要從內容的質量,生產者的輔助,分發流量效率,業務的大盤生態,或者業務商業化上有所作為。三是降低成本,這個路徑的可行性很弱,反倒是隨著業務的成長,成本的消耗會進一步增加,能夠做的是控製成本增長的速度小於業務增長。
「按照業務貢獻對處於業務發展前期的內容理解演算法進行價值衡量,情況是非常不樂觀的」。
二、價值重塑
前面的視角是業務閉環下的價值衡量,放開到更大的視角,內容理解演算法之所以構成相對獨立的功能單元是因為它提供的能力是相對通用的,比如標簽識別演算法不僅僅可用於小紅書,也可用於抖音和快手這樣的內容業務。
因此在支撐具體的業務的過程中沉澱出通用演算法進行其他類似業務的價值輸出,是內容理解演算法的另一扇門。這裡面臨的另一個問題是如果是頭部業務,一定是要求內容理解演算法是為它量身定製的,而中小業務願意為內容理解演算法買單的價錢是有限的。針對這個問題的核心解法是在做頭部業務能力定製的時候,提供盡可能通用的能力,通過對數量眾多的中小業務形成價值輸出,實現量級的堆砌。
此外,要差異化成熟業務和創新業務,對於成熟業務而言,內容理解演算法對業務的微小提升可能是非常明顯的,以京東平台為例,如果內容理解演算法通過圖像搜索或者同款識別等能力提升業務成交0.1%,也將是數億美金每年的價值加成。對於創新業務而言,內容理解演算法應當深入業務,從內容的全生命周期為業務提供硬核的能力,用以幫助業務實現生產者和消費者體感的明顯提升,最終帶來業務的正反饋式增長,早期的抖音就是依託炫酷的AI特效體系實現用戶規模的快速增長。
「目前能看到的,讓內容理解演算法進行價值放大的有效途徑是貼身服務頭部業務的過程中,沉澱通用化能力橫向輸出盡可能多的同類型業務。針對成熟業務尋找對業務增長的確定性增長點,創新業務尋找到適合於業務快速增長的硬核能力」。
作為一名內容理解演算法沉浮六年的老兵,我對內容理解演算法的未來持謹慎樂觀的態度。原因有三個方面,一是這一輪深度學習帶來的演算法提升空間變得有限;二是互聯網用戶進入存量時代後,頭部內容會更加精耕細作,從追求效率轉向運營的精細化和粘性保持;三是對未來可能出現的下一代內容消費方式的期待和觀望。
一、相對有限的演算法提升空間
過去的幾年,內容理解演算法的演進可以分為三個方向,一次是從傳統的手工特徵到神經網路特徵的升級,通過大數據和大算力實現效果的明顯提升,也極大降低了演算法人員的准入門檻;二是對內容的理解從單一模態升級為多模態&跨模態,以及以圖神經網路為基礎的推理能力;三是極大規模數據的模型學習,即以大規模預訓練模型為基礎的統一內容表徵方式,催生了transformer家族的不斷壯大。
然則,演算法的性能逐漸接近瓶頸,不論是在看圖說話、 情感 分析、還是標簽識別等演算法任務上距離人類仍然存在一定的距離,並且這份距離看起來短期內沒有明確的突破機會。反倒是業界開始從監督學習往無監督學習靠近,試圖利用海量數據學到背後的範式,這本質上是對追趕上人類能力的背離。
以transformer為例,百億數據下訓練一次消耗數百塊GPU,數周的訓練時間才有可能獲得明顯的效果的提升,這還不包括精細的網路調整的令人沮喪時間成本。此外下游任務想要得到期待的效果,還需要進一步的遷移學習。從表象來看,只是提供一個更好的演算法學習的起點。
我們經歷了一個業務對我們翹首以待到逐漸理性的合作過程,AI演算法從來就無法成為救世主,而是有更強生產力的工具。當然我們不應當過於悲觀,起碼過往的幾年,蓬勃發展的演算法體系帶來了從業人員的准入門檻極大下降,大眾對AI演算法的廣泛認知也有助於內容理解演算法相對長期的旺盛生命力和成長。
二、存量用戶時代的內容社區的運營方式
中國互聯網用於見頂,意味著各大內容業務必須進入存量用戶階段。存量用戶階段面臨的困境是粗放式增長不復出現,用戶群體開始細分,用戶粘性變得更加艱辛,要求內容社區必須進行精細化運營。精細化運營背後的表現為對效率的要求下降,轉而對用戶心智和長期的戰術保持耐心。這種情況下內容理解演算法會成為散落到業務眾多需求列表的功能支撐點,獨當一面的機會愈發減少。
「從演算法學習的角度來看,人的創意,玩法設計,互動屬性是目標(ground truth)的天花板,因此此時此刻保持工具屬性是相對合理的態度」。
三、下一代的內容消費方式
互聯網時代的內容消費經歷了文本到圖像的升級,再到視頻的升級,每一次內容消費升級背後產出對內容理解演算法的爆發式增長,那麼下一代的內容消費方式又是什麼呢?
業界目前正在押注元宇宙,facebook甚至把名字都改成了meta。過去有幾波VR/AR的熱潮,看起來除了在某些線上成人網站和線下 游戲 設備之外,並未有足夠顛覆我們日常生活方式的輸出。
人類對更高級的感知外部環境和與他人無時空差別的交互需求是明確存在的,只是它是否由「元宇宙」承載卻是個未知數。如果元宇宙是這個載體的話,那麼虛擬世界的感情識別,觸感生成,自然交互,生態的 健康 治理,超大規模內容消費下的負載下降會是內容理解演算法可以嘗試去攻克和深耕的全新地帶,也會承擔更為核心的角色。
「下一代的內容理解消費方式有機會成為內容理解的下一個主戰場,但是目前的形勢並不明朗,需要我們保持耐心地思考和觀望」。
四、其他的可能
拋開頭部綜合性AI大廠商如網路,騰訊,阿里巴巴,華為等企業作為內容理解多樣性需求輸出的第一極之外,還有以內容理解演算法作為平台能力輸出的第二極,比較有名的是AI四小龍(商湯、曠視、依圖,雲從),以及深度結合各民生領域的產業AI能力輸出。
醫療AI,解決醫療資源匱乏導致看病需求無法被滿足,人工看診時間長等問題。比較典型的case是COVID-Moonshot眾包協議,由500多名國際科學家共同參與,以加速COVID-19的抗病毒葯物研發。
教育AI,解決優質教育資源匱乏導致的分配不公,及教師和學生的信息不對稱問題,雖然國家正在推新教育雙減政策,但是教育作為一項基本的人身權利應當得到更好的滿足,比較知名的企業有松鼠AI,猿輔導等。
製造AI,解決製造車間設備、數量、功能增多、調度分配難度大、需求端個性化要求等問題,利用AI,自動化,IOT,邊緣計算,雲,5G等手段,充分利用生產車間的海量價值數據,把人從簡單重復的勞動中解放出來以從事更高級的任務,幫助提高產量的同時降低缺陷率,比較知名的企業有正在香港上市的創新奇智和創新型工業AI-PASS平台提供商遠舢智能等。
此外,還有在智能駕駛、智慧城市、晶元AI等產業領域深度耕耘的各種公司,他們正在充分發揮大數據和AI演算法的能力,為各大產業帶來源源不斷的創新能力。
回到內容理解演算法的現存生存環境,仍然存在一定的潛力可以挖掘。在下一代內容消費方式到來之前,可以做得更好,形成與上下游的積極聯動,在現在的舞台上展現出更佳的風采。
一、產品
內容理解演算法的產品是不是剛需,這個話題有點爭議,有人說演算法的產出速度是比較慢的,讓昂貴的產品角色參與建設本身會存在浪費的情況。我個人認為內容理解演算法所對應的產品角色必須具備,因為在龐大的業務體系後面,如果缺失了面向業務需求的自頂向下的內容理解演算法體系設計和建設,非常容易出現業務賦能的水土不服。
產品需要考慮的核心問題是如何衡量長期和短期投入,演算法是比較精細的工作,對結果的預期是非確定性的,因此需要做好對業務預期的管理以及同業務需求的及時交互。為了保障演算法最終在業務的使用效果,前期可以通過簡化版本或者半成品演算法的產品化方案進行快速試錯,幫助業務決策的同時給演算法的長期迭代爭取空間。此外,針對演算法長期迭代設計有效的樣本數據迴流機制,通過配置化輸出給到業務盡可能多的試錯方式,以及業務上線使用後的效果實時監控等都是產品需要思考的工作。
二、運營
運營應該是內容理解演算法打交道最頻繁的相關方,內容理解演算法的評價標准和業務適配都需要運營來進行構建和監控。內容理解演算法是運營進行內容供給生態和消費生態運營的智能助手,從內容結構化標簽角度提供到運營各種分析使用方式,如內容審核、內容圈選,內容人群定投等。
和運營打交道對內容理解演算法提出高要求,如何快速衡量需求的合理性及可行性非常關鍵。有時候內容理解演算法做了過度承諾,導致上線效果不佳,影響業務的發展。有時候對演算法實現效果的不自信或產品化用法借力不夠從而拒絕需求導致業務失去寶貴的試錯機會。因此內容理解演算法應當對內容運營的鏈路有相當的掌握,可以和運營一起定義全鏈路演算法能力,從應用的視角推進演算法需求的合理有序的開展。
三、生產者
生產者對於平台來說至關重要,巧婦難為無米之炊,不論運營和分發演算法多麼牛逼,缺少了高質量的內容生產來源,業務是不可能有持續增長的。通常情況下兩千優質生產者加上數萬的普通生產者即可支撐起千萬DAU的業務,如何服務好這部分生產者對平台來說非常關鍵。
內容理解演算法和生產者目前的主要交互方式包括幾個方面,一是在內容生產的時候給到生產者的內容元素的智能推薦,如話題,標題,配樂的推薦等;二是進行內容展現效果的提升,如濾鏡,貼紙,美顏,畫質增強等;三是從質量層面給予生產者指導和管控,包括從業務視角給到生產者發布的內容大致因為何種理由不被平台採納,內容高熱趨勢消費榜單,內容的版權保護等。
從生產者視角來看,盡可能多地從平台獲取流量或者商業化價值是根本追求,因此往往會出現對平台規則的不斷試探以攫取利益,如發布大量的擦邊球或危言聳聽的內容。內容理解演算法需要在內容供給規模不斷變大的情況下幫助平台保持 健康 的生態和有效的流量分配同時盡可能給到生產者更多指導。這種相愛相殺的關系也給內容理解演算法帶來了不少的挑戰和生存空間。
四、分發演算法和消費者
把分發演算法和消費者放在一起的核心邏輯是內容理解演算法絕大部分情況下是需要通過分發演算法和消費者打交道的。從消費者視角觀察,高活用戶代表主流心智,如何服務好這波群體關繫到業務的生存問題。中低活用戶是平台的增量所在,持續加強這部分用戶的平台粘性是關鍵任務(這里會有部分用戶的出逃,為了維護平台的心智,這部分的犧牲是可接受的)。分發演算法承擔了把海量內容做負載下降後根據用戶的長短期興趣進行推薦的使命,分發演算法是需要秉承平台意志的,用於進行內容的流量調配用於影響消費者的體感和心智,給平台帶來源源不斷的生機。
早期編輯為主的內容分發模式下,消費者是被教育的對象,一天之內能夠看到的新鮮內容是非常少的,這種情況導致消費者的瀏覽深度和時長是受限的。個性化推薦模式下,用戶的興趣被極致放大,由於相關內容和新鮮內容的快速推送,消費者會感受到強烈的沉浸式消費體感。然而內容的多樣性,消費體感的持續維護,興趣的拓展等變得非常重要,這給分發演算法的精準性提出很高要求。提供分發演算法細粒度的識別能力是內容理解演算法可以大展身手的機會,內容是否具備不錯的分發潛力以加大分發流量?內容的適合人群是什麼?用戶無序瀏覽背後的核心興趣是什麼?軟色情/部分人群不喜好內容(蛇蟲寵物)如何精準識別用以分發調控等問題都是分發演算法難以觸達的地方,這些命題正是內容理解演算法可以深入研究並影響內容分發和消費的重要方面。
除了特定的場景(如互動玩法,個性化封面圖等),內容理解演算法應當恪守自己在內容生命周期的參與廣度。涉及到內容的分發和消費,內容理解演算法應當把自己定義為分發演算法不可或缺的助力,而不是試圖去做替換,站在內容理解演算法視角,分發演算法可以約等於消費者。以飯館運作為例,分發演算法是大廚,根據消費者的口味和食材和菜譜提供個性化的食物服務。內容理解演算法可以對食材進行質量管控,研發新的菜譜,在必要的時候提供半成品的菜品。和消費者的交互交由分發演算法來處理,畢竟術業有專攻,內容理解演算法可以在對內容的深度理解和消費者洞察上做縱向的深入,提供更多的可能性,包括生態、多樣性、內容保量等。
內容理解演算法和分發演算法的理想態是正和 游戲 ,零和 游戲 對雙方都是沒有意義的,因此這里額外對內容理解演算法提出的要求是在內容消費場景建立一套相對客觀的評價體系,通過演算法的標准化評估進行上線流程的加速,通過不斷的快速試錯給分發演算法提供更多槍支彈葯。
五、工程&數據分析
一個好漢三個幫,內容理解演算法背後也站著一群小夥伴,面向演算法生產的大規模工程基礎設施和面向演算法洞察的數據分析能力可以幫助內容理解演算法更好的發展。在內容爆炸式增長的今天,高效的演算法工程體系非常關鍵,甚至是拉開不同公司差距的最重要手段之一。有個非常明顯的例子,在業界舉辦的各種演算法大賽上,只要是大型互聯網公司參賽基本上都會出現霸榜的情況,這背後是模型訓練效率的強大先發優勢,擁有百塊級別GPU並發訓練能力的高校是非常少的。此外以通用向量檢索功能為例,百億級的向量索引能力在有限的算力和內存消耗下穩定運行起來是需要大量的工程優化手段的,而這個功能對演算法的高效使用至關重要。
服務於內容理解演算法,數據分析有非常多的應用。根據消費統計行為構建面向內容興趣的用戶畫像,風向趨勢內容消費對供給的指導,層次耦合的內容標簽的合理掛靠關系,演算法上線前的有效性分析,及演算法上線後持續監控和異常告警等。
內容理解演算法需要做的是面向業務場進行完整的架構設計,從演算法的效率角度,包括演算法服務效率,演算法洞察視角等方面聯動工程&數據分析提供強大的生產力,通過規模和系統厚度構建足夠的技術門檻。
2021年對中國互聯網,甚至是中國 社會 的前行都是不同尋找的一年,在全球經濟下行,國家間人為壁壘構建的情況下,恰恰又遭遇了國內人口增長的停滯,國家對互聯網平台的強管控,以及互聯網用戶滲透的見頂。
內容理解演算法背後的AI演算法體系多少也收到了波折,不過從整體形勢來看,AI演算法體系和產業化仍然在往前走。基礎理論研發體系中對應的論文發表、會議舉辦及大賽的舉行和參賽人員的規模都在增長。這兩年的遇冷問題主要是受到市場大環境的影響,AI占總體投資的比重仍然在上升。從國內方面來看,全球經濟的技術封鎖進一步堅定了中國立足自主創新的決心和信心,國家十四五計劃也明確提出了大數據,人工智慧,VR/AR的產業發展規劃,AI產業仍然有很強的潛力值得挖掘。
作為依附於業務的內容理解演算法,需要有清晰的自我認知和定位。我們的核心價值是什麼?它如何得到有效的定義和量化?作為服務於業務眾多角色中的一員,如何做好同其他角色的正向互動?上述問題背後的答案代表了內容理解演算法的核心作用。現在的演算法界有一股投機風,什麼熱門就搞什麼,有號稱無需數據標注的無監督學習,有號稱可以效果對標大量標注樣本的小樣本學習,有號稱單個演算法模型打遍天下的多模態預訓練學習等等。如果從問題抽象簡化的角度去研究基礎的理論體系和演算法學習範式是沒有問題的,但是如果業務的算同學也把這類概念擺在嘴上是有問題的,脫離了業務場景的核心訴求去談技術創造新商業,是一種對客戶的傲慢,屬於典型的機械主義。
作為深度結合業務的內容理解演算法,應當從業務場景出發,結合演算法的可行性去 探索 用於業務賦能的核心技術,對於明確可以產生正向業務價值的演算法技術,哪怕需要較長一段時期的打磨,也要敢於投注建設,在演算法研發的過程中不斷地思索業務的更多可能性,逐漸把業務的不確定性轉化為技術的相對確定性。對於較長時間無法形成對業務貢獻的演算法,應當果斷放棄深入研究,當然作為技術觀望跟進是沒有問題的。
從目前形勢來看,內容理解演算法的發展確實碰到了一些困難,但我們可以保持對未來的謹慎樂觀,期待下一代內容消費形態的來臨,同時盡可能多地進行業務場景的細化進行能力輸出和加強,把存量業務價值做好放大,通過演算法自身的持續建設,為將來可能來臨的那一刻做好技術儲備。
⑤ 圖計算應用場景有哪些
圖計算模型在大數據公司,尤其是IT公司運用十分廣泛。近幾年,以深度學習和圖計算結合的大規模圖表徵為代表的系列演算法發揮著越來越重要的作用。圖計算的發展和應用有井噴之勢,各大公司也相應推出圖計算平台,例如Google Pregel、Facebook Giraph、騰訊星圖、華為GES、阿里GraphScope等。
GraphScope 是阿里巴巴達摩院實驗室研發的一站式圖計算平台。GraphScope 提供 Python 客戶端,能十分方便的對接上下游工作流。它具有高效的跨引擎內存管理,在業界首次支持 Gremlin 分布式編譯優化,同時支持演算法的自動並行化和支持自動增量化處理動態圖更新,提供了企業級場景的極致性能。GraphScope 已經證明在多個關鍵互聯網領域(如風控,電商推薦,廣告,網路安全,知識圖譜等)實現重要的業務新價值,其代碼當前已在github/alibaba/graphscope 上開源,以供更多開發者使用。