① 最懂你的「演算法」,如何不淪為「算計」
來源 摘編自《平台治理2.0:共同富裕時代數字經濟治理轉型》,電子工業出版社,2022年4月出版。
文 於鳳霞 國家信息中心信息化和產業發展部處長
隨著互聯網、大數據、演算法與人工智慧等的發展日新月異,平台經濟的崛起使得追求物美價廉、方便快捷的消費者與世界各地的商品和服務之間的距離只是點擊幾下滑鼠而已。網路世界、新興技術正在使我們更加便利、舒適,我們每天都在享受平台經濟繁榮發展帶來的福利。大數據和演算法等技術功不可沒。
克里斯托弗·斯坦納在其著作《演算法帝國》里對演算法推崇備至,認為構建演算法模仿、超越並最終取代人類,是21世紀最重要的能力,未來屬於演算法及其創造者。 科技 哲學家凱文·凱利在其著作《失控》中提到:「人們在將自然邏輯輸入機器的同時,也把技術邏輯帶到了生命之中……機器人、經濟體、計算機程序等人造物也越來越具有生命屬性。」
隨著平台經濟在人類經濟 社會 各領域的快速滲透,我們的生活已經悄悄地被演算法和數據控制,演算法與數據接管了整個 社會 。演算法為人類行為賦能,但受所輸入數據的質量及演算法模型本身的限制,內在地嵌入了人類正面或負面的價值觀,並能動地製造著各種風險。
阿里爾·扎拉奇在其《演算法的陷阱:超級平台、演算法壟斷與場景欺騙》一書中寫道,精妙的演算法與數據運算改變了市場競爭的本質,復雜多變的市場現實已在悄無聲息中將權力移交到少數人的手中,因此,必須由監管機構及時採取可行的方法和政策,有效化解演算法帶來的各種風險,促使創新能夠真正為 社會 帶來正面意義。
經過長期的數據沉澱和演算法優化,你的手機、你的常用App在某些方面確實會比你的家人、好友甚至你本人更了解你。這就意味著,當我們在利用演算法的時候,也不自覺地成了被演算法計算的對象。
「大數據殺熟」意指同樣的產品或者服務,老客戶看到的價格反倒比新客戶所看到的更高。而且還存在同一用戶信息在不同網路平台之間被共享的問題,許多用戶都遇到過這樣的情形:在一個網站瀏覽或搜索的內容很快會被另一個網站進行推薦或成為其廣告客戶。
在傳統銷售模式下,通常是老客戶能夠享受到更多的優惠,這些優惠往往通過會員卡、積分制等不同形式來實現,也廣為大眾所接受。
然而,通過網路平台開展的許多銷售活動,卻出現了相反的情況:隨著用戶在某個平台上消費次數的增加、消費金額的不斷提高,其最開始能夠享受到的各種優惠卻會逐漸消失,甚至變成老用戶可能要付出更高的價錢獲得服務,而新用戶則能夠享受到各類優惠。
這種問題在美國早就引起過熱議,2000年亞馬遜曾對68款碟片進行類似的定價機制。新顧客購買價格為22.74美元,老顧客卻需要26.24美元。在引起消費者廣泛質疑後,亞馬遜CEO貝佐斯回應這只是隨機價格的一種測試,並向高價客戶退還差價,這次風波才得以平息。2012年《華爾街日報》又爆料一家名為Staples的文具店的「差別定價」事件。
從某種意義上說,「大數據殺熟」屬於大數據營銷,部分平台在有了大數據這個強大的用戶畫像工具後,實現了千人千面的定價機制。利用大數據技術對用戶資料進行細分,根據用戶習慣建立用戶畫像,然後通過畫像給用戶推薦相應的產品與服務,並且進行差異化定價。
根據《中華人民共和國價格法》第十四條規定,經營者提供相同商品或者服務,不得對具有同等交易條件的其他經營者實行價格歧視。由於該法未針對「同等交易條件」進行詳細解釋,嚴格說來,網路平台依據大數據分析所做的「差別定價」並不能完全和「價格歧視」畫等號。
人們之所以會對「大數據殺熟」產生懷疑甚至憤怒,根本上是因為平台定價機制和供需匹配規則不透明。
基於用戶注冊及個人信息、地理位置、消費記錄、搜索習慣等行為數據,平台能夠針對不同的用戶形成獨特的用戶畫像。這一畫像有助於平台為用戶提供精準的個性化服務,但也埋下了「大數據殺熟」的潛在風險。
針對新老用戶或不同消費習慣的用戶,一些平台提供的同一產品或服務,存在較為嚴重的價格歧視現象,引發廣泛爭議。平台定價機制和供需匹配規則的不透明,還使得消費者在權益遭到損害時陷入舉證難、維權難的境地。
演算法引發的第二個問題可以被稱為「信息繭房」和「回聲室效應」。
「信息繭房」可能帶來的後果是,長期被禁錮在其中的個人,其思維甚至是生活可能呈現出一種定式化、程序化的狀態,失去了解不同事物的能力和接觸機會;另外,還可能加劇人與人的差異性、分化,甚至很有可能帶來一大批 社會 極端分子,從而帶來安全威脅,影響 社會 的穩定。
經濟學家安東尼·唐恩斯認為,人們容易從觀點相似的人那裡獲取信息,從而減少信息成本。網路虛擬社群一方面使愛好相似的人們聚集到一起,但高度同質化的聚集也減少了他們接受多元化聲音的可能,從而形成封閉的「回聲室」。
演算法給用戶推薦的信息內容,如新聞標題、內容、圖片、評論等,都會影響用戶的情緒,甚至改變用戶的思想和觀點。在這些場景中,演算法本身只是從優化業務的角度出發進行推薦和內容分發,這些演算法的長期高頻率使用,在客觀上深刻地影響著用戶的思想和行為,甚至影響整個 社會 的價值傳播。
因此,演算法作為一種技術工具,或許是中立的無所謂正向或負向價值觀,但如果演算法技術與商業利益密切聯系,或者被應用於與人和 社會 相關的場景時,必然會引發一系列 社會 問題,不容迴避。
演算法引發的第三個主要問題是流量造假和流量劫持。
一些平台或商家通過人為或機器操作手段提高關鍵詞搜索量、平台用戶數、廣告點擊量、視頻播放量、產品購買量、服務評論數等,還有部分平台通過強制跳轉、妨礙破壞等技術手段,或者使用定向引流、廣告混淆等非技術手段劫持本應屬於競爭對手的流量,誘導用戶使用己方的產品或服務。
在直播電商領域中,2020年新華社曾報道,山東臨沂電商從業者孫玲玲,在某電商平台經營一家銷售糖果類產品的店鋪,一個月內,孫玲玲找了多位帶貨主播,這些主播粉絲數量都超過百萬,但幾乎每場帶貨都以賠錢收場,流量造假問題也相當突出。
當前關於規范惡意流量競爭的制度尚不健全。一是法律規定較為模糊,尤其是對於流量不正當競爭行為的構成要件與法律責任缺乏明確界定;二是平台企業流量競爭手段越來越隱蔽和復雜,導致不正當競爭行為的舉證、認定及對損害和賠償額度的確定都存在較大難度。
隨著網路技術的進步與平台經濟的發展,如何規制流量惡意競爭等新型不正當競爭行為、營造公平競爭的市場環境,成為亟須深入研究的重要課題。
此外,還有操縱榜單和控制熱搜等問題。「熱搜」原本反映的是當前輿論最關切的熱點問題,但在實踐中我們發現,其後台演算法有可能被濫用,出現操縱榜單、控制熱搜、人為製造輿論熱點等問題,嚴重影響著民眾對熱搜的信任。
卓別林的電影《摩登時代》對機器操控產業工人的諷刺,以及馬克思著作《1844年經濟學哲學手稿》對機器工業化時代人類「異化」的警示,無不提醒我們,就像機器流水線有可能凌駕於勞動工人之上一樣,當今無處不在的演算法若應用不當,也有可能成為一種凌駕於人之上的力量,為人和 社會 的發展帶來新的風險。
為此,有效加強演算法監管,積極應對新技術發展帶來的挑戰,讓人類更好地享受新技術發展的福利,是順應平台經濟發展趨勢的必然要求。
針對演算法應用這一全新的治理課題,我國正在不斷加強相關領域的制度建設和規范。如早在2018年,我國資管新規《關於規範金融機構資產管理業務的指導意見》就提出要避免智能演算法的順周期性風險,要求金融機構,應當根據不同產品投資策略,研發對應的人工智慧演算法或者程序化交易,避免演算法同質化加劇投資行為的順周期性,並針對由此可能引發的市場波動風險制訂應對預案。
此外,新規提出,因演算法同質化、編程設計錯誤、對數據利用深度不夠等人工智慧演算法模型缺陷或者系統異常,導致「羊群效應」、影響金融市場穩定運行的,金融機構應當及時採取人工干預措施,強制調整或者終止人工智慧業務。
2020年12月中共中央印發的《法治 社會 建設實施綱要(2020-2025年)》提出,制定完善對網路直播、自媒體、知識社區問答等新媒體業態和演算法推薦、深度偽造等新技術應用的規范管理辦法;加強對大數據、雲計算和人工智慧等新技術研發應用的規范引導。
尤其是2021年出台的系列制度,從反壟斷等不正當競爭、保護消費者權益、保護個人信息安全等不同角度和側重點,對演算法應用引發的「大數據殺熟」行為提出了規范要求。
2021年2月,《關於平台經濟領域的反壟斷指南》規定,基於大數據和演算法,根據交易相對人的支付能力、消費偏好、使用習慣等,實行差異性交易價格或者其他交易條件;對新老交易相對人實行差異性交易價格或者其他交易條件;實行差異性標准、規則、演算法;實行差異性付款條件和交易方式等,都可能被認定為「大數據殺熟」等不正當競爭行為而面臨更嚴格的監管。
2021年8月,國家市場監督管理總局公布的《禁止網路不正當競爭行為規定(公開徵求意見稿)》第二十一條指出,經營者不得利用數據、演算法等技術手段,通過收集、分析交易相對方的交易信息、瀏覽內容及次數、交易時使用的終端設備的品牌及價值等方式,對交易條件相同的交易相對方不合理地提供不同的交易信息,侵害交易相對方的知情權、選擇權、公平交易權等,擾亂市場公平交易秩序。
從監管的角度來看,反不正當競爭法對「大數據殺熟」行為的規制的最大特點在於,企業並不需要具備市場支配地位,無論平台企業的市場地位如何,經營者利用技術手段,實施「二選一」行為,或者利用數據、演算法等技術手段,侵害交易相對方的知情權、選擇權、公平交易權等,擾亂市場公平交易秩序,實施「大數據殺熟」的行為,均會受到反不正當競爭法的限制。
2021年11月1日開始正式實施的個人信息保護法,第一次在法律文本中定義了「自動化決策」一詞的含義,即「通過計算機程序自動分析、評估個人的行為習慣、興趣愛好或者經濟、 健康 、信用狀況等,並進行決策的活動」。對利用個人信息進行自動化決策做了針對性的規范,要求個人信息處理者保證自動化決策的透明度和結果的公平、公正,不得通過自動化決策對個人在交易價格等交易條件上實行不合理的差別待遇,並在事前進行個人信息保護影響評估。個人認為自動化決策對其權益造成重大影響的,有權拒絕個人信息處理者僅通過自動化決策的方式做出決定。
可以說,這里的規定,更加強調對用戶人格權益的保護,旨在保護個人信息安全。
演算法規制的第二個重點是,演算法在互聯網信息服務領域的應用。
2021年8月,國家互聯網信息辦公室就《互聯網信息服務演算法推薦管理規定(徵求意見稿)》向 社會 公開徵求意見。徵求意見稿中明確,所謂的演算法推薦技術,是指應用生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類等演算法技術向用戶提供信息內容。
這意味著,各類信息流平台、用戶生成內容(UGC)平台都在被監管范圍內。甚至在朋友圈內常見的信息流廣告,亦是推薦演算法的結果,也應該遵守相關規定。
徵求意見稿第一次區分了生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類五類向用戶提供信息內容的演算法技術,並就演算法推薦服務提供者的責任和義務、演算法推薦服務公告和演算法備案等制度、演算法推薦未成年人模式做出了詳細規定。
在網路信息內容生態方面,徵求意見稿提出,演算法推薦服務提供者應當堅持主流價值導向,優化演算法推薦服務機制,積極傳播正能量,促進演算法應用向上向善。
強調要「建立完善人工干預和用戶自主選擇機制」,也就是說,不能依賴演算法進行內容推薦,要增加人工識別及篩選的過程,在首頁首屏、熱搜、精選、榜單類、彈窗等重點環節積極呈現符合主流價值導向的信息內容。
這意味著,在壓實互聯網信息服務平台主體責任方面,除了要求對謠言及其他不法信息進行治理,演算法決策的合規化也是一個重要抓手。
在平台演算法推薦服務過程中,依據何種演算法和邏輯使用數據,將成為平台演算法規制的重要內容。徵求意見稿對演算法推薦服務提供者在演算法規則及公示方面都提出了要求。
2021年9月,國家互聯網信息辦公室印發《關於加強互聯網信息服務演算法綜合治理的指導意見》,提出要用三年左右時間,逐步建立治理機制健全、監管體系完善、演算法生態規范的演算法安全綜合治理格局。
在健全演算法安全治理機制方面,《意見》提出要致力於打造形成政府監管、企業履責、行業自律、 社會 監督的演算法安全多元共治局面。尤其是要強化平台企業主體責任,明確提出,企業應強化責任意識,對演算法應用產生的結果負主體責任,並建立演算法安全責任制度和 科技 倫理審查制度。
在促進演算法生態規范發展方面,《意見》則提出要推動演算法公開透明,督促企業及時、合理、有效地公開演算法基本原理、優化目標、決策標准等信息,做好演算法結果解釋,暢通投訴通道。
《平台治理2.0》,於鳳霞 著
電子工業出版社,2022年4月出版
近年來數字經濟增加值在我國GDP中的佔比不斷提升,但相對經濟總量而言還是偏低;新業態新模式發展過程中也出現了新的問題和挑戰。因此,在推動和規范數字經濟發展的同時,需要重構治理體系,進一步突出競爭政策基礎地位,並構建起全方位、多層次、立體化的治理體系。本書圍繞平台治理,分析我國在數字治理、反壟斷等方面的 探索 ,平台經濟在發展過程中的挑戰和可能的應對之策。
② 推薦演算法簡介
寫在最前面:本文內容主要來自於書籍《推薦系統實踐》和《推薦系統與深度學習》。
推薦系統是目前互聯網世界最常見的智能產品形式。從電子商務、音樂視頻網站,到作為互聯網經濟支柱的在線廣告和新穎的在線應用推薦,到處都有推薦系統的身影。推薦演算法是推薦系統的核心,其本質是通過一定的方式將用戶和物品聯系起來,而不同的推薦系統利用了不同的方式。
推薦系統的主要功能是以個性化的方式幫助用戶從極大的搜索空間中快速找到感興趣的對象。因此,目前所用的推薦系統多為個性化推薦系統。個性化推薦的成功應用需要兩個條件:
在推薦系統的眾多演算法中,基於協同的推薦和基於內容的推薦在實踐中得到了最廣泛的應用。本文也將從這兩種演算法開始,結合時間、地點上下文環境以及社交環境,對常見的推薦演算法做一個簡單的介紹。
基於內容的演算法的本質是對物品內容進行分析,從中提取特徵,然後基於用戶對何種特徵感興趣來推薦含有用戶感興趣特徵的物品。因此,基於內容的推薦演算法有兩個最基本的要求:
下面我們以一個簡單的電影推薦來介紹基於內容的推薦演算法。
現在有兩個用戶A、B和他們看過的電影以及打分情況如下:
其中問好(?)表示用戶未看過。用戶A對《銀河護衛隊 》《變形金剛》《星際迷航》三部科幻電影都有評分,平均分為 4 .7 分 ( (5+4+5 ) / 3=4.7 );對《三生三世》《美人魚》《北京遇上西雅圖》三部愛情電影評分平均分為 2.3 分 ( ( 3十2+2 ) /3=2.3 )。現在需要給A推薦電影,很明顯A更傾向於科幻電影,因此推薦系統會給A推薦獨立日。而對於用戶B,通過簡單的計算我們可以知道更喜歡愛情電影,因此給其推薦《三生三世》。當然,在實際推薦系統中,預測打分比這更加復雜些,但是其原理是一樣的。
現在,我們可以將基於內容的推薦歸納為以下四個步驟:
通過上面四步就能快速構建一個簡單的推薦系統。基於內容的推薦系統通常簡單有效,可解釋性好,沒有物品冷啟動問題。但他也有兩個明顯的缺點:
最後,順便提一下特徵提取方法:對於某些特徵較為明確的物品,一般可以直接對其打標簽,如電影類別。而對於文本類別的特徵,則主要是其主題情感等,則些可以通過tf-idf或LDA等方法得到。
基於協同的演算法在很多地方也叫基於鄰域的演算法,主要可分為兩種:基於用戶的協同演算法和基於物品的協同演算法。
啤酒和尿布的故事在數據挖掘領域十分有名,該故事講述了美國沃爾瑪超市統計發現啤酒和尿布一起被購買的次數非常多,因此將啤酒和尿布擺在了一起,最後啤酒和尿布的銷量雙雙增加了。這便是一個典型的物品協同過濾的例子。
基於物品的協同過濾指基於物品的行為相似度(如啤酒尿布被同時購買)來進行物品推薦。該演算法認為,物品A和物品B具有很大相似度是因為喜歡物品A的用戶大都也喜歡物品B。
基於物品的協同過濾演算法主要分為兩步:
基於物品的協同過濾演算法中計算物品相似度的方法有以下幾種:
(1)基於共同喜歡物品的用戶列表計算。
此外,John S. Breese再其論文中還提及了IUF(Inverse User Frequence,逆用戶活躍度)的參數,其認為活躍用戶對物品相似度的貢獻應該小於不活躍的用戶,應該增加IUF參數來修正物品相似度的公式:
上面的公式只是對活躍用戶做了一種軟性的懲罰, 但對於很多過於活躍的用戶, 比如某位買了當當網80%圖書的用戶, 為了避免相似度矩陣過於稠密, 我們在實際計算中一般直接忽略他的興趣列表, 而不將其納入到相似度計算的數據集中。
(2)基於餘弦相似度計算。
(3)熱門物品的懲罰。
從上面(1)的相似度計算公式中,我們可以發現當物品 i 被更多人購買時,分子中的 N(i) ∩ N(j) 和分母中的 N(i) 都會增長。對於熱門物品,分子 N(i) ∩ N(j) 的增長速度往往高於 N(i),這就會使得物品 i 和很多其他的物品相似度都偏高,這就是 ItemCF 中的物品熱門問題。推薦結果過於熱門,會使得個性化感知下降。以歌曲相似度為例,大部分用戶都會收藏《小蘋果》這些熱門歌曲,從而導致《小蘋果》出現在很多的相似歌曲中。為了解決這個問題,我們對於物品 i 進行懲罰,例如下式, 當α∈(0, 0.5) 時,N(i) 越小,懲罰得越厲害,從而使熱門物品相關性分數下降( 博主註:這部分未充分理解 ):
此外,Kary pis在研究中發現如果將ItemCF的相似度矩陣按最大值歸一化, 可以提高推薦的准確率。 其研究表明, 如果已經得到了物品相似度矩陣w, 那麼可以用如下公式得到歸一化之後的相似度矩陣w':
歸一化的好處不僅僅在於增加推薦的准確度,它還可以提高推薦的覆蓋率和多樣性。一般來說,物品總是屬於很多不同的類,每一類中的物品聯系比較緊密。假設物品分為兩類——A和B, A類物品之間的相似度為0.5, B類物品之間的相似度為0.6, 而A類物品和B類物品之間的相似度是0.2。 在這種情況下, 如果一個用戶喜歡了5個A類物品和5個B類物品, 用ItemCF給他進行推薦, 推薦的就都是B類物品, 因為B類物品之間的相似度大。 但如果歸一化之後, A類物品之間的相似度變成了1, B類物品之間的相似度也是1, 那麼這種情況下, 用戶如果喜歡5個A類物品和5個B類物品, 那麼他的推薦列表中A類物品和B類物品的數目也應該是大致相等的。 從這個例子可以看出, 相似度的歸一化可以提高推薦的多樣性。
那麼,對於兩個不同的類,什麼樣的類其類內物品之間的相似度高,什麼樣的類其類內物品相似度低呢?一般來說,熱門的類其類內物品相似度一般比較大。如果不進行歸一化,就會推薦比較熱門的類裡面的物品,而這些物品也是比較熱門的。因此,推薦的覆蓋率就比較低。相反,如果進行相似度的歸一化,則可以提高推薦系統的覆蓋率。
最後,利用物品相似度矩陣和用戶打過分的物品記錄就可以對一個用戶進行推薦評分:
基於用戶的協同演算法與基於物品的協同演算法原理類似,只不過基於物品的協同是用戶U購買了A物品,會計算經常有哪些物品與A一起購買(也即相似度),然後推薦給用戶U這些與A相似的物品。而基於用戶的協同則是先計算用戶的相似性(通過計算這些用戶購買過的相同的物品),然後將這些相似用戶購買過的物品推薦給用戶U。
基於用戶的協同過濾演算法主要包括兩個步驟:
步驟(1)的關鍵是計算用戶的興趣相似度,主要是利用用戶的行為相似度計算用戶相似度。給定用戶 u 和 v,N(u) 表示用戶u曾經有過正反饋(譬如購買)的物品集合,N(v) 表示用戶 v 曾經有過正反饋的物品集合。那麼我們可以通過如下的 Jaccard 公式簡單的計算 u 和 v 的相似度:
或通過餘弦相似度:
得到用戶之間的相似度之後,UserCF演算法會給用戶推薦和他興趣最相似的K個用戶喜歡的物品。如下的公式度量了UserCF演算法中用戶 u 對物品 i 的感興趣程度:
首先回顧一下UserCF演算法和ItemCF演算法的推薦原理:UserCF給用戶推薦那些和他有共同興趣愛好的用戶喜歡的物品, 而ItemCF給用戶推薦那些和他之前喜歡的物品具有類似行為的物品。
(1)從推薦場景考慮
首先從場景來看,如果用戶數量遠遠超過物品數量,如購物網站淘寶,那麼可以考慮ItemCF,因為維護一個非常大的用戶關系網是不容易的。其次,物品數據一般較為穩定,因此物品相似度矩陣不必頻繁更新,維護代價較小。
UserCF的推薦結果著重於反應和用戶興趣相似的小群體的熱點,而ItemCF的推薦結果著重於維系用戶的歷史興趣。換句話說,UserCF的推薦更社會化,反應了用戶所在小型興趣群體中物品的熱門程度,而ItemCF的推薦更加個性化,反應了用戶自己的個性傳承。因此UserCF更適合新聞、微博或微內容的推薦,而且新聞內容更新頻率非常高,想要維護這樣一個非常大而且更新頻繁的表無疑是非常難的。
在新聞類網站中,用戶的興趣愛好往往比較粗粒度,很少會有用戶說只看某個話題的新聞,而且往往某個話題也不是每天都會有新聞。 個性化新聞推薦更強調新聞熱點,熱門程度和時效性是個性化新聞推薦的重點,個性化是補充,所以 UserCF 給用戶推薦和他有相同興趣愛好的人關注的新聞,這樣在保證了熱點和時效性的同時,兼顧了個性化。
(2)從系統多樣性(也稱覆蓋率,指一個推薦系統能否給用戶提供多種選擇)方面來看,ItemCF的多樣性要遠遠好於UserCF,因為UserCF更傾向於推薦熱門物品。而ItemCF具有較好的新穎性,能夠發現長尾物品。所以大多數情況下,ItemCF在精度上較小於UserCF,但其在覆蓋率和新穎性上面卻比UserCF要好很多。
在介紹本節基於矩陣分解的隱語義模型之前,讓我們先來回顧一下傳統的矩陣分解方法SVD在推薦系統的應用吧。
基於SVD矩陣分解在推薦中的應用可分為如下幾步:
SVD在計算前會先把評分矩陣 A 缺失值補全,補全之後稀疏矩陣 A 表示成稠密矩陣,然後將分解成 A' = U∑V T 。但是這種方法有兩個缺點:(1)補成稠密矩陣後需要耗費巨大的儲存空間,對這樣巨大的稠密矩陣進行儲存是不現實的;(2)SVD的計算復雜度很高,對這樣大的稠密矩陣中進行計算式不現實的。因此,隱語義模型就被發明了出來。
更詳細的SVD在推薦系統的應用可參考 奇異值分解SVD簡介及其在推薦系統中的簡單應用 。
隱語義模型(Latent Factor Model)最早在文本挖掘領域被提出,用於找到文本的隱含語義。相關的演算法有LSI,pLSA,LDA和Topic Model。本節將對隱語義模型在Top-N推薦中的應用進行詳細介紹,並通過實際的數據評測該模型。
隱語義模型的核心思想是通過隱含特徵聯系用戶興趣和物品。讓我們通過一個例子來理解一下這個模型。
現有兩個用戶,用戶A的興趣涉及偵探小說、科普圖書以及一些計算機技術書,而用戶B的興趣比較集中在數學和機器學習方面。那麼如何給A和B推薦圖書呢?
我們可以對書和物品的興趣進行分類。對於某個用戶,首先得到他的興趣分類,然後從分類中挑選他可能喜歡的物品。簡言之,這個基於興趣分類的方法大概需要解決3個問題:
對於第一個問題的簡單解決方案是找相關專業人員給物品分類。以圖書為例,每本書出版時,編輯都會給出一個分類。但是,即使有很系統的分類體系,編輯給出的分類仍然具有以下缺點:(1)編輯的意見不能代表各種用戶的意見;(2)編輯很難控制分類的細粒度;(3)編輯很難給一個物品多個分類;(4)編輯很難給一個物品多個分類;(5)編輯很難給出多個維度的分類;(6)編輯很難決定一個物品在某一個類別中的權重。
為了解決上述問題,研究員提出可以從數據出發,自動找到那些分類,然後進行個性化推薦。隱語義模型由於採用基於用戶行為統計的自動聚類,較好地解決了上面提出的5個問題。
LFM將矩陣分解成2個而不是3個:
推薦系統中用戶和物品的交互數據分為顯性反饋和隱性反饋數據。隱式模型中多了一個置信參數,具體涉及到ALS(交替最小二乘法,Alternating Least Squares)中對於隱式反饋模型的處理方式——有的文章稱為「加權的正則化矩陣分解」:
一個小細節:在隱性反饋數據集中,只有正樣本(正反饋)沒有負反饋(負樣本),因此如何給用戶生成負樣本來進行訓練是一個重要的問題。Rong Pan在其文章中對此進行了探討,對比了如下幾種方法:
用戶行為很容易用二分圖表示,因此很多圖演算法都可以應用到推薦系統中。基於圖的模型(graph-based model)是推薦系統中的重要內容。很多研究人員把基於領域的模型也稱為基於圖的模型,因為可以把基於領域的模型看作基於圖的模型的簡單形式。
在研究基於圖的模型之前,需要將用戶行為數據表示成圖的形式。本節的數據是由一系列用戶物品二元組 (u, i) 組成的,其中 u 表示用戶對物品 i 產生過行為。
令 G(V, E) 表示用戶物品二分圖,其中 V=V U UV I 由用戶頂點 V U 和物品節點 V I 組成。對於數據集中每一個二元組 (u, i) ,圖中都有一套對應的邊 e(v u , v i ),其中 v u ∈V U 是用戶對應的頂點,v i ∈V I 是物品i對應的頂點。如下圖是一個簡單的物品二分圖,其中圓形節點代表用戶,方形節點代表物品,用戶物品的直接連線代表用戶對物品產生過行為。比如下圖中的用戶A對物品a、b、d產生過行為。
度量圖中兩個頂點之間相關性的方法很多,但一般來說圖中頂點的相關性主要取決於下面3個因素:
而相關性高的一對頂點一般具有如下特徵:
舉個例子,如下圖,用戶A和物品c、e沒有邊直連,但A可通過一條長度為3的路徑到達c,而Ae之間有兩條長度為3的路徑。那麼A和e的相關性要高於頂點A和c,因而物品e在用戶A的推薦列表中應該排在物品c之前,因為Ae之間有兩條路徑。其中,(A,b,C,e)路徑經過的頂點的出度為(3,2,2,2),而 (A,d,D,e) 路徑經過了一個出度比較大的頂點D,所以 (A,d,D,e) 對頂點A與e之間相關性的貢獻要小於(A,b,C,e)。
基於上面3個主要因素,研究人員設計了很多計算圖中頂點相關性的方法,本節將介紹一種基於隨機遊走的PersonalRank演算法。
假設要給用戶u進行個性化推薦,可以從用戶u對應的節點 v u 開始在用戶物品二分圖上進行隨機遊走。遊走到任一節點時,首先按照概率α決定是繼續遊走還是停止這次遊走並從 v u 節點重新開始遊走。若決定繼續遊走,則從當前節點指向的節點中按照均勻分布隨機選擇一個節點作為遊走下次經過的節點。這樣,經過很多次隨機遊走後,每個物品被訪問到的概率會收斂到一個數。最終的推薦列表中物品的權重就是物品節點的訪問概率。
上述演算法可以表示成下面的公式:
雖然通過隨機遊走可以很好地在理論上解釋PersonalRank演算法,但是該演算法在時間復雜度上有明顯的缺點。因為在為每個用戶進行推薦時,都需要在整個用戶物品二分圖上進行迭代,知道所有頂點的PR值都收斂。這一過程的時間復雜度非常高,不僅無法在線進行實時推薦,離線計算也是非常耗時的。
有兩種方法可以解決上面PersonalRank時間復雜度高的問題:
(1)減少迭代次數,在收斂之前停止迭代。但是這樣會影響最終的精度。
(2)從矩陣論出發,重新涉及演算法。另M為用戶物品二分圖的轉移概率矩陣,即:
網路社交是當今社會非常重要甚至可以說是必不可少的社交方式,用戶在互聯網上的時間有相當大的一部分都用在了社交網路上。
當前國外最著名的社交網站是Facebook和Twitter,國內的代表則是微信/QQ和微博。這些社交網站可以分為兩類:
需要指出的是,任何一個社交網站都不是單純的社交圖譜或興趣圖譜。如QQ上有些興趣愛好群可以認識不同的陌生人,而微博中的好友也可以是現實中認識的。
社交網路定義了用戶之間的聯系,因此可以用圖定義社交網路。我們用圖 G(V,E,w) 定義一個社交網路,其中V是頂點集合,每個頂點代表一個用戶,E是邊集合,如果用戶va和vb有社交網路關系,那麼就有一條邊 e(v a , v b ) 連接這兩個用戶,而 w(v a , v b )定義了邊的權重。一般來說,有三種不同的社交網路數據:
和一般購物網站中的用戶活躍度分布和物品流行度分布類似,社交網路中用戶的入度(in degree,表示有多少人關注)和出度(out degree,表示關注多少人)的分布也是滿足長尾分布的。即大部分人關注的人都很少,被關注很多的人也很少。
給定一個社交網路和一份用戶行為數據集。其中社交網路定義了用戶之間的好友關系,而用戶行為數據集定義了不同用戶的歷史行為和興趣數據。那麼最簡單的演算法就是給用戶推薦好友喜歡的物品集合。即用戶u對物品i的興趣 p ui 可以通過如下公式計算。
用戶u和用戶v的熟悉程度描述了用戶u和用戶在現實社會中的熟悉程度。一般來說,用戶更加相信自己熟悉的好友的推薦,因此我們需要考慮用戶之間的熟悉度。下面介紹3中衡量用戶熟悉程度的方法。
(1)對於用戶u和用戶v,可以使用共同好友比例來計算他們的相似度:
上式中 out(u) 可以理解為用戶u關注的用戶合集,因此 out(u) ∩ out(v) 定義了用戶u、v共同關注的用戶集合。
(2)使用被關注的用戶數量來計算用戶之間的相似度,只要將公式中的 out(u) 修改為 in(u):
in(u) 是指關注用戶u的集合。在無向社交網路中,in(u)和out(u)是相同的,而在微博這種有向社交網路中,這兩個集合的含義就不痛了。一般來說,本方法適合用來計算微博大V之間的相似度,因為大v往往被關注的人數比較多;而方法(1)適用於計算普通用戶之間的相似度,因為普通用戶往往關注行為比較豐富。
(3)除此之外,還可以定義第三種有向的相似度:這個相似度的含義是用戶u關注的用戶中,有多大比例也關注了用戶v:
這個相似度有一個缺點,就是在該相似度下所有人都和大v有很大的相似度,這是因為公式中的分母並沒有考慮 in(v) 的大小,所以可以把 in(v) 加入到上面公式的分母,來降低大v與其他用戶的相似度:
上面介紹了3種計算用戶之間相似度(或稱熟悉度)的計算方法。除了熟悉程度,還需要考慮用戶之間的興趣相似度。我們和父母很熟悉,但很多時候我們和父母的興趣確不相似,因此也不會喜歡他們喜歡的物品。因此,在度量用戶相似度時,還需要考慮興趣相似度,而興趣相似度可以通過和UserCF類似的方法度量,即如果兩個用戶喜歡的物品集合重合度很高,兩個用戶的興趣相似度很高。
最後,我們可以通過加權的形式將兩種權重合並起來,便得到了各個好有用戶的權重了。
有了權重,我們便可以針對用戶u挑選k個最相似的用戶,把他們購買過的物品中,u未購買過的物品推薦給用戶u即可。打分公式如下:
其中 w' 是合並後的權重,score是用戶v對物品的打分。
node2vec的整體思路分為兩個步驟:第一個步驟是隨機遊走(random walk),即通過一定規則隨機抽取一些點的序列;第二個步驟是將點的序列輸入至word2vec模型從而得到每個點的embedding向量。
隨機遊走在前面基於圖的模型中已經介紹過,其主要分為兩步:(1)選擇起始節點;(2)選擇下一節點。起始節點選擇有兩種方法:按一定規則抽取一定量的節點或者以圖中所有節點作為起始節點。一般來說會選擇後一種方法以保證所有節點都會被選取到。
在選擇下一節點方法上,最簡單的是按邊的權重來選擇,但在實際應用中需要通過廣度優先還是深度優先的方法來控制遊走范圍。一般來說,深度優先發現能力更強,廣度優先更能使社區內(較相似)的節點出現在一個路徑里。
斯坦福大學Jure Leskovec教授給出了一種可以控制廣度優先或者深度優先的方法。
以上圖為例,假設第一步是從t隨機遊走到v,這時候我們要確定下一步的鄰接節點。本例中,作者定義了p和q兩個參數變數來調節遊走,首先計算其鄰居節點與上一節點t的距離d,根據下面的公式得到α:
一般從每個節點開始遊走5~10次,步長則根據點的數量N遊走根號N步。如此便可通過random walk生成點的序列樣本。
得到序列之後,便可以通過word2vec的方式訓練得到各個用戶的特徵向量,通過餘弦相似度便可以計算各個用戶的相似度了。有了相似度,便可以使用基於用戶的推薦演算法了。
推薦系統需要根據用戶的歷史行為和興趣預測用戶未來的行為和興趣,因此大量的用戶行為數據就成為推薦系統的重要組成部分和先決條件。如何在沒有大量用戶數據的情況下設計個性化推薦系統並且讓用戶對推薦結果滿意從而願意使用推薦系統,就是冷啟動問題。
冷啟動問題主要分為三類:
針對用戶冷啟動,下面給出一些簡要的方案:
(1)有效利用賬戶信息。利用用戶注冊時提供的年齡、性別等數據做粗粒度的個性化;
(2)利用用戶的社交網路賬號登錄(需要用戶授權),導入用戶在社交網站上的好友信息,然後給用戶推薦其好友喜歡的物品;
(3)要求用戶在登錄時對一些物品進行反饋,手機用戶對這些物品的興趣信息,然後給用推薦那些和這些物品相似的物品;
(4)提供非個性化推薦。非個性化推薦的最簡單例子就是熱門排行榜,我們可以給用戶推薦熱門排行榜,然後等到用戶數據收集到一定的時候,在切換為個性化推薦。
對於物品冷啟動,可以利用新加入物品的內容信息,將它們推薦給喜歡過和他們相似的物品的用戶。
對於系統冷啟動,可以引入專家知識,通過一定高效的方式快速建立起物品的相關度表。
在上面介紹了一些推薦系統的基礎演算法知識,這些演算法大都是比較經典且現在還在使用的。但是需要注意的是,在實踐中,任何一種推薦演算法都不是單獨使用的,而是將多種推薦演算法結合起來,也就是混合推薦系統,但是在這里並不準備介紹,感興趣的可以查閱《推薦系統》或《推薦系統與深度學習》等書籍。此外,在推薦中非常重要的點擊率模型以及基於矩陣的一些排序演算法在這里並沒有提及,感興趣的也可自行學習。
雖然現在用的很多演算法都是基於深度學習的,但是這些經典演算法能夠讓我們對推薦系統的發展有一個比較好的理解,同時,更重要的一點——「推陳出新」,只有掌握了這些經典的演算法,才能提出或理解現在的一些更好地演算法。
③ 為什麼廣告軟體要記錄用戶活動
個性化廣告投放技術已趨近成熟,無需通過「監聽用戶」來投放廣告。打消用戶顧慮,有待於演算法推薦機制的透明、公開,以及隱私計算技術的發展。
文|《財經》商業治理研究院研究員 殷繼
編輯|朱弢
你和朋友剛討論完新出的運動鞋,打開手機,立刻就收到了淘寶的推薦;你和朋友電話里定好今晚酒吧聚會,很快,附近酒吧和餐廳的推薦廣告就頻繁出現在你常用的App中。
「我覺得App可能在監聽我們的對話,要不然為什麼總是有那麼多巧合?」家住北京的王悅說,之所以讓她感到擔憂,是有一天夜裡她在客廳和男友討論點外賣吃小龍蝦,接著她的生活服務類App首頁推薦都是小龍蝦。
「可能是種巧合吧,感覺App不太可能通過麥克風來監聽我,它們應該主要根據我的所在城市、搜索、瀏覽的東西來向我推送廣告。」李強在深圳從事IT工作,在他看來,App用設備麥克風監聽用戶不太劃算。「要實現這種效果,首先要識別用戶說了什麼再進行語義分析,有時候蘋果Siri都聽不清你說的話,更何況那些App。」
如果App沒有監聽用戶說話,用戶在手機上收到的廣告為什麼越來越精準?怎麼會有那麼多的巧合?如何避免App違規使用個人信息和隱私?又有哪些技術手段可以保護用戶個人信息和隱私不被濫用?
01
接受個性化推薦,無需付出隱私代價
如今,人們的生活離不開演算法推薦技術,電商在618購物節向你推送「可能感興趣」的商品;抖音根據你的點贊行為推薦更多你「可能喜歡」的視頻;搜索引擎也根據你的點擊操作進行檢索過濾、排序精選,展示出你可能想要看到的搜索結果。
個性化推薦是演算法推薦應用中最普遍的場景,它通過對用戶興趣偏好進行分析,組合不同畫像的特徵,實現向用戶分類推送可能符合其喜好的產品或內容。例如,亞馬遜、淘寶等電商平台,依靠個性化廣告所帶來的訂單轉化率已經逐漸超過傳統的營銷方式,這足以顯示個性化推薦運用之廣泛。
用戶對於演算法的態度如何呢?德勤2021年《數字媒體趨勢報告》對2009名美國消費者的調查顯示,在不同的平台和群體中,人們對廣告的容忍度有很大差異。例如,在社交媒體平台上,62%的Z世代和72%的千禧一代更願意看到針對自己喜好的個性化廣告,而不是普通廣告。
根據對外經濟貿易大學數字經濟與法律創新研究中心、中國人民大學數字經濟研究中心和螞蟻研究院共同發布的《演算法應用的用戶感知調查與分析報告》指出,雖然超八成受訪者希望企業提供個性化推薦服務,但是超半數受訪者不了解企業使用演算法的內容和目的。另外,近八成受訪者認為演算法應用可能損害消費者權益,超六成認為會侵犯隱私。
那麼,接受演算法推薦服務,用戶是否必然犧牲個人信息和隱私?
對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣在接受財經E法采訪時表示,個性化廣告推送並不一定非要以犧牲用戶個人信息和隱私為代價。一方面,推薦系統在設計和應用時完全可以通過一系列技術最大化保護用戶的隱私信息;另一方面,如果用戶的選擇退出權、標簽刪除權、反對權、知情權等各項權利能夠得到切實保障,那麼個人信息和隱私也能夠在個性化廣告推送實踐中得到穩妥保護。
02
通過「監聽」投廣告,可能只是錯覺
個性化廣告的精準推送,是否如一些人所擔憂那樣,是通過用App「監聽用戶」實現的呢?其實,依靠用戶畫像進行的個性化推薦會與用戶近期的行為數據、操作行為相關聯,以至於產生「被監聽」的錯覺。
▲ 用戶畫像數據為結構化的字元串數據
根據《財經》商業治理研究院與中國社科院大學互聯網法治研究中心聯合發布的《個性化廣告合規發展研究報告》介紹,從技術上來看,App可以調用「麥克風許可權」實現對用戶監聽的功能,但App開發者會面臨極大的法律風險甚至涉嫌犯罪。另外,在iOS和Android系統中,App調用「麥克風許可權」需要獲得用戶授權,並且在功能使用中對用戶進行強提示,用戶極易感知監聽帶來的設備發熱、耗電速度快等異常。
▲ 蘋果手機會實時顯示麥克風許可權正在被調用
《計算廣告》作者劉鵬認為,App如果無法獲取iOS、Android系統的麥克風許可權,除非拿到硬體晶元的訪問權才可以實現監聽用戶,但硬體晶元的訪問權在手機廠商手中,他們沒有任何動力向不相關的App開放這個許可權。「通過『監聽用戶』來投放廣告有些得不償失,這是種非理性的行為。」
「在實驗室測試環境中,我們模擬出了App在鎖屏後也能持續錄音一段時間的情況,但這種做法成本高、效率低、法律風險大,從此前了解到的檢測結果來看,尚未發現有App這樣做。」中國電子技術標准化研究院網路安全研究中心測評實驗室副主任何延哲認為,更為高效、成本低廉的方式就是大數據的關聯分析而非直接監聽。
對數據進行挖掘分析,並用於個性化廣告投放,在業內已形成通用且成熟的一套解決方案。目前,域內外法律及標准對個性化推薦進行明確的規制,且賦予個人信息主體的「拒絕權」,即如果反對使用自己的相關信息用於個性化廣告以及演算法推薦服務,用戶有權選擇關閉,來降低接收的廣告與興趣偏好的相關度。
03
隱私計算或可化解擔憂
2021年,在國家網信辦、工信部、公安部、市場監管總局(下稱「四部委」)發起的個人信息保護專項整治中,對208萬款APP進行了技術檢測,通報違規1549款,下架514款。
2022年3月1日,四部委聯合發布的《互聯網信息服務演算法推薦管理規定》(下稱《演算法推薦規定》)施行。其中,明確要求演算法推薦服務提供者保護演算法知情權、演算法選擇權等用戶權益。
「《演算法推薦規定》是第一部系統的、全面以演算法為調整對象的規范性法律文件。從體系性、規制工具箱的豐富性、調整演算法的多樣性、對用戶權益保護的周全性等多個層面來說,這個文件都具有開創性意義。」中國政法大學數據法制研究院教授張凌寒表示。
在個性化廣告領域,根據現有的法律規范以及相關標准,網路服務提供者對用戶具有「告知-同意」義務,告知收集個人信息的目的、方式及范圍,獲得用戶的授權同意。其中演算法推薦服務提供者,還應當給予用戶拒絕使用個人信息投放信息的選項。另外,部分團體標准與行業規范也專門就定向廣告、精準營銷的個人信息使用行為作出了具體的技術要求。
前述《個性化廣告合規發展研究報告》顯示,各國立法者對強化個人在演算法中的自主性已成共識。通過賦予了數據主體一系列權利,希望個體通過選擇權和控制權,弱化人在演算法社會被不斷異化的趨勢。同時,規制演算法歧視需要從法律、道德以及社會可接受的角度來衡量,往往需要跨學科、多部門協作,形成政府監管、行業自律和社會監督的「共享、共建、共治」綜合治理方案。
中國信通院泰爾終端實驗室數字生態研究與治理中心主任楊正軍認為,個性化廣告以及個人信息保護的推進需要兼顧用戶認知、行業水位和監管的尺度。
此外,外部的合規要求也助推著隱私計算技術的發展,這類技術旨在數據隱私保護的前提下,實現「數據可用不可見,數據不動模型動」。目前,各方在研究及落地應用的有「聯邦學習、安全多方計算、可信計算」等隱私計算技術體系。
《個性化廣告合規發展研究報告》指出,隨著域內外逐漸完備的立法以及趨嚴的監管,正在推進企業實現更高的個人信息及隱私保護,隨著隱私計算技術的發展,將逐步降低用戶對隱私侵犯的擔憂,成為平衡用戶體驗和個性化廣告產業發展的保障
④ 演算法推薦服務是什麼
演算法推薦服務是:在本質上,演算法是「以數學方式或者計算機代碼表達的意見」。其中,推薦系統服務就是一個信息過濾系統,幫助用戶減少因瀏覽大量無效數據而造成的時間、精力浪費。
並且在早期的研究提出了通過信息檢索和過濾的方式來解決這個問題。到了上世紀90年代中期,研究者開始通過預測用戶對推薦的物品、內容或服務的評分,試圖解決信息過載問題。推薦系統由此也作為獨立研究領域出現了。
用演算法推薦技術是指:應用演算法推薦技術,是指利用生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類等演算法技術向用戶提供信息。
基於內容的推薦方法:根據項的相關信息(描述信息、標簽等)、用戶相關信息及用戶對項的操作行為(評論、收藏、點贊、觀看、瀏覽、點擊等),來構建推薦演算法模型。
是否推薦演算法服務會導致信息窄化的問題:
推薦技術並不是單純地「投其所好」。在一些專家看來,在推薦已知的用戶感興趣內容基礎上,如果能深入激發、滿足用戶的潛在需求,那麼演算法就能更好地滿足人對信息的多維度訴求。
在外界的印象里,個性化推薦就像漏斗一樣,會將推薦內容與用戶相匹配,傾向於向用戶推薦高度符合其偏好的內容,致使推薦的內容越來越窄化。
但與外界的固有認知相反,《報告》認為在行業實踐中,互聯網應用(特別是位於頭部的大型平台)有追求演算法多樣性的內在動力。
在對行業內代表性應用的數據分析後,《報告》發現,閱讀內容的類型數量是否夠多、所閱讀內容類型的分散程度是否夠高,與用戶是否能長期留存關聯密切,呈正相關。上述兩項指標對用戶長期留存的作用,可以與信息的展現總量、用戶的停留時長、用戶閱讀量等指標的影響相媲美。
⑤ 數據演算法能力對廣告投放的影響怎樣,有多大
DSP普遍採用dCPM作為結算體系,dCPM指的是dynamic CPM,與目前網路廣告市場長講的CPM方式(此CPM相應的成為flat CPM)區別。dCPM基於RTB技術誕生,指的是每一次的impression出價是變化的。其每次出價均依據廣告主廣告投放的效果來實時計算,以得出對廣告主最有利的價格,從而保證了廣告主的利益。同時又因為以impression與媒體結算,也確保了媒體的收益。
⑥ 廣告精準推送是大數據嗎
是的。
精準推送多是指新媒體根據對大數據的信息化處理從而將人們想看的新聞、視頻、段子、商品等置於優先位置,在傳統媒體媒介中也存在精準推送如報紙不同版面,電視不同主題的台,廣播不同波段不同主題等也屬於精準推送范圍。
在新媒體的加入後,精準推送變得更加全面,數據更准確,范圍更廣,受眾更多。隨著信息技術的迅猛發展、大數據應用的興起,演算法推薦帶來的信息定製化、資訊分眾化已經得到較廣泛應用。
⑦ 數據演算法能力對廣告投放的影響
數據演算法對於規模化的流量開發者,至少能提升30%的收益權益,表現在,拉高品牌廣告頻次、提升廣告匹配度,通過類似於cookie的演算法,主動去廣告庫里挑選合適的廣告,一定是合適的,太高逼格的廣告要適量、然後大部分應該是中性合適的廣告,與app產品有一定的原生切合,所以MobTech袤博是值得嘗試。
⑧ 3分鍾輕鬆了解個性化推薦演算法
推薦這種體驗除了電商網站,還有新聞推薦、電台音樂推薦、搜索相關內容及廣告推薦,基於數據的個性化推薦也越來越普遍了。今天就針對場景來說說這些不同的個性化推薦演算法吧。
說個性化之前,先提一下非個性化。 非個性化的推薦也是很常見的,畢竟人嘛都有從眾心理,總想知道大家都在看什麼。非個性化推薦的方式主要就是以比較單一的維度加上半衰期去看全局排名,比如,30天內點擊排名,一周熱門排名。
但是只靠非個性化推薦有個弊端,就是馬太效應,點的人越多的,經過推薦點得人有更多。。。強者越強,弱者機會越少就越弱,可能導致兩級分化嚴重,一些比較優質素材就被埋沒了。
所以,為了解決一部分馬太效應的問題,也主要是順應數據化和自動化的模式,就需要增加個性化的推薦(可算說到正題了。。。)個性化的優點是不僅體驗好,而且也大大增加了效率,讓你更快找到你感興趣的東西。YouTube也曾做過實驗測試個性化和非個性化的效果,最終結果顯示個性化推薦的點擊率是同期熱門視頻的兩倍。
1.新聞、視頻、資訊和電台(基於內容推薦)
一般來說,如果是推薦資訊類的都會採用基於內容的推薦,甚至早期的郵件過濾也採用這種方式。
基於內容的推薦方法就是根據用戶過去的行為記錄來向用戶推薦相似額推薦品。簡單來說就是你常常瀏覽科技新聞,那就更多的給你推薦科技類的新聞。
復雜來說,根據行為設計權重,根據不同維度屬性區分推薦品都是麻煩的事,常用的判斷用戶可能會喜歡推薦品程度的餘弦向量公式長這樣,我就不解釋了(已經勾起了我關於高數不好的回憶)。。。
但是,這種演算法缺點是由於內容高度匹配,導致推薦結果的驚喜度較差,而且有冷啟動的問題,對新用戶不能提供可靠的推薦結果。並且,只有維度增加才能增加推薦的精度,但是維度一旦增加計算量也成指數型增長。如果是非實體的推薦品,定義風格也不是一件容易的事,同一個作者的文風和曲風也會發生改變。
2.電商零售類(協同過濾推薦和關聯規則推薦)
說電商推薦那不可能不講到亞馬遜,傳言亞馬遜有三成的銷售額都來自個性化的商品推薦系統。實際上,我自己也常常在這里找到喜歡的書,也願意主動的去看他到底給我推薦了什麼。
一般,電商主流推薦演算法是基於一個這樣的假設,「跟你喜好相似的人喜歡的東西你也很有可能喜歡。」即協同過濾過濾演算法。主要的任務就是找出和你品味最相近的用戶,從而根據最近他的喜好預測你也可能喜歡什麼。
這種方法可以推薦一些內容上差異較大但是又是用戶感興趣的物品,很好的支持用戶發現潛在的興趣偏好。也不需要領域知識,並且隨著時間推移性能提高。但是也存在無法向新用戶推薦的問題,系統剛剛開始時推薦質可能較量差。
電商行業也常常會使用到基於關聯規則的推薦。即以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。比如,你購買了羽毛球拍,那我相應的會向你推薦羽毛球周邊用品。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零售業中已經得到了成功的應用。
3.廣告行業(基於知識推薦)
自從可以瀏覽器讀取cookies,甚至獲得年齡屬性等信息,廣告的個性化投放就也可以根據不同場景使用了。
當用戶的行為數據較少時,基於知識的推薦可以幫助我們解決這類問題。用戶必須指定需求,然後系統設法給出解決方式。假設,你的廣告需要指定某地區某年齡段的投放,系統就根據這條規則進行計算。基於知識的推薦在某種程度是可以看成是一種推理技術。這種方法不需要用戶行為數據就能推薦,所以不存在冷啟動問題。推薦結果主要依賴兩種形式,基於約束推薦和基於實例推薦。
4.組合推薦
由於各種推薦方法都有優缺點,所以在實際中,並不像上文講的那樣採用單一的方法進行建模和推薦(我真的只是為了解釋清楚演算法)。。。
在組合方式上,也有多種思路:加權、變換、混合、特徵組合、層疊、特徵擴充、元級別。 並且,為了解決冷啟動的問題,還會相應的增加補足策略,比如根據用戶模型的數據,結合挖掘的各種榜單進行補足,如全局熱門、分類熱門等。 還有一些開放性的問題,比如,需不需要幫助用戶有品味的提升,引導人去更好的生活。
最後,我總想,最好的推薦效果是像一個了解你的朋友一樣跟你推薦,因為他知道你喜歡什麼,最近對什麼感興趣,也總能發現一些有趣的新東西。這讓我想到有一些朋友總會興致勃勃的過來說,嘿,給你推薦個東西,你肯定喜歡,光是聽到這句話我好像就開心起來,也許這就是我喜歡這個功能的原因。
⑨ 關於推薦演算法未來的思考:推薦詩與遠方
2021年8月27日,國家互聯網信息辦公室發布了關於《互聯網信息服務演算法推薦管理規定(徵求意見稿)》公開徵求意見的通知。
其中第十五條規定:
這從國家層面再次引發了大家對於推薦演算法的本質的思考。
信息繭房(Information Cocoon)是哈佛大學教授桑斯坦(Cass R. Sunstein)在2006年出版的《信息烏托邦》(Infotopia)一書中提出的概念。這個概念的意思是:
這個概念一經提出,就迅速引起轟動。支持和反對的聲音都不絕於耳,甚至這個話題被寫進了2020年江蘇省高考語文作文題目中:
反對信息繭房論者,比如有文章將這種思想歸結為人類對於技術的恐懼。
比如,文中說:
如果這個邏輯成立的話,我們可以說,因為喜愛高油高熱量高糖的食物,我們的食堂就只提供這些食物就好了。
尼采認為,生命的本質就是追求權力意志(will to power)。但是,人類也是存在弱點的,可以通過一些手段壓抑人類的權力意志。比如催眠,機械性重復的活動,微小的快樂,群體認同,讓某些情感過度發展等。
宗教曾經做到過這些,使西方經過了上千年的中世紀。今天的網路游戲也可以做到其中的很多點,我們不能說因為宗教當年就是這樣壓抑人性的,所以網游這么做也是好的。
1775年,美國獨立宣言起草者之一的帕特里克·亨利在弗吉尼亞州會議的演講上講出了著名的那句"Give me liberty or give me death",不自由,毋寧死。
那麼,人是不是自由的呢?
讓我們把時間推回原點,當人出生的時候,他或她沒有權利選擇自己的性別、父母、民族、家庭、國家,用海德格爾的話來說,人是被「拋」入這個世界的。
出生了之後,人類也是無法離開他人獨立生存的,小時候是,長大之後仍然是。為了跟他人共同生存,就不得不受他人的影響。人總是在這種或那種處境中操勞。
我們所處的環境,就像一張大網,把我們困在其中。跟別人的交流、書籍、報紙、廣播、電視、互聯網上的信息也不斷地影響著我們的想法。為廣告、媒體、電子商務服務的推薦演算法,正是這大網中提供能力增強的一部分。
這種受到別人的很大影響,而缺乏自我思考的狀態,海德格爾稱為「常人」。人們處於「常人」狀態而不自知的這種狀態,海德格爾稱之為「沉淪」。
最基礎的推薦演算法叫做「協同過濾」。分為基於商品的協同過濾,也就是你買了商品A,就推薦相似的商品B給你;以及基於用戶的協同過濾,也就是說你和朋友C的喜好相似,他買了商品D,那麼也將商品D推薦給你。
舉例來說,你買了辛拉麵,就推薦相似的韓式火雞面給你。
再比如,你和雷姆老師的喜好相似,比如你們都喜歡喝可樂。現在發現雷姆老師喜歡吃火鍋,那就推薦你也吃火鍋。
將這個原理做得更復雜一些,比如我們可以寫成下面的公式:
但是不管表示起來如何復雜,本質上推薦演算法所做的事情就是大網的一部分,讓人沉淪於自己或者別人的興趣的計算結果之中。
看到上面的結論,有些同學覺得不對。學過演算法的同學都知道BandIt,在利用與探索中尋找平衡。你說我用推薦演算法來網住你,我給你增加隨機性總該可以了吧?
還有的同學認為,人生來就是有好奇心的,好奇心會讓我們突破大網,找到更廣闊的世界,打破這個限制。
那麼我們不提哲學理論了,就從大家最常見的刷手機的場景上來說。比如休息一天在家刷手機,看短視頻,看小說,追劇,看八卦新聞,打手機游戲。這樣的一天度過了之後,躺在床上如果不能入睡的話你會感覺到什麼,是充實,還是空虛?
我們在生活中也會遇到很多人好奇心很強,知道的東西很多,但是卻沒有什麼很精通的東西。
這是因為,好奇心確實是人類探索未知世界的有力武器,但是光有好奇還不行,人類的默認模式是注意力渙散,興趣點很快從一個事物迅速跳到另一個事物上。
就像仙劍中靈兒的那首小詩:「今日種種,似水無痕。明夕何夕,君已陌路」。
我們知道,人類是個視覺動物。觀察人類的視線就可以看到,眼睛正常是不會盯著同一個地方一直看的。眼珠不動的反而可能是視障人士。
這種沒有思考的好奇心,會讓我們的生活消散在一片虛無之中,如無根之浮萍,沒有根基,最終回歸沉淪之中。
法國哲學家薩特認為,人類的本質就是虛無。人有無限種潛在的可能性,但是人類的天性是希望尋找確定性而非可能性。人類可以通過佔有物品,比如買東西去獲得一種確定性的感受,但是有限的、固定不變的東西沒有辦法填滿無限的可能性。
這也是從哲學上對於現有的推薦演算法無法滿足人類的需求的解釋。
最後,因為沉淪,因為不願意獨立思考,人們也不願意做決策,更不願意承擔決策的後果。推薦演算法可以幫助人們逃避決策,繼續沉淪。
這當然談不上有多負面,但是也談不上有多正面。
那麼,問題來了,這也不行,那也不行,那到底該怎麼辦?
答案是像《勇敢的心》里的威廉.華萊士一樣,通過思考,追求自由,從沉淪中覺醒出來,進入一種稱為「本真」的狀態。
在沉淪狀態下,我們其實是放棄了自由,把決定自己生存的決斷交給流行的意見和習俗。
本真的生存狀態並不是要標新立異,跟流行對著干,那其實仍然是一種沉淪的狀態。而是理解我們生來是有自由決斷和選擇權的。縱然受到各種限制,縱然要承受決斷帶來的後果,那就對不起自己的良心。這不是因為我們不能做,而是我們明明能做但是沒有做,自己沒有對自己的生存負責。
那麼是不是理解了這個道理,我們就可以過好這一生了呢?
哪有那麼容易!你太小看常人狀態的力量了。這種生來就伴隨著我們的巨大慣性和旋渦一樣裹挾著我們,想逃出去的可能性非常小。
得多強的力量才能像成為地球衛星的第一宇宙速度一樣飛上太空呢?可能只有到了生命的盡頭才能明悟,所謂「人之將死,其言也善」。
在那樣的時刻,人們才能真正發現,自己要死了,但是平時沉淪所在的世界並不會跟自己一起去死。這是將某個人和常人環境分離的一個突破口。在這一時刻,人後悔想做而沒有做的事情,跟別人的期望、其他人的看法等終於完全沒有關系了,這一個,人終於成為了自己。
人的個體性和無可替代性終於從常人的狀態中脫離出來。
試問,現有的推薦演算法能夠推薦出滿足本真狀態需求的東西么?推薦的結果本身也隨著沉淪態一起被分離出去了。
那麼,有沒有辦法不等到最後一刻才能進入本真的狀態?
美國作家薩洛揚說:「每個人都會死,但是我總以為自己不會」。這是沉淪狀態的常態。但是如果我們能夠直面死亡,真真切切地去用心體會對於自己將要死亡的感受,保持對於死亡的「畏」的狀態,我們就有可能進入到本真的狀態。
但是,懂得了進入本真的方法,仍然不見得能過好一生,因為本真的狀態可能只存在一瞬間,你馬上又被常人狀態拉回到沉淪之中。
盡管回到了沉論,但是良心的種子已經在慢慢生根發芽。你就有更多的機會跳出沉淪,去反思什麼才是真正你這個個體所想要的。
當然,通過反思悟到脫離沉淪狀態的方法不止「向死而生」這一種。比如針對似水無痕的好奇心,對於死亡之畏,你悟到的是「無無明,亦無無明盡,乃至無老死,亦無老死盡。無苦集滅道,無智亦無得」。那麼你一樣可以擺脫沉淪狀態,但不是進入本真狀態,而是「遠離顛倒夢想,究竟涅磐」了。
有同學講了,我看你這篇文章是想看推薦演算法的思考,你跟我講向死而生有什麼用,這是靠人自己思考和反思的,推薦演算法能幫上什麼忙?光推薦,人不反思,還是會一直沉淪下去啊。
幸好除了完全脫離沉淪回歸本真的方法之外,我們還有在沉淪中打開一扇看到另外的世界的窗口,這就是詩歌、藝術與自然的召喚,我們統一稱做「詩與遠方」。
脫離沉淪可以認為是離開黑暗進入光明,而詩與遠方就像是夜空中明亮的心,同樣可以給沉淪中的我們帶來不指引。
當海德格爾在思考沉論的時候,他看到了被人遺忘了100多年的德國詩人荷爾德林的詩:《人,詩意的棲居》
無獨有偶,當存在主義的思潮逐漸散去,新時代運動興起,西方人民在尋找心靈渴望的源泉的時候,找到的是700多年前伊斯蘭教蘇菲派詩人魯米的詩。
2007年,聯合國教科文組織將這一年定為「國際魯米年」,以紀念魯米誕辰800周年。
比如這首:
語言可以揭示存在,同時又很容易遮蔽存在。當我們使用一套慣用的語言,很多觀念就變成了現成的、理所當然的,從而讓人陷入沉淪,讓存在本身被遮蔽和遺忘。而詩歌就是揭示存在,讓讀者進入澄明的蟲洞的入口。
同詩歌一樣,海德格爾認為,每一件偉大的藝術作品都在混沌一片的沉淪狀態下照亮了一片場域,也讓觀看者同時進入澄明無蔽的真實之境。
我個人認為,作為人類心靈歸宿的大自然,也起到同樣的澄明作用。
那麼我們的推薦演算法呢?是不是也能照亮一片場域,澄明一塊無蔽的真實之境?讓用戶在沉淪中能夠找到本真自我的真實的需求?
新的推薦演算法,應該具有下面的幾個特徵:
最後,讓我們引入一小段魯米的話來作為結束:
演算法不能只推薦眼前的苟且,還要像詩與遠方一樣澄明一片場域的遮蔽。
⑩ 演算法推薦服務被戴「緊箍」,流量造假、控制熱搜等有治了
演算法推薦是把「雙刃劍」
騰訊安全戰略研究中心聯合賽博研究院發布的《人工智慧時代數字內容治理的機遇與挑戰》報告顯示,演算法精準推薦已經占據信息流分發主導地位,演算法能夠實現數字內容聚合和精準推薦,快速匹配信息與人。基於演算法的個性化內容推送在為用戶提供精準化、個性化服務的同時,也帶來了國家安全風險因素增高、不良信息泛濫風險增加以及傳統權利保護難度加大等問題,已然成為一把「雙刃劍」。
上海 財經 大學研究員崔麗麗表示,互聯網平台作為消除信息不對稱的先進技術代表,有責任維持技術手段的客觀性,反映流量的自然狀態,呈現真實的公眾意見。不應該因為商業利益的驅使在流量上作假。過去曾發生過一些涉及到商業利益的新聞、信息被操控的情況,這樣獲取的商業利益是一種市場不公平的表現,甚至是不合法的。
提出演算法「向善」新要求
根據徵求意見稿,管理規定將適用於在境內應用演算法推薦技術提供互聯網信息服務的公司。這也意味著,以內容推薦演算法為核心競爭力的短視頻平台、UGC(用戶生產內容)平台、推薦內容或是廣告的電商和社交平台等主流互聯網公司和平台的演算法推薦技術都包含在此。
崔麗麗表示,不論是UGC還是PGC(專業生產內容)平台,內容的審核以及對於受眾的推薦實際都有相應的規則,互聯網信息平台已經在形態上取代了過去的傳統媒體,因此,可能具備了一定的公共設施屬性,所以信息的產生、審核和分發應該符合公允、客觀以及符合事實等要求。
徵求意見稿指出,演算法推薦服務提供者應當堅持主流價值導向,優化演算法推薦服務機制,積極傳播正能量,促進演算法應用「向上向善」。演算法推薦服務提供者應當定期審核、評估、驗證演算法機制機理、模型、數據和應用結果等,不得設置誘導用戶沉迷或者高額消費等違背公序良俗的演算法模型。
王娟表示,徵求意見稿對演算法的主體價值導向、個人數據用途、行業自律等提出了演算法「向善」的要求,提出了演算法提供者備案責任,明確了演算法推薦服務提供者作為落實演算法安全的主體責任 ,還對演算法推薦服務日誌等信息提出了留存要求,留存期限不少於六個月,並在相關執法部門依法查詢時予以提供,對回溯求證環節進行了加強。
徵求意見稿明確,演算法推薦服務提供者應落實演算法安全主體責任,建立健全用戶注冊、信息發布審核、演算法機制機理審核、安全評估監測、安全事件應急處置、數據安全保護和個人信息保護等管理制度,制定並公開演算法推薦相關服務規則,配備與演算法推薦服務規模相適應的專業人員和技術支撐。
從用戶的角度來看,演算法對數據的交互模式也提出了很多要求。徵求意見稿提出,演算法推薦服務提供者應當以顯著方式告知用戶其提供演算法推薦服務的情況,並以適當方式公示演算法推薦服務的基本原理、目的意圖、運行機制等。同時,演算法推薦服務提供者應當向用戶提供選擇、修改或者刪除用於演算法推薦服務的用戶標簽的功能,以及不針對其個人特徵的選項,或者向用戶提供便捷的關閉演算法推薦服務的選項。
而對於大數據「殺熟」等頑疾,徵求意見稿強調,演算法推薦服務提供者向消費者銷售商品或者提供服務的,應當保護消費者合法權益,不得根據消費者的偏好、交易習慣等特徵,利用演算法在交易價格等交易條件上實行不合理的差別待遇等違法行為。
網路熱搜將被嚴管
近年來,網路熱搜已經成為實時的輿情風向標和輿論的集散地,徵求意見稿也特別對熱搜作出了規范管理,明確演算法推薦服務提供者應當加強演算法推薦服務版面頁面生態管理,建立完善人工干預和用戶自主選擇機制,在首頁首屏、熱搜、精選、榜單類、彈窗等重點環節積極呈現符合主流價值導向的信息內容。
王娟表示,徵求意見稿對熱搜、虛假流量可謂「重拳出擊」,核心仍是圍繞互聯網不是法外之地,建立清朗網路空間、樹立良好 社會 價值觀,微博熱搜榜等各類「帶節奏」式資本疊加流量的運作模式將受到重大挑戰。
面對外界的質疑,微博也在近日發布了熱搜管理規則,並對「花錢買熱搜」「花錢壓熱搜」等質疑回應稱,熱搜根據微博用戶的真實行為進行計算,並根據搜索量、發博量、互動量等數據指標,形成實時榜單。榜單演算法中包含了嚴格的排水軍和反垃圾機制,以確保公正客觀。同時上半年熱搜還將「減少 娛樂 佔比」作為主要調控目標。