导航:首页 > 源码编译 > 算法推荐在广告中的应用

算法推荐在广告中的应用

发布时间:2023-01-18 16:01:39

① 最懂你的“算法”,如何不沦为“算计”

来源 摘编自《平台治理2.0:共同富裕时代数字经济治理转型》,电子工业出版社,2022年4月出版。

文 于凤霞 国家信息中心信息化和产业发展部处长

随着互联网、大数据、算法与人工智能等的发展日新月异,平台经济的崛起使得追求物美价廉、方便快捷的消费者与世界各地的商品和服务之间的距离只是点击几下鼠标而已。网络世界、新兴技术正在使我们更加便利、舒适,我们每天都在享受平台经济繁荣发展带来的福利。大数据和算法等技术功不可没。

克里斯托弗·斯坦纳在其着作《算法帝国》里对算法推崇备至,认为构建算法模仿、超越并最终取代人类,是21世纪最重要的能力,未来属于算法及其创造者。 科技 哲学家凯文·凯利在其着作《失控》中提到:“人们在将自然逻辑输入机器的同时,也把技术逻辑带到了生命之中……机器人、经济体、计算机程序等人造物也越来越具有生命属性。”

随着平台经济在人类经济 社会 各领域的快速渗透,我们的生活已经悄悄地被算法和数据控制,算法与数据接管了整个 社会 。算法为人类行为赋能,但受所输入数据的质量及算法模型本身的限制,内在地嵌入了人类正面或负面的价值观,并能动地制造着各种风险。

阿里尔·扎拉奇在其《算法的陷阱:超级平台、算法垄断与场景欺骗》一书中写道,精妙的算法与数据运算改变了市场竞争的本质,复杂多变的市场现实已在悄无声息中将权力移交到少数人的手中,因此,必须由监管机构及时采取可行的方法和政策,有效化解算法带来的各种风险,促使创新能够真正为 社会 带来正面意义。

经过长期的数据沉淀和算法优化,你的手机、你的常用App在某些方面确实会比你的家人、好友甚至你本人更了解你。这就意味着,当我们在利用算法的时候,也不自觉地成了被算法计算的对象。

“大数据杀熟”意指同样的产品或者服务,老客户看到的价格反倒比新客户所看到的更高。而且还存在同一用户信息在不同网络平台之间被共享的问题,许多用户都遇到过这样的情形:在一个网站浏览或搜索的内容很快会被另一个网站进行推荐或成为其广告客户。

在传统销售模式下,通常是老客户能够享受到更多的优惠,这些优惠往往通过会员卡、积分制等不同形式来实现,也广为大众所接受。

然而,通过网络平台开展的许多销售活动,却出现了相反的情况:随着用户在某个平台上消费次数的增加、消费金额的不断提高,其最开始能够享受到的各种优惠却会逐渐消失,甚至变成老用户可能要付出更高的价钱获得服务,而新用户则能够享受到各类优惠。

这种问题在美国早就引起过热议,2000年亚马逊曾对68款盘片进行类似的定价机制。新顾客购买价格为22.74美元,老顾客却需要26.24美元。在引起消费者广泛质疑后,亚马逊CEO贝佐斯回应这只是随机价格的一种测试,并向高价客户退还差价,这次风波才得以平息。2012年《华尔街日报》又爆料一家名为Staples的文具店的“差别定价”事件。

从某种意义上说,“大数据杀熟”属于大数据营销,部分平台在有了大数据这个强大的用户画像工具后,实现了千人千面的定价机制。利用大数据技术对用户资料进行细分,根据用户习惯建立用户画像,然后通过画像给用户推荐相应的产品与服务,并且进行差异化定价。

根据《中华人民共和国价格法》第十四条规定,经营者提供相同商品或者服务,不得对具有同等交易条件的其他经营者实行价格歧视。由于该法未针对“同等交易条件”进行详细解释,严格说来,网络平台依据大数据分析所做的“差别定价”并不能完全和“价格歧视”画等号。

人们之所以会对“大数据杀熟”产生怀疑甚至愤怒,根本上是因为平台定价机制和供需匹配规则不透明。

基于用户注册及个人信息、地理位置、消费记录、搜索习惯等行为数据,平台能够针对不同的用户形成独特的用户画像。这一画像有助于平台为用户提供精准的个性化服务,但也埋下了“大数据杀熟”的潜在风险。

针对新老用户或不同消费习惯的用户,一些平台提供的同一产品或服务,存在较为严重的价格歧视现象,引发广泛争议。平台定价机制和供需匹配规则的不透明,还使得消费者在权益遭到损害时陷入举证难、维权难的境地。

算法引发的第二个问题可以被称为“信息茧房”和“回声室效应”。

“信息茧房”可能带来的后果是,长期被禁锢在其中的个人,其思维甚至是生活可能呈现出一种定式化、程序化的状态,失去了解不同事物的能力和接触机会;另外,还可能加剧人与人的差异性、分化,甚至很有可能带来一大批 社会 极端分子,从而带来安全威胁,影响 社会 的稳定。

经济学家安东尼·唐恩斯认为,人们容易从观点相似的人那里获取信息,从而减少信息成本。网络虚拟社群一方面使爱好相似的人们聚集到一起,但高度同质化的聚集也减少了他们接受多元化声音的可能,从而形成封闭的“回声室”。

算法给用户推荐的信息内容,如新闻标题、内容、图片、评论等,都会影响用户的情绪,甚至改变用户的思想和观点。在这些场景中,算法本身只是从优化业务的角度出发进行推荐和内容分发,这些算法的长期高频率使用,在客观上深刻地影响着用户的思想和行为,甚至影响整个 社会 的价值传播。

因此,算法作为一种技术工具,或许是中立的无所谓正向或负向价值观,但如果算法技术与商业利益密切联系,或者被应用于与人和 社会 相关的场景时,必然会引发一系列 社会 问题,不容回避。

算法引发的第三个主要问题是流量造假和流量劫持。

一些平台或商家通过人为或机器操作手段提高关键词搜索量、平台用户数、广告点击量、视频播放量、产品购买量、服务评论数等,还有部分平台通过强制跳转、妨碍破坏等技术手段,或者使用定向引流、广告混淆等非技术手段劫持本应属于竞争对手的流量,诱导用户使用己方的产品或服务。

在直播电商领域中,2020年新华社曾报道,山东临沂电商从业者孙玲玲,在某电商平台经营一家销售糖果类产品的店铺,一个月内,孙玲玲找了多位带货主播,这些主播粉丝数量都超过百万,但几乎每场带货都以赔钱收场,流量造假问题也相当突出。

当前关于规范恶意流量竞争的制度尚不健全。一是法律规定较为模糊,尤其是对于流量不正当竞争行为的构成要件与法律责任缺乏明确界定;二是平台企业流量竞争手段越来越隐蔽和复杂,导致不正当竞争行为的举证、认定及对损害和赔偿额度的确定都存在较大难度。

随着网络技术的进步与平台经济的发展,如何规制流量恶意竞争等新型不正当竞争行为、营造公平竞争的市场环境,成为亟须深入研究的重要课题。

此外,还有操纵榜单和控制热搜等问题。“热搜”原本反映的是当前舆论最关切的热点问题,但在实践中我们发现,其后台算法有可能被滥用,出现操纵榜单、控制热搜、人为制造舆论热点等问题,严重影响着民众对热搜的信任。

卓别林的电影《摩登时代》对机器操控产业工人的讽刺,以及马克思着作《1844年经济学哲学手稿》对机器工业化时代人类“异化”的警示,无不提醒我们,就像机器流水线有可能凌驾于劳动工人之上一样,当今无处不在的算法若应用不当,也有可能成为一种凌驾于人之上的力量,为人和 社会 的发展带来新的风险。

为此,有效加强算法监管,积极应对新技术发展带来的挑战,让人类更好地享受新技术发展的福利,是顺应平台经济发展趋势的必然要求。

针对算法应用这一全新的治理课题,我国正在不断加强相关领域的制度建设和规范。如早在2018年,我国资管新规《关于规范金融机构资产管理业务的指导意见》就提出要避免智能算法的顺周期性风险,要求金融机构,应当根据不同产品投资策略,研发对应的人工智能算法或者程序化交易,避免算法同质化加剧投资行为的顺周期性,并针对由此可能引发的市场波动风险制订应对预案。

此外,新规提出,因算法同质化、编程设计错误、对数据利用深度不够等人工智能算法模型缺陷或者系统异常,导致“羊群效应”、影响金融市场稳定运行的,金融机构应当及时采取人工干预措施,强制调整或者终止人工智能业务。

2020年12月中共中央印发的《法治 社会 建设实施纲要(2020-2025年)》提出,制定完善对网络直播、自媒体、知识社区问答等新媒体业态和算法推荐、深度伪造等新技术应用的规范管理办法;加强对大数据、云计算和人工智能等新技术研发应用的规范引导。

尤其是2021年出台的系列制度,从反垄断等不正当竞争、保护消费者权益、保护个人信息安全等不同角度和侧重点,对算法应用引发的“大数据杀熟”行为提出了规范要求。

2021年2月,《关于平台经济领域的反垄断指南》规定,基于大数据和算法,根据交易相对人的支付能力、消费偏好、使用习惯等,实行差异性交易价格或者其他交易条件;对新老交易相对人实行差异性交易价格或者其他交易条件;实行差异性标准、规则、算法;实行差异性付款条件和交易方式等,都可能被认定为“大数据杀熟”等不正当竞争行为而面临更严格的监管。

2021年8月,国家市场监督管理总局公布的《禁止网络不正当竞争行为规定(公开征求意见稿)》第二十一条指出,经营者不得利用数据、算法等技术手段,通过收集、分析交易相对方的交易信息、浏览内容及次数、交易时使用的终端设备的品牌及价值等方式,对交易条件相同的交易相对方不合理地提供不同的交易信息,侵害交易相对方的知情权、选择权、公平交易权等,扰乱市场公平交易秩序。

从监管的角度来看,反不正当竞争法对“大数据杀熟”行为的规制的最大特点在于,企业并不需要具备市场支配地位,无论平台企业的市场地位如何,经营者利用技术手段,实施“二选一”行为,或者利用数据、算法等技术手段,侵害交易相对方的知情权、选择权、公平交易权等,扰乱市场公平交易秩序,实施“大数据杀熟”的行为,均会受到反不正当竞争法的限制。

2021年11月1日开始正式实施的个人信息保护法,第一次在法律文本中定义了“自动化决策”一词的含义,即“通过计算机程序自动分析、评估个人的行为习惯、兴趣爱好或者经济、 健康 、信用状况等,并进行决策的活动”。对利用个人信息进行自动化决策做了针对性的规范,要求个人信息处理者保证自动化决策的透明度和结果的公平、公正,不得通过自动化决策对个人在交易价格等交易条件上实行不合理的差别待遇,并在事前进行个人信息保护影响评估。个人认为自动化决策对其权益造成重大影响的,有权拒绝个人信息处理者仅通过自动化决策的方式做出决定。

可以说,这里的规定,更加强调对用户人格权益的保护,旨在保护个人信息安全。

算法规制的第二个重点是,算法在互联网信息服务领域的应用。

2021年8月,国家互联网信息办公室就《互联网信息服务算法推荐管理规定(征求意见稿)》向 社会 公开征求意见。征求意见稿中明确,所谓的算法推荐技术,是指应用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息内容。

这意味着,各类信息流平台、用户生成内容(UGC)平台都在被监管范围内。甚至在朋友圈内常见的信息流广告,亦是推荐算法的结果,也应该遵守相关规定。

征求意见稿第一次区分了生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类五类向用户提供信息内容的算法技术,并就算法推荐服务提供者的责任和义务、算法推荐服务公告和算法备案等制度、算法推荐未成年人模式做出了详细规定。

在网络信息内容生态方面,征求意见稿提出,算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用向上向善。

强调要“建立完善人工干预和用户自主选择机制”,也就是说,不能依赖算法进行内容推荐,要增加人工识别及筛选的过程,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。

这意味着,在压实互联网信息服务平台主体责任方面,除了要求对谣言及其他不法信息进行治理,算法决策的合规化也是一个重要抓手。

在平台算法推荐服务过程中,依据何种算法和逻辑使用数据,将成为平台算法规制的重要内容。征求意见稿对算法推荐服务提供者在算法规则及公示方面都提出了要求。

2021年9月,国家互联网信息办公室印发《关于加强互联网信息服务算法综合治理的指导意见》,提出要用三年左右时间,逐步建立治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局。

在健全算法安全治理机制方面,《意见》提出要致力于打造形成政府监管、企业履责、行业自律、 社会 监督的算法安全多元共治局面。尤其是要强化平台企业主体责任,明确提出,企业应强化责任意识,对算法应用产生的结果负主体责任,并建立算法安全责任制度和 科技 伦理审查制度。

在促进算法生态规范发展方面,《意见》则提出要推动算法公开透明,督促企业及时、合理、有效地公开算法基本原理、优化目标、决策标准等信息,做好算法结果解释,畅通投诉通道。

《平台治理2.0》,于凤霞 着

电子工业出版社,2022年4月出版

近年来数字经济增加值在我国GDP中的占比不断提升,但相对经济总量而言还是偏低;新业态新模式发展过程中也出现了新的问题和挑战。因此,在推动和规范数字经济发展的同时,需要重构治理体系,进一步突出竞争政策基础地位,并构建起全方位、多层次、立体化的治理体系。本书围绕平台治理,分析我国在数字治理、反垄断等方面的 探索 ,平台经济在发展过程中的挑战和可能的应对之策。

② 推荐算法简介

写在最前面:本文内容主要来自于书籍《推荐系统实践》和《推荐系统与深度学习》。

推荐系统是目前互联网世界最常见的智能产品形式。从电子商务、音乐视频网站,到作为互联网经济支柱的在线广告和新颖的在线应用推荐,到处都有推荐系统的身影。推荐算法是推荐系统的核心,其本质是通过一定的方式将用户和物品联系起来,而不同的推荐系统利用了不同的方式。

推荐系统的主要功能是以个性化的方式帮助用户从极大的搜索空间中快速找到感兴趣的对象。因此,目前所用的推荐系统多为个性化推荐系统。个性化推荐的成功应用需要两个条件:

在推荐系统的众多算法中,基于协同的推荐和基于内容的推荐在实践中得到了最广泛的应用。本文也将从这两种算法开始,结合时间、地点上下文环境以及社交环境,对常见的推荐算法做一个简单的介绍。

基于内容的算法的本质是对物品内容进行分析,从中提取特征,然后基于用户对何种特征感兴趣来推荐含有用户感兴趣特征的物品。因此,基于内容的推荐算法有两个最基本的要求:

下面我们以一个简单的电影推荐来介绍基于内容的推荐算法。

现在有两个用户A、B和他们看过的电影以及打分情况如下:

其中问好(?)表示用户未看过。用户A对《银河护卫队 》《变形金刚》《星际迷航》三部科幻电影都有评分,平均分为 4 .7 分 ( (5+4+5 ) / 3=4.7 );对《三生三世》《美人鱼》《北京遇上西雅图》三部爱情电影评分平均分为 2.3 分 ( ( 3十2+2 ) /3=2.3 )。现在需要给A推荐电影,很明显A更倾向于科幻电影,因此推荐系统会给A推荐独立日。而对于用户B,通过简单的计算我们可以知道更喜欢爱情电影,因此给其推荐《三生三世》。当然,在实际推荐系统中,预测打分比这更加复杂些,但是其原理是一样的。

现在,我们可以将基于内容的推荐归纳为以下四个步骤:

通过上面四步就能快速构建一个简单的推荐系统。基于内容的推荐系统通常简单有效,可解释性好,没有物品冷启动问题。但他也有两个明显的缺点:

最后,顺便提一下特征提取方法:对于某些特征较为明确的物品,一般可以直接对其打标签,如电影类别。而对于文本类别的特征,则主要是其主题情感等,则些可以通过tf-idf或LDA等方法得到。

基于协同的算法在很多地方也叫基于邻域的算法,主要可分为两种:基于用户的协同算法和基于物品的协同算法。

啤酒和尿布的故事在数据挖掘领域十分有名,该故事讲述了美国沃尔玛超市统计发现啤酒和尿布一起被购买的次数非常多,因此将啤酒和尿布摆在了一起,最后啤酒和尿布的销量双双增加了。这便是一个典型的物品协同过滤的例子。

基于物品的协同过滤指基于物品的行为相似度(如啤酒尿布被同时购买)来进行物品推荐。该算法认为,物品A和物品B具有很大相似度是因为喜欢物品A的用户大都也喜欢物品B。

基于物品的协同过滤算法主要分为两步:

基于物品的协同过滤算法中计算物品相似度的方法有以下几种:
(1)基于共同喜欢物品的用户列表计算。

此外,John S. Breese再其论文中还提及了IUF(Inverse User Frequence,逆用户活跃度)的参数,其认为活跃用户对物品相似度的贡献应该小于不活跃的用户,应该增加IUF参数来修正物品相似度的公式:

上面的公式只是对活跃用户做了一种软性的惩罚, 但对于很多过于活跃的用户, 比如某位买了当当网80%图书的用户, 为了避免相似度矩阵过于稠密, 我们在实际计算中一般直接忽略他的兴趣列表, 而不将其纳入到相似度计算的数据集中。

(2)基于余弦相似度计算。

(3)热门物品的惩罚。
从上面(1)的相似度计算公式中,我们可以发现当物品 i 被更多人购买时,分子中的 N(i) ∩ N(j) 和分母中的 N(i) 都会增长。对于热门物品,分子 N(i) ∩ N(j) 的增长速度往往高于 N(i),这就会使得物品 i 和很多其他的物品相似度都偏高,这就是 ItemCF 中的物品热门问题。推荐结果过于热门,会使得个性化感知下降。以歌曲相似度为例,大部分用户都会收藏《小苹果》这些热门歌曲,从而导致《小苹果》出现在很多的相似歌曲中。为了解决这个问题,我们对于物品 i 进行惩罚,例如下式, 当α∈(0, 0.5) 时,N(i) 越小,惩罚得越厉害,从而使热门物品相关性分数下降( 博主注:这部分未充分理解 ):

此外,Kary pis在研究中发现如果将ItemCF的相似度矩阵按最大值归一化, 可以提高推荐的准确率。 其研究表明, 如果已经得到了物品相似度矩阵w, 那么可以用如下公式得到归一化之后的相似度矩阵w':

归一化的好处不仅仅在于增加推荐的准确度,它还可以提高推荐的覆盖率和多样性。一般来说,物品总是属于很多不同的类,每一类中的物品联系比较紧密。假设物品分为两类——A和B, A类物品之间的相似度为0.5, B类物品之间的相似度为0.6, 而A类物品和B类物品之间的相似度是0.2。 在这种情况下, 如果一个用户喜欢了5个A类物品和5个B类物品, 用ItemCF给他进行推荐, 推荐的就都是B类物品, 因为B类物品之间的相似度大。 但如果归一化之后, A类物品之间的相似度变成了1, B类物品之间的相似度也是1, 那么这种情况下, 用户如果喜欢5个A类物品和5个B类物品, 那么他的推荐列表中A类物品和B类物品的数目也应该是大致相等的。 从这个例子可以看出, 相似度的归一化可以提高推荐的多样性。

那么,对于两个不同的类,什么样的类其类内物品之间的相似度高,什么样的类其类内物品相似度低呢?一般来说,热门的类其类内物品相似度一般比较大。如果不进行归一化,就会推荐比较热门的类里面的物品,而这些物品也是比较热门的。因此,推荐的覆盖率就比较低。相反,如果进行相似度的归一化,则可以提高推荐系统的覆盖率。

最后,利用物品相似度矩阵和用户打过分的物品记录就可以对一个用户进行推荐评分:

基于用户的协同算法与基于物品的协同算法原理类似,只不过基于物品的协同是用户U购买了A物品,会计算经常有哪些物品与A一起购买(也即相似度),然后推荐给用户U这些与A相似的物品。而基于用户的协同则是先计算用户的相似性(通过计算这些用户购买过的相同的物品),然后将这些相似用户购买过的物品推荐给用户U。

基于用户的协同过滤算法主要包括两个步骤:

步骤(1)的关键是计算用户的兴趣相似度,主要是利用用户的行为相似度计算用户相似度。给定用户 u 和 v,N(u) 表示用户u曾经有过正反馈(譬如购买)的物品集合,N(v) 表示用户 v 曾经有过正反馈的物品集合。那么我们可以通过如下的 Jaccard 公式简单的计算 u 和 v 的相似度:

或通过余弦相似度:

得到用户之间的相似度之后,UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。如下的公式度量了UserCF算法中用户 u 对物品 i 的感兴趣程度:

首先回顾一下UserCF算法和ItemCF算法的推荐原理:UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品, 而ItemCF给用户推荐那些和他之前喜欢的物品具有类似行为的物品。

(1)从推荐场景考虑
首先从场景来看,如果用户数量远远超过物品数量,如购物网站淘宝,那么可以考虑ItemCF,因为维护一个非常大的用户关系网是不容易的。其次,物品数据一般较为稳定,因此物品相似度矩阵不必频繁更新,维护代价较小。

UserCF的推荐结果着重于反应和用户兴趣相似的小群体的热点,而ItemCF的推荐结果着重于维系用户的历史兴趣。换句话说,UserCF的推荐更社会化,反应了用户所在小型兴趣群体中物品的热门程度,而ItemCF的推荐更加个性化,反应了用户自己的个性传承。因此UserCF更适合新闻、微博或微内容的推荐,而且新闻内容更新频率非常高,想要维护这样一个非常大而且更新频繁的表无疑是非常难的。

在新闻类网站中,用户的兴趣爱好往往比较粗粒度,很少会有用户说只看某个话题的新闻,而且往往某个话题也不是每天都会有新闻。 个性化新闻推荐更强调新闻热点,热门程度和时效性是个性化新闻推荐的重点,个性化是补充,所以 UserCF 给用户推荐和他有相同兴趣爱好的人关注的新闻,这样在保证了热点和时效性的同时,兼顾了个性化。

(2)从系统多样性(也称覆盖率,指一个推荐系统能否给用户提供多种选择)方面来看,ItemCF的多样性要远远好于UserCF,因为UserCF更倾向于推荐热门物品。而ItemCF具有较好的新颖性,能够发现长尾物品。所以大多数情况下,ItemCF在精度上较小于UserCF,但其在覆盖率和新颖性上面却比UserCF要好很多。

在介绍本节基于矩阵分解的隐语义模型之前,让我们先来回顾一下传统的矩阵分解方法SVD在推荐系统的应用吧。

基于SVD矩阵分解在推荐中的应用可分为如下几步:

SVD在计算前会先把评分矩阵 A 缺失值补全,补全之后稀疏矩阵 A 表示成稠密矩阵,然后将分解成 A' = U∑V T 。但是这种方法有两个缺点:(1)补成稠密矩阵后需要耗费巨大的储存空间,对这样巨大的稠密矩阵进行储存是不现实的;(2)SVD的计算复杂度很高,对这样大的稠密矩阵中进行计算式不现实的。因此,隐语义模型就被发明了出来。

更详细的SVD在推荐系统的应用可参考 奇异值分解SVD简介及其在推荐系统中的简单应用 。

隐语义模型(Latent Factor Model)最早在文本挖掘领域被提出,用于找到文本的隐含语义。相关的算法有LSI,pLSA,LDA和Topic Model。本节将对隐语义模型在Top-N推荐中的应用进行详细介绍,并通过实际的数据评测该模型。

隐语义模型的核心思想是通过隐含特征联系用户兴趣和物品。让我们通过一个例子来理解一下这个模型。

现有两个用户,用户A的兴趣涉及侦探小说、科普图书以及一些计算机技术书,而用户B的兴趣比较集中在数学和机器学习方面。那么如何给A和B推荐图书呢?

我们可以对书和物品的兴趣进行分类。对于某个用户,首先得到他的兴趣分类,然后从分类中挑选他可能喜欢的物品。简言之,这个基于兴趣分类的方法大概需要解决3个问题:

对于第一个问题的简单解决方案是找相关专业人员给物品分类。以图书为例,每本书出版时,编辑都会给出一个分类。但是,即使有很系统的分类体系,编辑给出的分类仍然具有以下缺点:(1)编辑的意见不能代表各种用户的意见;(2)编辑很难控制分类的细粒度;(3)编辑很难给一个物品多个分类;(4)编辑很难给一个物品多个分类;(5)编辑很难给出多个维度的分类;(6)编辑很难决定一个物品在某一个类别中的权重。

为了解决上述问题,研究员提出可以从数据出发,自动找到那些分类,然后进行个性化推荐。隐语义模型由于采用基于用户行为统计的自动聚类,较好地解决了上面提出的5个问题。

LFM将矩阵分解成2个而不是3个:

推荐系统中用户和物品的交互数据分为显性反馈和隐性反馈数据。隐式模型中多了一个置信参数,具体涉及到ALS(交替最小二乘法,Alternating Least Squares)中对于隐式反馈模型的处理方式——有的文章称为“加权的正则化矩阵分解”:

一个小细节:在隐性反馈数据集中,只有正样本(正反馈)没有负反馈(负样本),因此如何给用户生成负样本来进行训练是一个重要的问题。Rong Pan在其文章中对此进行了探讨,对比了如下几种方法:

用户行为很容易用二分图表示,因此很多图算法都可以应用到推荐系统中。基于图的模型(graph-based model)是推荐系统中的重要内容。很多研究人员把基于领域的模型也称为基于图的模型,因为可以把基于领域的模型看作基于图的模型的简单形式。

在研究基于图的模型之前,需要将用户行为数据表示成图的形式。本节的数据是由一系列用户物品二元组 (u, i) 组成的,其中 u 表示用户对物品 i 产生过行为。

令 G(V, E) 表示用户物品二分图,其中 V=V U UV I 由用户顶点 V U 和物品节点 V I 组成。对于数据集中每一个二元组 (u, i) ,图中都有一套对应的边 e(v u , v i ),其中 v u ∈V U 是用户对应的顶点,v i ∈V I 是物品i对应的顶点。如下图是一个简单的物品二分图,其中圆形节点代表用户,方形节点代表物品,用户物品的直接连线代表用户对物品产生过行为。比如下图中的用户A对物品a、b、d产生过行为。

度量图中两个顶点之间相关性的方法很多,但一般来说图中顶点的相关性主要取决于下面3个因素:

而相关性高的一对顶点一般具有如下特征:

举个例子,如下图,用户A和物品c、e没有边直连,但A可通过一条长度为3的路径到达c,而Ae之间有两条长度为3的路径。那么A和e的相关性要高于顶点A和c,因而物品e在用户A的推荐列表中应该排在物品c之前,因为Ae之间有两条路径。其中,(A,b,C,e)路径经过的顶点的出度为(3,2,2,2),而 (A,d,D,e) 路径经过了一个出度比较大的顶点D,所以 (A,d,D,e) 对顶点A与e之间相关性的贡献要小于(A,b,C,e)。

基于上面3个主要因素,研究人员设计了很多计算图中顶点相关性的方法,本节将介绍一种基于随机游走的PersonalRank算法。

假设要给用户u进行个性化推荐,可以从用户u对应的节点 v u 开始在用户物品二分图上进行随机游走。游走到任一节点时,首先按照概率α决定是继续游走还是停止这次游走并从 v u 节点重新开始游走。若决定继续游走,则从当前节点指向的节点中按照均匀分布随机选择一个节点作为游走下次经过的节点。这样,经过很多次随机游走后,每个物品被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。

上述算法可以表示成下面的公式:

虽然通过随机游走可以很好地在理论上解释PersonalRank算法,但是该算法在时间复杂度上有明显的缺点。因为在为每个用户进行推荐时,都需要在整个用户物品二分图上进行迭代,知道所有顶点的PR值都收敛。这一过程的时间复杂度非常高,不仅无法在线进行实时推荐,离线计算也是非常耗时的。

有两种方法可以解决上面PersonalRank时间复杂度高的问题:
(1)减少迭代次数,在收敛之前停止迭代。但是这样会影响最终的精度。

(2)从矩阵论出发,重新涉及算法。另M为用户物品二分图的转移概率矩阵,即:

网络社交是当今社会非常重要甚至可以说是必不可少的社交方式,用户在互联网上的时间有相当大的一部分都用在了社交网络上。

当前国外最着名的社交网站是Facebook和Twitter,国内的代表则是微信/QQ和微博。这些社交网站可以分为两类:

需要指出的是,任何一个社交网站都不是单纯的社交图谱或兴趣图谱。如QQ上有些兴趣爱好群可以认识不同的陌生人,而微博中的好友也可以是现实中认识的。

社交网络定义了用户之间的联系,因此可以用图定义社交网络。我们用图 G(V,E,w) 定义一个社交网络,其中V是顶点集合,每个顶点代表一个用户,E是边集合,如果用户va和vb有社交网络关系,那么就有一条边 e(v a , v b ) 连接这两个用户,而 w(v a , v b )定义了边的权重。一般来说,有三种不同的社交网络数据:

和一般购物网站中的用户活跃度分布和物品流行度分布类似,社交网络中用户的入度(in degree,表示有多少人关注)和出度(out degree,表示关注多少人)的分布也是满足长尾分布的。即大部分人关注的人都很少,被关注很多的人也很少。

给定一个社交网络和一份用户行为数据集。其中社交网络定义了用户之间的好友关系,而用户行为数据集定义了不同用户的历史行为和兴趣数据。那么最简单的算法就是给用户推荐好友喜欢的物品集合。即用户u对物品i的兴趣 p ui 可以通过如下公式计算。

用户u和用户v的熟悉程度描述了用户u和用户在现实社会中的熟悉程度。一般来说,用户更加相信自己熟悉的好友的推荐,因此我们需要考虑用户之间的熟悉度。下面介绍3中衡量用户熟悉程度的方法。

(1)对于用户u和用户v,可以使用共同好友比例来计算他们的相似度:

上式中 out(u) 可以理解为用户u关注的用户合集,因此 out(u) ∩ out(v) 定义了用户u、v共同关注的用户集合。

(2)使用被关注的用户数量来计算用户之间的相似度,只要将公式中的 out(u) 修改为 in(u):

in(u) 是指关注用户u的集合。在无向社交网络中,in(u)和out(u)是相同的,而在微博这种有向社交网络中,这两个集合的含义就不痛了。一般来说,本方法适合用来计算微博大V之间的相似度,因为大v往往被关注的人数比较多;而方法(1)适用于计算普通用户之间的相似度,因为普通用户往往关注行为比较丰富。

(3)除此之外,还可以定义第三种有向的相似度:这个相似度的含义是用户u关注的用户中,有多大比例也关注了用户v:

这个相似度有一个缺点,就是在该相似度下所有人都和大v有很大的相似度,这是因为公式中的分母并没有考虑 in(v) 的大小,所以可以把 in(v) 加入到上面公式的分母,来降低大v与其他用户的相似度:

上面介绍了3种计算用户之间相似度(或称熟悉度)的计算方法。除了熟悉程度,还需要考虑用户之间的兴趣相似度。我们和父母很熟悉,但很多时候我们和父母的兴趣确不相似,因此也不会喜欢他们喜欢的物品。因此,在度量用户相似度时,还需要考虑兴趣相似度,而兴趣相似度可以通过和UserCF类似的方法度量,即如果两个用户喜欢的物品集合重合度很高,两个用户的兴趣相似度很高。

最后,我们可以通过加权的形式将两种权重合并起来,便得到了各个好有用户的权重了。

有了权重,我们便可以针对用户u挑选k个最相似的用户,把他们购买过的物品中,u未购买过的物品推荐给用户u即可。打分公式如下:

其中 w' 是合并后的权重,score是用户v对物品的打分。

node2vec的整体思路分为两个步骤:第一个步骤是随机游走(random walk),即通过一定规则随机抽取一些点的序列;第二个步骤是将点的序列输入至word2vec模型从而得到每个点的embedding向量。

随机游走在前面基于图的模型中已经介绍过,其主要分为两步:(1)选择起始节点;(2)选择下一节点。起始节点选择有两种方法:按一定规则抽取一定量的节点或者以图中所有节点作为起始节点。一般来说会选择后一种方法以保证所有节点都会被选取到。

在选择下一节点方法上,最简单的是按边的权重来选择,但在实际应用中需要通过广度优先还是深度优先的方法来控制游走范围。一般来说,深度优先发现能力更强,广度优先更能使社区内(较相似)的节点出现在一个路径里。

斯坦福大学Jure Leskovec教授给出了一种可以控制广度优先或者深度优先的方法。

以上图为例,假设第一步是从t随机游走到v,这时候我们要确定下一步的邻接节点。本例中,作者定义了p和q两个参数变量来调节游走,首先计算其邻居节点与上一节点t的距离d,根据下面的公式得到α:

一般从每个节点开始游走5~10次,步长则根据点的数量N游走根号N步。如此便可通过random walk生成点的序列样本。

得到序列之后,便可以通过word2vec的方式训练得到各个用户的特征向量,通过余弦相似度便可以计算各个用户的相似度了。有了相似度,便可以使用基于用户的推荐算法了。

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。

冷启动问题主要分为三类:

针对用户冷启动,下面给出一些简要的方案:
(1)有效利用账户信息。利用用户注册时提供的年龄、性别等数据做粗粒度的个性化;
(2)利用用户的社交网络账号登录(需要用户授权),导入用户在社交网站上的好友信息,然后给用户推荐其好友喜欢的物品;
(3)要求用户在登录时对一些物品进行反馈,手机用户对这些物品的兴趣信息,然后给用推荐那些和这些物品相似的物品;
(4)提供非个性化推荐。非个性化推荐的最简单例子就是热门排行榜,我们可以给用户推荐热门排行榜,然后等到用户数据收集到一定的时候,在切换为个性化推荐。

对于物品冷启动,可以利用新加入物品的内容信息,将它们推荐给喜欢过和他们相似的物品的用户。

对于系统冷启动,可以引入专家知识,通过一定高效的方式快速建立起物品的相关度表。

在上面介绍了一些推荐系统的基础算法知识,这些算法大都是比较经典且现在还在使用的。但是需要注意的是,在实践中,任何一种推荐算法都不是单独使用的,而是将多种推荐算法结合起来,也就是混合推荐系统,但是在这里并不准备介绍,感兴趣的可以查阅《推荐系统》或《推荐系统与深度学习》等书籍。此外,在推荐中非常重要的点击率模型以及基于矩阵的一些排序算法在这里并没有提及,感兴趣的也可自行学习。

虽然现在用的很多算法都是基于深度学习的,但是这些经典算法能够让我们对推荐系统的发展有一个比较好的理解,同时,更重要的一点——“推陈出新”,只有掌握了这些经典的算法,才能提出或理解现在的一些更好地算法。

③ 为什么广告软件要记录用户活动

个性化广告投放技术已趋近成熟,无需通过“监听用户”来投放广告。打消用户顾虑,有待于算法推荐机制的透明、公开,以及隐私计算技术的发展。

文|《财经》商业治理研究院研究员 殷继

编辑|朱弢

你和朋友刚讨论完新出的运动鞋,打开手机,立刻就收到了淘宝的推荐;你和朋友电话里定好今晚酒吧聚会,很快,附近酒吧和餐厅的推荐广告就频繁出现在你常用的App中。

“我觉得App可能在监听我们的对话,要不然为什么总是有那么多巧合?”家住北京的王悦说,之所以让她感到担忧,是有一天夜里她在客厅和男友讨论点外卖吃小龙虾,接着她的生活服务类App首页推荐都是小龙虾。

“可能是种巧合吧,感觉App不太可能通过麦克风来监听我,它们应该主要根据我的所在城市、搜索、浏览的东西来向我推送广告。”李强在深圳从事IT工作,在他看来,App用设备麦克风监听用户不太划算。“要实现这种效果,首先要识别用户说了什么再进行语义分析,有时候苹果Siri都听不清你说的话,更何况那些App。”

如果App没有监听用户说话,用户在手机上收到的广告为什么越来越精准?怎么会有那么多的巧合?如何避免App违规使用个人信息和隐私?又有哪些技术手段可以保护用户个人信息和隐私不被滥用?

01

接受个性化推荐,无需付出隐私代价

如今,人们的生活离不开算法推荐技术,电商在618购物节向你推送“可能感兴趣”的商品;抖音根据你的点赞行为推荐更多你“可能喜欢”的视频;搜索引擎也根据你的点击操作进行检索过滤、排序精选,展示出你可能想要看到的搜索结果。

个性化推荐是算法推荐应用中最普遍的场景,它通过对用户兴趣偏好进行分析,组合不同画像的特征,实现向用户分类推送可能符合其喜好的产品或内容。例如,亚马逊、淘宝等电商平台,依靠个性化广告所带来的订单转化率已经逐渐超过传统的营销方式,这足以显示个性化推荐运用之广泛。

用户对于算法的态度如何呢?德勤2021年《数字媒体趋势报告》对2009名美国消费者的调查显示,在不同的平台和群体中,人们对广告的容忍度有很大差异。例如,在社交媒体平台上,62%的Z世代和72%的千禧一代更愿意看到针对自己喜好的个性化广告,而不是普通广告。

根据对外经济贸易大学数字经济与法律创新研究中心、中国人民大学数字经济研究中心和蚂蚁研究院共同发布的《算法应用的用户感知调查与分析报告》指出,虽然超八成受访者希望企业提供个性化推荐服务,但是超半数受访者不了解企业使用算法的内容和目的。另外,近八成受访者认为算法应用可能损害消费者权益,超六成认为会侵犯隐私。

那么,接受算法推荐服务,用户是否必然牺牲个人信息和隐私?

对外经济贸易大学数字经济与法律创新研究中心执行主任张欣在接受财经E法采访时表示,个性化广告推送并不一定非要以牺牲用户个人信息和隐私为代价。一方面,推荐系统在设计和应用时完全可以通过一系列技术最大化保护用户的隐私信息;另一方面,如果用户的选择退出权、标签删除权、反对权、知情权等各项权利能够得到切实保障,那么个人信息和隐私也能够在个性化广告推送实践中得到稳妥保护。

02

通过“监听”投广告,可能只是错觉

个性化广告的精准推送,是否如一些人所担忧那样,是通过用App“监听用户”实现的呢?其实,依靠用户画像进行的个性化推荐会与用户近期的行为数据、操作行为相关联,以至于产生“被监听”的错觉。

▲ 用户画像数据为结构化的字符串数据
根据《财经》商业治理研究院与中国社科院大学互联网法治研究中心联合发布的《个性化广告合规发展研究报告》介绍,从技术上来看,App可以调用“麦克风权限”实现对用户监听的功能,但App开发者会面临极大的法律风险甚至涉嫌犯罪。另外,在iOS和Android系统中,App调用“麦克风权限”需要获得用户授权,并且在功能使用中对用户进行强提示,用户极易感知监听带来的设备发热、耗电速度快等异常。

▲ 苹果手机会实时显示麦克风权限正在被调用
《计算广告》作者刘鹏认为,App如果无法获取iOS、Android系统的麦克风权限,除非拿到硬件芯片的访问权才可以实现监听用户,但硬件芯片的访问权在手机厂商手中,他们没有任何动力向不相关的App开放这个权限。“通过‘监听用户’来投放广告有些得不偿失,这是种非理性的行为。”

“在实验室测试环境中,我们模拟出了App在锁屏后也能持续录音一段时间的情况,但这种做法成本高、效率低、法律风险大,从此前了解到的检测结果来看,尚未发现有App这样做。”中国电子技术标准化研究院网络安全研究中心测评实验室副主任何延哲认为,更为高效、成本低廉的方式就是大数据的关联分析而非直接监听。

对数据进行挖掘分析,并用于个性化广告投放,在业内已形成通用且成熟的一套解决方案。目前,域内外法律及标准对个性化推荐进行明确的规制,且赋予个人信息主体的“拒绝权”,即如果反对使用自己的相关信息用于个性化广告以及算法推荐服务,用户有权选择关闭,来降低接收的广告与兴趣偏好的相关度。

03

隐私计算或可化解担忧

2021年,在国家网信办、工信部、公安部、市场监管总局(下称“四部委”)发起的个人信息保护专项整治中,对208万款APP进行了技术检测,通报违规1549款,下架514款。

2022年3月1日,四部委联合发布的《互联网信息服务算法推荐管理规定》(下称《算法推荐规定》)施行。其中,明确要求算法推荐服务提供者保护算法知情权、算法选择权等用户权益。

“《算法推荐规定》是第一部系统的、全面以算法为调整对象的规范性法律文件。从体系性、规制工具箱的丰富性、调整算法的多样性、对用户权益保护的周全性等多个层面来说,这个文件都具有开创性意义。”中国政法大学数据法制研究院教授张凌寒表示。

在个性化广告领域,根据现有的法律规范以及相关标准,网络服务提供者对用户具有“告知-同意”义务,告知收集个人信息的目的、方式及范围,获得用户的授权同意。其中算法推荐服务提供者,还应当给予用户拒绝使用个人信息投放信息的选项。另外,部分团体标准与行业规范也专门就定向广告、精准营销的个人信息使用行为作出了具体的技术要求。

前述《个性化广告合规发展研究报告》显示,各国立法者对强化个人在算法中的自主性已成共识。通过赋予了数据主体一系列权利,希望个体通过选择权和控制权,弱化人在算法社会被不断异化的趋势。同时,规制算法歧视需要从法律、道德以及社会可接受的角度来衡量,往往需要跨学科、多部门协作,形成政府监管、行业自律和社会监督的“共享、共建、共治”综合治理方案。

中国信通院泰尔终端实验室数字生态研究与治理中心主任杨正军认为,个性化广告以及个人信息保护的推进需要兼顾用户认知、行业水位和监管的尺度。

此外,外部的合规要求也助推着隐私计算技术的发展,这类技术旨在数据隐私保护的前提下,实现“数据可用不可见,数据不动模型动”。目前,各方在研究及落地应用的有“联邦学习、安全多方计算、可信计算”等隐私计算技术体系。

《个性化广告合规发展研究报告》指出,随着域内外逐渐完备的立法以及趋严的监管,正在推进企业实现更高的个人信息及隐私保护,随着隐私计算技术的发展,将逐步降低用户对隐私侵犯的担忧,成为平衡用户体验和个性化广告产业发展的保障

④ 算法推荐服务是什么

算法推荐服务是:在本质上,算法是“以数学方式或者计算机代码表达的意见”。其中,推荐系统服务就是一个信息过滤系统,帮助用户减少因浏览大量无效数据而造成的时间、精力浪费。

并且在早期的研究提出了通过信息检索和过滤的方式来解决这个问题。到了上世纪90年代中期,研究者开始通过预测用户对推荐的物品、内容或服务的评分,试图解决信息过载问题。推荐系统由此也作为独立研究领域出现了。

用算法推荐技术是指:应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。

基于内容的推荐方法:根据项的相关信息(描述信息、标签等)、用户相关信息及用户对项的操作行为(评论、收藏、点赞、观看、浏览、点击等),来构建推荐算法模型。

是否推荐算法服务会导致信息窄化的问题:

推荐技术并不是单纯地“投其所好”。在一些专家看来,在推荐已知的用户感兴趣内容基础上,如果能深入激发、满足用户的潜在需求,那么算法就能更好地满足人对信息的多维度诉求。

在外界的印象里,个性化推荐就像漏斗一样,会将推荐内容与用户相匹配,倾向于向用户推荐高度符合其偏好的内容,致使推荐的内容越来越窄化。

但与外界的固有认知相反,《报告》认为在行业实践中,互联网应用(特别是位于头部的大型平台)有追求算法多样性的内在动力。

在对行业内代表性应用的数据分析后,《报告》发现,阅读内容的类型数量是否够多、所阅读内容类型的分散程度是否够高,与用户是否能长期留存关联密切,呈正相关。上述两项指标对用户长期留存的作用,可以与信息的展现总量、用户的停留时长、用户阅读量等指标的影响相媲美。

⑤ 数据算法能力对广告投放的影响怎样,有多大

DSP普遍采用dCPM作为结算体系,dCPM指的是dynamic CPM,与目前网络广告市场长讲的CPM方式(此CPM相应的成为flat CPM)区别。dCPM基于RTB技术诞生,指的是每一次的impression出价是变化的。其每次出价均依据广告主广告投放的效果来实时计算,以得出对广告主最有利的价格,从而保证了广告主的利益。同时又因为以impression与媒体结算,也确保了媒体的收益。

⑥ 广告精准推送是大数据吗

是的。
精准推送多是指新媒体根据对大数据的信息化处理从而将人们想看的新闻、视频、段子、商品等置于优先位置,在传统媒体媒介中也存在精准推送如报纸不同版面,电视不同主题的台,广播不同波段不同主题等也属于精准推送范围。
在新媒体的加入后,精准推送变得更加全面,数据更准确,范围更广,受众更多。随着信息技术的迅猛发展、大数据应用的兴起,算法推荐带来的信息定制化、资讯分众化已经得到较广泛应用。

⑦ 数据算法能力对广告投放的影响

数据算法对于规模化的流量开发者,至少能提升30%的收益权益,表现在,拉高品牌广告频次、提升广告匹配度,通过类似于cookie的算法,主动去广告库里挑选合适的广告,一定是合适的,太高逼格的广告要适量、然后大部分应该是中性合适的广告,与app产品有一定的原生切合,所以MobTech袤博是值得尝试。

⑧ 3分钟轻松了解个性化推荐算法

推荐这种体验除了电商网站,还有新闻推荐、电台音乐推荐、搜索相关内容及广告推荐,基于数据的个性化推荐也越来越普遍了。今天就针对场景来说说这些不同的个性化推荐算法吧。
说个性化之前,先提一下非个性化。 非个性化的推荐也是很常见的,毕竟人嘛都有从众心理,总想知道大家都在看什么。非个性化推荐的方式主要就是以比较单一的维度加上半衰期去看全局排名,比如,30天内点击排名,一周热门排名。

但是只靠非个性化推荐有个弊端,就是马太效应,点的人越多的,经过推荐点得人有更多。。。强者越强,弱者机会越少就越弱,可能导致两级分化严重,一些比较优质素材就被埋没了。

所以,为了解决一部分马太效应的问题,也主要是顺应数据化和自动化的模式,就需要增加个性化的推荐(可算说到正题了。。。)个性化的优点是不仅体验好,而且也大大增加了效率,让你更快找到你感兴趣的东西。YouTube也曾做过实验测试个性化和非个性化的效果,最终结果显示个性化推荐的点击率是同期热门视频的两倍。

1.新闻、视频、资讯和电台(基于内容推荐)

一般来说,如果是推荐资讯类的都会采用基于内容的推荐,甚至早期的邮件过滤也采用这种方式。

基于内容的推荐方法就是根据用户过去的行为记录来向用户推荐相似额推荐品。简单来说就是你常常浏览科技新闻,那就更多的给你推荐科技类的新闻。

复杂来说,根据行为设计权重,根据不同维度属性区分推荐品都是麻烦的事,常用的判断用户可能会喜欢推荐品程度的余弦向量公式长这样,我就不解释了(已经勾起了我关于高数不好的回忆)。。。

但是,这种算法缺点是由于内容高度匹配,导致推荐结果的惊喜度较差,而且有冷启动的问题,对新用户不能提供可靠的推荐结果。并且,只有维度增加才能增加推荐的精度,但是维度一旦增加计算量也成指数型增长。如果是非实体的推荐品,定义风格也不是一件容易的事,同一个作者的文风和曲风也会发生改变。

2.电商零售类(协同过滤推荐和关联规则推荐)

说电商推荐那不可能不讲到亚马逊,传言亚马逊有三成的销售额都来自个性化的商品推荐系统。实际上,我自己也常常在这里找到喜欢的书,也愿意主动的去看他到底给我推荐了什么。

一般,电商主流推荐算法是基于一个这样的假设,“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”即协同过滤过滤算法。主要的任务就是找出和你品味最相近的用户,从而根据最近他的喜好预测你也可能喜欢什么。

这种方法可以推荐一些内容上差异较大但是又是用户感兴趣的物品,很好的支持用户发现潜在的兴趣偏好。也不需要领域知识,并且随着时间推移性能提高。但是也存在无法向新用户推荐的问题,系统刚刚开始时推荐质可能较量差。

电商行业也常常会使用到基于关联规则的推荐。即以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。比如,你购买了羽毛球拍,那我相应的会向你推荐羽毛球周边用品。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零售业中已经得到了成功的应用。

3.广告行业(基于知识推荐)

自从可以浏览器读取cookies,甚至获得年龄属性等信息,广告的个性化投放就也可以根据不同场景使用了。

当用户的行为数据较少时,基于知识的推荐可以帮助我们解决这类问题。用户必须指定需求,然后系统设法给出解决方式。假设,你的广告需要指定某地区某年龄段的投放,系统就根据这条规则进行计算。基于知识的推荐在某种程度是可以看成是一种推理技术。这种方法不需要用户行为数据就能推荐,所以不存在冷启动问题。推荐结果主要依赖两种形式,基于约束推荐和基于实例推荐。

4.组合推荐

由于各种推荐方法都有优缺点,所以在实际中,并不像上文讲的那样采用单一的方法进行建模和推荐(我真的只是为了解释清楚算法)。。。

在组合方式上,也有多种思路:加权、变换、混合、特征组合、层叠、特征扩充、元级别。 并且,为了解决冷启动的问题,还会相应的增加补足策略,比如根据用户模型的数据,结合挖掘的各种榜单进行补足,如全局热门、分类热门等。 还有一些开放性的问题,比如,需不需要帮助用户有品味的提升,引导人去更好的生活。

最后,我总想,最好的推荐效果是像一个了解你的朋友一样跟你推荐,因为他知道你喜欢什么,最近对什么感兴趣,也总能发现一些有趣的新东西。这让我想到有一些朋友总会兴致勃勃的过来说,嘿,给你推荐个东西,你肯定喜欢,光是听到这句话我好像就开心起来,也许这就是我喜欢这个功能的原因。

⑨ 关于推荐算法未来的思考:推荐诗与远方

2021年8月27日,国家互联网信息办公室发布了关于《互联网信息服务算法推荐管理规定(征求意见稿)》公开征求意见的通知。

其中第十五条规定:

这从国家层面再次引发了大家对于推荐算法的本质的思考。

信息茧房(Information Cocoon)是哈佛大学教授桑斯坦(Cass R. Sunstein)在2006年出版的《信息乌托邦》(Infotopia)一书中提出的概念。这个概念的意思是:

这个概念一经提出,就迅速引起轰动。支持和反对的声音都不绝于耳,甚至这个话题被写进了2020年江苏省高考语文作文题目中:

反对信息茧房论者,比如有文章将这种思想归结为人类对于技术的恐惧。
比如,文中说:

如果这个逻辑成立的话,我们可以说,因为喜爱高油高热量高糖的食物,我们的食堂就只提供这些食物就好了。

尼采认为,生命的本质就是追求权力意志(will to power)。但是,人类也是存在弱点的,可以通过一些手段压抑人类的权力意志。比如催眠,机械性重复的活动,微小的快乐,群体认同,让某些情感过度发展等。

宗教曾经做到过这些,使西方经过了上千年的中世纪。今天的网络游戏也可以做到其中的很多点,我们不能说因为宗教当年就是这样压抑人性的,所以网游这么做也是好的。

1775年,美国独立宣言起草者之一的帕特里克·亨利在弗吉尼亚州会议的演讲上讲出了着名的那句"Give me liberty or give me death",不自由,毋宁死。

那么,人是不是自由的呢?
让我们把时间推回原点,当人出生的时候,他或她没有权利选择自己的性别、父母、民族、家庭、国家,用海德格尔的话来说,人是被“抛”入这个世界的。
出生了之后,人类也是无法离开他人独立生存的,小时候是,长大之后仍然是。为了跟他人共同生存,就不得不受他人的影响。人总是在这种或那种处境中操劳。
我们所处的环境,就像一张大网,把我们困在其中。跟别人的交流、书籍、报纸、广播、电视、互联网上的信息也不断地影响着我们的想法。为广告、媒体、电子商务服务的推荐算法,正是这大网中提供能力增强的一部分。
这种受到别人的很大影响,而缺乏自我思考的状态,海德格尔称为“常人”。人们处于“常人”状态而不自知的这种状态,海德格尔称之为“沉沦”。

最基础的推荐算法叫做“协同过滤”。分为基于商品的协同过滤,也就是你买了商品A,就推荐相似的商品B给你;以及基于用户的协同过滤,也就是说你和朋友C的喜好相似,他买了商品D,那么也将商品D推荐给你。
举例来说,你买了辛拉面,就推荐相似的韩式火鸡面给你。
再比如,你和雷姆老师的喜好相似,比如你们都喜欢喝可乐。现在发现雷姆老师喜欢吃火锅,那就推荐你也吃火锅。

将这个原理做得更复杂一些,比如我们可以写成下面的公式:

但是不管表示起来如何复杂,本质上推荐算法所做的事情就是大网的一部分,让人沉沦于自己或者别人的兴趣的计算结果之中。

看到上面的结论,有些同学觉得不对。学过算法的同学都知道BandIt,在利用与探索中寻找平衡。你说我用推荐算法来网住你,我给你增加随机性总该可以了吧?
还有的同学认为,人生来就是有好奇心的,好奇心会让我们突破大网,找到更广阔的世界,打破这个限制。

那么我们不提哲学理论了,就从大家最常见的刷手机的场景上来说。比如休息一天在家刷手机,看短视频,看小说,追剧,看八卦新闻,打手机游戏。这样的一天度过了之后,躺在床上如果不能入睡的话你会感觉到什么,是充实,还是空虚?
我们在生活中也会遇到很多人好奇心很强,知道的东西很多,但是却没有什么很精通的东西。
这是因为,好奇心确实是人类探索未知世界的有力武器,但是光有好奇还不行,人类的默认模式是注意力涣散,兴趣点很快从一个事物迅速跳到另一个事物上。
就像仙剑中灵儿的那首小诗:“今日种种,似水无痕。明夕何夕,君已陌路”。

我们知道,人类是个视觉动物。观察人类的视线就可以看到,眼睛正常是不会盯着同一个地方一直看的。眼珠不动的反而可能是视障人士。
这种没有思考的好奇心,会让我们的生活消散在一片虚无之中,如无根之浮萍,没有根基,最终回归沉沦之中。

法国哲学家萨特认为,人类的本质就是虚无。人有无限种潜在的可能性,但是人类的天性是希望寻找确定性而非可能性。人类可以通过占有物品,比如买东西去获得一种确定性的感受,但是有限的、固定不变的东西没有办法填满无限的可能性。
这也是从哲学上对于现有的推荐算法无法满足人类的需求的解释。

最后,因为沉沦,因为不愿意独立思考,人们也不愿意做决策,更不愿意承担决策的后果。推荐算法可以帮助人们逃避决策,继续沉沦。
这当然谈不上有多负面,但是也谈不上有多正面。

那么,问题来了,这也不行,那也不行,那到底该怎么办?

答案是像《勇敢的心》里的威廉.华莱士一样,通过思考,追求自由,从沉沦中觉醒出来,进入一种称为“本真”的状态。

在沉沦状态下,我们其实是放弃了自由,把决定自己生存的决断交给流行的意见和习俗。
本真的生存状态并不是要标新立异,跟流行对着干,那其实仍然是一种沉沦的状态。而是理解我们生来是有自由决断和选择权的。纵然受到各种限制,纵然要承受决断带来的后果,那就对不起自己的良心。这不是因为我们不能做,而是我们明明能做但是没有做,自己没有对自己的生存负责。

那么是不是理解了这个道理,我们就可以过好这一生了呢?
哪有那么容易!你太小看常人状态的力量了。这种生来就伴随着我们的巨大惯性和旋涡一样裹挟着我们,想逃出去的可能性非常小。

得多强的力量才能像成为地球卫星的第一宇宙速度一样飞上太空呢?可能只有到了生命的尽头才能明悟,所谓“人之将死,其言也善”。
在那样的时刻,人们才能真正发现,自己要死了,但是平时沉沦所在的世界并不会跟自己一起去死。这是将某个人和常人环境分离的一个突破口。在这一时刻,人后悔想做而没有做的事情,跟别人的期望、其他人的看法等终于完全没有关系了,这一个,人终于成为了自己。
人的个体性和无可替代性终于从常人的状态中脱离出来。
试问,现有的推荐算法能够推荐出满足本真状态需求的东西么?推荐的结果本身也随着沉沦态一起被分离出去了。

那么,有没有办法不等到最后一刻才能进入本真的状态?
美国作家萨洛扬说:“每个人都会死,但是我总以为自己不会”。这是沉沦状态的常态。但是如果我们能够直面死亡,真真切切地去用心体会对于自己将要死亡的感受,保持对于死亡的“畏”的状态,我们就有可能进入到本真的状态。
但是,懂得了进入本真的方法,仍然不见得能过好一生,因为本真的状态可能只存在一瞬间,你马上又被常人状态拉回到沉沦之中。

尽管回到了沉论,但是良心的种子已经在慢慢生根发芽。你就有更多的机会跳出沉沦,去反思什么才是真正你这个个体所想要的。

当然,通过反思悟到脱离沉沦状态的方法不止“向死而生”这一种。比如针对似水无痕的好奇心,对于死亡之畏,你悟到的是“无无明,亦无无明尽,乃至无老死,亦无老死尽。无苦集灭道,无智亦无得”。那么你一样可以摆脱沉沦状态,但不是进入本真状态,而是“远离颠倒梦想,究竟涅磐”了。

有同学讲了,我看你这篇文章是想看推荐算法的思考,你跟我讲向死而生有什么用,这是靠人自己思考和反思的,推荐算法能帮上什么忙?光推荐,人不反思,还是会一直沉沦下去啊。

幸好除了完全脱离沉沦回归本真的方法之外,我们还有在沉沦中打开一扇看到另外的世界的窗口,这就是诗歌、艺术与自然的召唤,我们统一称做“诗与远方”。

脱离沉沦可以认为是离开黑暗进入光明,而诗与远方就像是夜空中明亮的心,同样可以给沉沦中的我们带来不指引。

当海德格尔在思考沉论的时候,他看到了被人遗忘了100多年的德国诗人荷尔德林的诗:《人,诗意的栖居》

无独有偶,当存在主义的思潮逐渐散去,新时代运动兴起,西方人民在寻找心灵渴望的源泉的时候,找到的是700多年前伊斯兰教苏菲派诗人鲁米的诗。
2007年,联合国教科文组织将这一年定为“国际鲁米年”,以纪念鲁米诞辰800周年。

比如这首:

语言可以揭示存在,同时又很容易遮蔽存在。当我们使用一套惯用的语言,很多观念就变成了现成的、理所当然的,从而让人陷入沉沦,让存在本身被遮蔽和遗忘。而诗歌就是揭示存在,让读者进入澄明的虫洞的入口。

同诗歌一样,海德格尔认为,每一件伟大的艺术作品都在混沌一片的沉沦状态下照亮了一片场域,也让观看者同时进入澄明无蔽的真实之境。
我个人认为,作为人类心灵归宿的大自然,也起到同样的澄明作用。

那么我们的推荐算法呢?是不是也能照亮一片场域,澄明一块无蔽的真实之境?让用户在沉沦中能够找到本真自我的真实的需求?

新的推荐算法,应该具有下面的几个特征:

最后,让我们引入一小段鲁米的话来作为结束:

算法不能只推荐眼前的苟且,还要像诗与远方一样澄明一片场域的遮蔽。

⑩ 算法推荐服务被戴“紧箍”,流量造假、控制热搜等有治了

算法推荐是把“双刃剑”

腾讯安全战略研究中心联合赛博研究院发布的《人工智能时代数字内容治理的机遇与挑战》报告显示,算法精准推荐已经占据信息流分发主导地位,算法能够实现数字内容聚合和精准推荐,快速匹配信息与人。基于算法的个性化内容推送在为用户提供精准化、个性化服务的同时,也带来了国家安全风险因素增高、不良信息泛滥风险增加以及传统权利保护难度加大等问题,已然成为一把“双刃剑”。

上海 财经 大学研究员崔丽丽表示,互联网平台作为消除信息不对称的先进技术代表,有责任维持技术手段的客观性,反映流量的自然状态,呈现真实的公众意见。不应该因为商业利益的驱使在流量上作假。过去曾发生过一些涉及到商业利益的新闻、信息被操控的情况,这样获取的商业利益是一种市场不公平的表现,甚至是不合法的。

提出算法“向善”新要求

根据征求意见稿,管理规定将适用于在境内应用算法推荐技术提供互联网信息服务的公司。这也意味着,以内容推荐算法为核心竞争力的短视频平台、UGC(用户生产内容)平台、推荐内容或是广告的电商和社交平台等主流互联网公司和平台的算法推荐技术都包含在此。

崔丽丽表示,不论是UGC还是PGC(专业生产内容)平台,内容的审核以及对于受众的推荐实际都有相应的规则,互联网信息平台已经在形态上取代了过去的传统媒体,因此,可能具备了一定的公共设施属性,所以信息的产生、审核和分发应该符合公允、客观以及符合事实等要求。

征求意见稿指出,算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用“向上向善”。算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。

王娟表示,征求意见稿对算法的主体价值导向、个人数据用途、行业自律等提出了算法“向善”的要求,提出了算法提供者备案责任,明确了算法推荐服务提供者作为落实算法安全的主体责任 ,还对算法推荐服务日志等信息提出了留存要求,留存期限不少于六个月,并在相关执法部门依法查询时予以提供,对回溯求证环节进行了加强。

征求意见稿明确,算法推荐服务提供者应落实算法安全主体责任,建立健全用户注册、信息发布审核、算法机制机理审核、安全评估监测、安全事件应急处置、数据安全保护和个人信息保护等管理制度,制定并公开算法推荐相关服务规则,配备与算法推荐服务规模相适应的专业人员和技术支撑。

从用户的角度来看,算法对数据的交互模式也提出了很多要求。征求意见稿提出,算法推荐服务提供者应当以显着方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图、运行机制等。同时,算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能,以及不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。

而对于大数据“杀熟”等顽疾,征求意见稿强调,算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者合法权益,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实行不合理的差别待遇等违法行为。

网络热搜将被严管

近年来,网络热搜已经成为实时的舆情风向标和舆论的集散地,征求意见稿也特别对热搜作出了规范管理,明确算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。

王娟表示,征求意见稿对热搜、虚假流量可谓“重拳出击”,核心仍是围绕互联网不是法外之地,建立清朗网络空间、树立良好 社会 价值观,微博热搜榜等各类“带节奏”式资本叠加流量的运作模式将受到重大挑战。

面对外界的质疑,微博也在近日发布了热搜管理规则,并对“花钱买热搜”“花钱压热搜”等质疑回应称,热搜根据微博用户的真实行为进行计算,并根据搜索量、发博量、互动量等数据指标,形成实时榜单。榜单算法中包含了严格的排水军和反垃圾机制,以确保公正客观。同时上半年热搜还将“减少 娱乐 占比”作为主要调控目标。

阅读全文

与算法推荐在广告中的应用相关的资料

热点内容
压缩文件怎么设置打开加密 浏览:754
tracert命令结果详解 浏览:348
唯赛思通用什么APP 浏览:371
古玩哪个app好卖 浏览:146
u盘内容全部显示为压缩包 浏览:517
编译固件时使用00优化 浏览:356
速借白条app怎么样 浏览:756
用纸张做的解压东西教程 浏览:12
求圆的周长最快算法 浏览:190
安卓热点怎么减少流量 浏览:270
北京代交社保用什么app 浏览:855
第一眼解压视频 浏览:726
文件夹err是什么 浏览:97
qt4编程pdf 浏览:572
局域网服务器下如何连续看照片 浏览:254
经过加密的数字摘要 浏览:646
加密锁9000变打印机 浏览:694
程序员的职业发展前途 浏览:639
安卓是世界上多少个程序员开发 浏览:45
解压器官方免费 浏览:85