主流的推荐算法_推荐算法中有哪些常用排序算法

㈠常见的推荐算法

根据用户兴趣和行为，向用户推荐所需要的信息，帮助用户在海量的信息中快速发现自己真正需要的东西。所以推荐系统要解决的问题用户没用明确的需求以及信息存在过载。推荐系统一般要基于以下来搭建：
1、根据业务来定义自身产品的热门标准
2、用户信息：比如性别、年龄、职业、收入等
3、用户行为
4、社会化关系

1、非个性化推荐
在冷启动方面我们精彩用非个性化推荐来解决问题。常见的有：热门推荐，编辑推荐，最新推荐等。下面是3个场景下的排序介绍：
热门推荐：根据业务类型确定排名核心指标，比如阅读数，其次要考虑避免马太效应，所以增加1个维度：时间。一般情况一个内容的热度是随着时间不断下降的，所以需要设定重力因子G，它决定热度随着时间流逝下降的速度。热度初始值由阅读数决定，我们假设R为阅读书，距离发帖时间的时间为T，重力因子为G，热度为rank。根据热度随着时间而不断下降，且是非线性的，所以我们用指数函数来表达时间和热度的关系：rank=R/(T)^G，下图为热度的基本曲线：

通过该函数，我们可以随意调整参数来控制曲线的平坦和陡峭，如果G越大，曲线越陡峭说明热度下降越快。如果我们要调整热度初始值，可对R进行调整，比如R1=R^0.8，来缩短每篇文章的初始热度值
编辑推荐：一般由编辑在后台进行设置
最新推荐：如果无其他规则，一般按内容更新时间／创建时间来倒序

2、基于用户基本信息推荐（人口统计学）
根据系统用户的基本信息如：领域、职位、工作年龄、性别和所在地等。根据这些信息给用户推荐感兴趣或者相关的内容。
常见的用户基本信息有：性别，年龄，工作、收入、领域、职位、所在地，手机型号、网络条件、安装渠道、操作系统等等。根据这些信息来关联我们数据源，比如年龄-关联电影表、收入-关联商品类型表，性别-文章关联表等等。然后设定权重，给予个性化的推荐。
步骤1：用户建模，收集用户基本信息，建立兴趣图谱，标签体系树状结构然后配上权重
步骤2：内容建模，细分内容的元数据，将步骤1的用户标签和元数据连接，然后进行推荐

2、基于内容基本的推荐
根据推荐物品或者信息的元数据，发现物品或者信息的相关性，然后基于用户以往的喜好记录，推荐给用户相似的物品。
内容的一些基本属性：tag、领域、主题、类型、关键字、来源等

3、基于协同过滤的推荐
这种算法基于一种物以类聚人以群分的假设，喜欢相同物品的用户更有可能具有相同的兴趣。基于协同过滤推荐系统一般应用于有用户评分的系统中，通过分数去刻画用户对于物品的喜好。根据维度可分为2种：
1、基于用户：找到和你相似的人推荐他们看过而你没有看过的内容
比如下面，系统判断甲乙2个用户是相似的，那么会给甲推荐短视频相关内容，会给乙推荐数据分析相关内容
甲：产品经理、运营、数据分析
乙：产品经理、运营、短视频
丙：比特币、创业、硅谷
步骤1:找到和目标用户兴趣相似的用户集合
步骤2:找到集合中用户喜欢的且目标用户没有被推荐过的内容

2、基于物品：以物为本建立各商品之间相似度关系矩阵，用户看了x也会看y
比如下面，甲和乙分别不约而同看了产品经理和数据分析，说明喜欢产品经理和数据分析的用户重合度高，说明两个内容相似。所以给喜欢产品经理的人推荐数据分析，给喜欢数据分析的人推荐产品经理。
这么理解：喜欢产品经理的人有m人，喜欢数据分析有n人，其中m中有80%用户与n中80%的用户是一样的，就意味着喜欢产品经理的用户也会喜欢数据分析。
产品经理：甲、乙，丁
数据分析：甲、乙，戊
增长黑客：甲、丙
喜欢物品A的用户，可能也会喜欢与物品A相似的物品B，通过历史行为计算出2个物品的相似度（比如m人喜欢A，n人喜欢B，有k人喜欢A又喜欢B，那么A和B的相似度可计算为k/m或者n，因为k属于m和n），这个推荐和内容推荐算法区别是内容推荐算法是根据内容的属性来关联，而基于物品的协同过滤则是根据用户的行为对内容进行关联

4、基于用户社交关系推荐
用户与谁交朋友或者关系好，在一定程度上朋友的需求和自身的需求是相似的。所以向用户推荐好友喜欢的东西。本质上是好友关系链版的基于用户的协调过滤

5、推荐思路的拓展
根据不同使用场景进行不同的推荐，可细分的场景包括用户使用的：时间、地点、心情、网络环境、兴趣、上下文信息以及使用场景。每个场景的推荐内容都不一样，所以往往一个系统都是由多种推荐方式组成，比如加权混合。
加权混合：用线性公式将几种不同的推荐按照一定权重组合起来，具体权重值需要反复测试调整。例子：加权混合=推荐1结果*a+推荐2结果*b+...+推荐n结果*n，其中abn为权重，和为1

下面分享一张来自知乎的图，供学习，侵删：

基于用户信息的推荐与基于用户的协同过滤：
两者都是计算用户的相似度，但基于用户信息的推荐只考虑用户本身信息来计算相似度，而基于用户的协同过滤是基于用户历史偏好来计算相似度

基于内容的信息推荐与基于物品的协同过滤：
两者都是计算物品的相似度，但是基于内容的信息推荐只考虑物品本身的属性特征来计算相似度，而基于物品的协同过滤是基于用户历史偏好来计算相似度

基于用户信息的推荐特点：
1、不需要历史数据，对用户基本信息建模
2、不依赖于物品，所以其他领域可无缝接入
3、因为用户基本信息一般变化不大，所以推荐效果一般

基于内容信息的推荐特点：
1、物品属性有限，很难获得有效又全的数据
2、需要获取用户喜欢的历史内容，再来推荐与内容相似的东西，所以有冷启动问题

基于用户／基于物品的协同过滤推荐特点：
1、需要获取用户的历史偏好，所以有冷启动问题
2、推荐效果依赖于大数据，数据越多，推荐效果就越好

㈡推荐算法综述

推荐系统的目的是通过推荐计算帮助用户从海量的数据对象中选择出用户最有可能感兴趣的对象。涉及三个基本内容:目标用户、待推荐项目以及推荐算法，基本流程为：描述为用户模型构建、项目模型建立以及推荐算法处理三个基本流程；

为了能够为用户提供准确的推荐服务，推荐系统需要为用户构建用户模型，该模型能够反映用户动态变化的多层次兴趣偏好，有助于推荐系统更好的理解用户的特征和需求。构建用户模型通常需要经历三个流程:用户数据收集，用户模型表示以及用户模型更新。

（1）用户数据收集：用户数据是用户模型构建的基础，用户数据收集的方式一般有显示方式获取和隐式方式获取两种。
显示方式获取的数据是用户特征属性和兴趣偏好的直接反映，所获得的信息数据是较为客观全面的，比如用户在注册时包含的性别、年龄等信息可以直接表示出用户的基本人口学信息和兴趣信息，用户对项目的评分可以反映出用户的偏好。但显示获取的方式最大的缺陷是其实时性较差，并且具有很强的侵袭性。
隐式方式获取用户数据是在不干扰用户的前提下，采集用户的操作行为数据，并从中挖掘出用户的兴趣偏好。用户的很多操作行为都能反映出用户的喜好，比如用户浏览网页的速度、用户查询的关键字等，推荐系统在不影响用户使用系统的情况下，通过行为日志挖掘出用户的偏好。隐式获取方式由于具有较好的实时性和灵活性和较弱的侵袭性，己经成为推荐系统中主要的用户数据采集方式。

（2）用户模型表示：用户模型是从用户数据中归纳出的推荐系统所理解的用户兴趣偏好的结构化形式。
a 基于内容关键词表示；
b 基于评分矩阵表示；
（3）用户模型更新：推荐系统面临的问题之一是兴趣漂移，兴趣漂移的根本原因在于用户的兴趣会随时间发生改变。为了使用户模型够准确的代表用户的兴趣，推荐系统需要根据最新的用户数据对用户模型进行更新。

目前项目模型主要通过基于内容和基于分类这两类方式来建立。基于内容的方式是以项目本身内容为基础，向量空间模型表示是目前御用最为广泛的基于内容的方式。

基于分类的方式是根据项目的内容或者属性，将项目划分到一个或者几个类别中，利用类别信息来表示项目，这种方法可以很方便地将项目推荐给对某一类别感兴趣的用户。常见的分类算法有朴素贝叶斯算法和KNN分类算法等。

推荐系统实现的核心是其使用的推荐算法。针对不同的使用环境及其系统的数据特征，选取不同的推荐算法，可以在本质上提高推荐系统的推荐效果。根据不同的分类标准，推荐算法出现了有很多不同的分类方法，本文采用了比较普遍的分类方法。

推荐系统通常被分为基于内容的推荐算法、协同过滤推荐算法以及混合模型推荐算法三大类。

基于内容的推荐算法，其本质是对物品或用户的内容进行分析建立属性特征。系统根据其属性特征，为用户推荐与其感兴趣的属性特征相似的信息。算法的主要思想是将与用户之前感兴趣的项目的内容相似的其他项目推荐给用户。

CBF（Content-based Filter Recommendations）算法的主要思想是将与用户之前感兴趣的项目的内容相似的其他项目推荐给用户，比如用户喜欢Java开发的书籍，则基于内容过滤算法将用户尚未看过的其他Java开发方面的书籍推荐给用户。因此，该推荐算法的关键部分是计算用户模型和项目模型之间的内容相似度，相似度的计算通常采用余弦相似性度量。

基于内容的推荐过程一般分为以下三个模块:
（1）特征提取模块:由于大多数物品信息是非结构化的，需要为每个物品(如产品、网页、新闻、文档等)抽取出一些特征属性，用某一恰当的格式表示，以便下一阶段的处理。如将新闻信息表示成关键词向量，此种表示形式将作为下一模块(属性特征学习模块)的输入。

（2）特征学习模块:通过用户的历史行为数据特征，机器学习出用户的兴趣特征模型。本模块负责收集代表用户喜好的数据信息，并泛化这些数据，用于构建用户特征模型。通常使用机器学习的泛化策略，来将用户喜好表示为兴趣模型。

（3）推荐模块:该模块利用上一阶段得到的用户特征模型，通过对比用户兴趣模型与带推荐物品的特征相似度，为用户推荐与其兴趣相似度较高的物品，从而达到个性化推荐的目的。该模块一般采用计算用户兴趣向量与待推荐物品特征向量的相似度来进行排序，将相似度较高的物品推荐给相应用户。计算相似度有多种方法，如皮尔逊相关系数法、夹角余弦法、Jaccard相关系数法等。

协同过滤算法（Collaborative Filtering）是于内容无关的，即不需要额外获取分析用户或物品的内容属性特征。是基于用户历史行为数据进行推荐的算法。其通过分析用户与物品间的联系来寻找新的用户与物品间的相关性。

该算法算法通常有两个过程，一个过程是预测，另一个过程是推荐。主流的协同过滤算法包括三种:基于用户的协同过滤(User-Based Collaborative Filtering,UBCF)、基于项目的协同过滤(Item-Based Collaborative Filtering, IBCF)和基于模型的协同过滤(Model-Based Collaborative Filtering, MBCF)

（1）基于用户的协同过滤算法
基于用户的协同过滤推荐算法，先通过用户历史行为数据找到和用户u相似的用户，将这些用户感兴趣的且u没有点击过的物品推荐给用户。
算法主要包括以下两个步骤:
(1)找到与目标用户喜好相似的邻居用户集合。
(2)在邻居用户集合中，为用户推荐其感兴趣的物品。

UBCF的基本思想是将与当前用户有相同偏好的其他用户所喜欢的项目推荐给当前用户。一个最典型的例子就是电影推荐，当我们不知道哪一部电影是我们比较喜欢的时候，通常会询问身边的朋友是否有好的电影推荐，询问的时候我们习惯于寻找和我们品味相同或相似的朋友。

（2）基于物品的协同过滤算法
基于物品的协同过滤算法(Item-based Collaborative Filtering)其主要思想是，为用户推荐那些与他们之前喜欢或点击过的物品相似的物品。不过基于物品的协同过滤算法并不是利用物品的内容属性特征来计算物品之间的相似度的。该类算法是利用用户的历史行为数据计算待推荐物品之间的相似度。在该类算法中，如果喜欢物品A的用户大都也喜欢物品B，那么就可以认为物品A和物品B之间的相似度很高。
算法分为以下两个步骤:
(1)根据用户历史行为数据，计算物品间的相似度。
(2)利用用户行为和物品间的相似度为用户生成推荐列表。

IBCF算法是亚马逊在2003年发表的论文中首次提出，该算法的基本思想是根据所有用户的历史偏好数据计算项目之间的相似性，然后把和用户喜欢的项目相类似的并且用户还未选择的其他项目推荐给用户，例如，假设用户喜欢项目a，则用户喜欢与项目a高度相似且还未被用户选择的项目b的可能性非常大，因此将项目b推荐给用户。

UBCF和IBCF都属于基于内存的协同过滤算法，这类算法由于充分发挥了用户的评分数据，形成全局推荐，因此具有较高的推荐质量。但随着用户和项目的规模增长，这类算法的计算时间大幅上升，使得系统的性能下降。针对该问题，研究人员提出将数据挖掘中的模型和CF算法结合，提出了基于模型的协同过滤算法(MBCF) 。

MBCF算法利用用户历史评分数据建立模型，模型建立的算法通常有奇异值分解、聚类算法、贝叶斯网络、关联规则挖掘等，且通常是离线完成。由于MBCF通常会对原始评分值做近似计算，通过牺牲一定的准确性来换取系统性能，因此MBCF的推荐质量略差于UBCF和IBCF。

由于基于内容的推荐算法和协同过滤推荐算法都有其各自的局限性，混合推荐算法应运而生。混合推荐算法根据不同的应用场景，有多
种不同的结合方式，如加权、分层和分区等。

目前使用的混合推荐算法的思想主要可以分成以下几类:
（1）多个推荐算法独立运行，获取的多个推荐结果以一定的策略进行混合，例如为每一个推荐结果都赋予一个权值的加权型混合推荐算法和将各个推荐结果取TOP-N的交叉混合推荐算法。

（2）将前一个推荐方法产出的中间结果或者最终结果输出给后一个推荐方法，层层递进，推荐结果在此过程中会被逐步优选，最终得到一个精确度比较高的结果。

（3）使用多种推荐算法，将每种推荐算法计算过程中产生的相似度值通过权重相加，调整每个推荐算法相似度值的权重，以该混合相似度值为基础，选择出邻域集合，并结合邻域集合中的评估信息，得出最优的推荐结果。

BP (Back Propagation)神经网络是目前应用最广泛的神经网络模型之一，是一种按误差逆传播算法训练的多层前馈网络。

BP神经网络模型包括输入层、隐藏层和输出层，每一层由一个或多个神经元组成，其结构图如图2-3所示。BP神经网络拥有很强的非线性映射能力和自学习、自适应能力，网络本身结构的可变性，也使其十分灵活，一个三层的BP神经网络能够实现对任意非线性函数进行逼近。

BP神经网络的训练过程通常分为3个过程，依次分别为数据初始化过程、正向推演计算过程以及反向权重调整过程。数据初始化是BP神经网络能够进行有效训练的前提，该过程通常包括输入数据进行归一化处理和初始权重的设置；正向推演计算是数据沿着网络方向进行推演计算;反向权重调整则是将期望输出和网络的实际输出进行对比，从输出层开始，向着输入层的方向逐层计算各层中各神经元的校正差值，调整神经元的权重。正向推演计算和反向权重调整为对单个训练样本一次完整的网络训练过程，经过不断的训练调整，网络的实际输出越来越趋近于期望输出，当网络输出到达预期目标，整个训练过程结束。

TF-IDF(Term Frequency-Inverse Document Frequency，词频一逆文档)是文本处理中常用的加权技术，广泛应用于信息检索、搜索引擎等领域。
TF-IDF的主要思想是:如果一个关键词在文档中出现的频率很高，而在其他文档中出现次数较少，则该关键词被认为具有较强的代表性，即该关键词通过TF-IDF计算后有较高的权重。

TextRank算法，是一种用于文本关键词排序的算法，页排序算法PageRank。
PageRank基本思想是将每个网页看成一个节点，网页中的链接指向看成一条有向边，一个网页节点的重要程度取决于链接指向该网页节点的其他节点的数量和重要权值，该过程描述如下:让每一个网页对其所包含的链接指向的网页进行迭代投票，每次迭代投票过程中票的权重取决于网页当前拥有的票数，当投票结果收敛或者达到指定的迭代次数时，每个网页所获得票数即为网页重要程度权值。

TextRank算法相比于TF-IDF最大的优点是TextRank是一种无监督的学习，因此不会受限于文本的主题，并且无需大规模的训练集，可以针对单一文本进行快速的关键词的权重计算。

㈢社交网络核心，推荐算法有哪些

对好友推荐算法非常熟悉，有些积累。好友推荐算法一般可以分为下面几类：
1、基于关系的推荐
基于关系的推荐，最近写了一个专栏文章，具体介绍了常用算法，可以看下有没有帮助，传送门：http://zhuanlan.hu.com/gongwenjia/20533434
简介：
a.社会网络中，三元闭包理论，以及常用推荐算法
b.Facebook中的推荐算法是如何做的
2、基于用户资料的推荐
3、基于兴趣的推荐
剩下两个方面有时间再写。
近来学习聚类，发现聚类中有一个非常有趣的方向—社交网络分析，分享一下我的大致了解。这篇只是一篇概况，并没有太多的公式推导和代码，基本是用人话解释社交网络分析中的常用的几种算法。详细到每个算法的以后有空再把详细的公式和代码补上。
社区发现算法，GN算法，Louvain算法，LPA与SLPA
Louvain算法思想
1.不断遍历网络中的节点，尝试把单个节点加入能使模块度提升最大的社区，直到所有节点不再改变
2.将第一阶段形成的一个个小的社区并为一个节点，重新构造网络。这时边的权重为两个节点内所有原始节点的边权重之和。
3.重复以上两步
LPA算法思想：
1.初始化每个节点，并赋予唯一标签
2.根据邻居节点最常见的标签更新每个节点的标签
3.最终收敛后标签一致的节点属于同一社区
SLPA算法思想：
SLPA是LPA的扩展。
1.给每个节点设置一个list存储历史标签
2.每个speaker节点带概率选择自己标签列表中标签传播给listener节点。（两个节点互为邻居节点）
3.节点将最热门的标签更新到标签列表中
4.使用阀值去除低频标签，产出标签一致的节点为社区。

㈣推荐算法中有哪些常用排序算法

外排序、内排序、插入类排序、直接插入排序、希尔排序、选择类排序。

推荐算法是计算机专业中的一种算法，通过一些数学算法，推测出用户可能喜欢的东西，应用推荐算法比较好的地方主要是网络。所谓推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用户可能喜欢的东西。

在基于内容的推荐系统中，项目或对象是通过相关特征的属性来定义的，系统基于用户评价对象的特征、学习用户的兴趣，考察用户资料与待预测项目的匹配程度。用户的资料模型取决于所用的学习方法，常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料需要有用户的历史数据，用户资料模型可能随着用户的偏好改变而发生变化。

基于内容的推荐与基于人口统计学的推荐有类似的地方，只不过系统评估的中心转到了物品本身，使用物品本身的相似度而不是用户的相似度来进行推荐。

㈤推荐算法有哪些

推荐算法是计算机专业中的一种算法，通过一些数学算法，推测出用户可能喜欢的东西。
基于协同过滤的推荐
基于用户的协同过滤算法: 基于一个这样的假设“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”所以基于用户的协同过滤主要的任务就是找出用户的最近邻居，从而根据最近邻居的喜好做出未知项的评分预测。这种算法主要分为3个步骤：
1、用户评分。可以分为显性评分和隐形评分两种。显性评分就是直接给项目评分（例如给网络里的用户评分），隐形评分就是通过评价或是购买的行为给项目评分（例如在有啊购买了什么东西）。
2、寻找最近邻居。这一步就是寻找与你距离最近的用户，测算距离一般采用以下三种算法：1.皮尔森相关系数。2.余弦相似性。3调整余弦相似性。调整余弦相似性似乎效果会好一些。
3、推荐。产生了最近邻居集合后，就根据这个集合对未知项进行评分预测。把评分最高的N个项推荐给用户。这种算法存在性能上的瓶颈，当用户数越来越多的时候，寻找最近邻居的复杂度也会大幅度的增长。
组合推荐
在组合方式上，有研究人员提出了七种组合思路：
1、加权（Weight）：加权多种推荐技术结果。
2、变换（Switch）：根据问题背景和实际情况或要求决定变换采用不同的推荐技术。
3、混合（Mixed）：同时采用多种推荐技术给出多种推荐结果为用户提供参考。
4、特征组合（Feature combination）：组合来自不同推荐数据源的特征被另一种推荐算法所采用。
5、层叠（Cascade）：先用一种推荐技术产生一种粗糙的推荐结果，第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。
6、特征扩充（Feature augmentation）：一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。
7、元级别（Meta-level）：用一种推荐方法产生的模型作为另一种推荐方法的输入。

㈥ 3分钟轻松了解个性化推荐算法

推荐这种体验除了电商网站，还有新闻推荐、电台音乐推荐、搜索相关内容及广告推荐，基于数据的个性化推荐也越来越普遍了。今天就针对场景来说说这些不同的个性化推荐算法吧。
说个性化之前，先提一下非个性化。非个性化的推荐也是很常见的，毕竟人嘛都有从众心理，总想知道大家都在看什么。非个性化推荐的方式主要就是以比较单一的维度加上半衰期去看全局排名，比如，30天内点击排名，一周热门排名。

但是只靠非个性化推荐有个弊端，就是马太效应，点的人越多的，经过推荐点得人有更多。。。强者越强，弱者机会越少就越弱，可能导致两级分化严重，一些比较优质素材就被埋没了。

所以，为了解决一部分马太效应的问题，也主要是顺应数据化和自动化的模式，就需要增加个性化的推荐（可算说到正题了。。。）个性化的优点是不仅体验好，而且也大大增加了效率，让你更快找到你感兴趣的东西。YouTube也曾做过实验测试个性化和非个性化的效果，最终结果显示个性化推荐的点击率是同期热门视频的两倍。

1.新闻、视频、资讯和电台（基于内容推荐）

一般来说，如果是推荐资讯类的都会采用基于内容的推荐，甚至早期的邮件过滤也采用这种方式。

基于内容的推荐方法就是根据用户过去的行为记录来向用户推荐相似额推荐品。简单来说就是你常常浏览科技新闻，那就更多的给你推荐科技类的新闻。

复杂来说，根据行为设计权重，根据不同维度属性区分推荐品都是麻烦的事，常用的判断用户可能会喜欢推荐品程度的余弦向量公式长这样，我就不解释了（已经勾起了我关于高数不好的回忆）。。。

但是，这种算法缺点是由于内容高度匹配，导致推荐结果的惊喜度较差，而且有冷启动的问题，对新用户不能提供可靠的推荐结果。并且，只有维度增加才能增加推荐的精度，但是维度一旦增加计算量也成指数型增长。如果是非实体的推荐品，定义风格也不是一件容易的事，同一个作者的文风和曲风也会发生改变。

2.电商零售类（协同过滤推荐和关联规则推荐）

说电商推荐那不可能不讲到亚马逊，传言亚马逊有三成的销售额都来自个性化的商品推荐系统。实际上，我自己也常常在这里找到喜欢的书，也愿意主动的去看他到底给我推荐了什么。

一般，电商主流推荐算法是基于一个这样的假设，“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”即协同过滤过滤算法。主要的任务就是找出和你品味最相近的用户，从而根据最近他的喜好预测你也可能喜欢什么。

这种方法可以推荐一些内容上差异较大但是又是用户感兴趣的物品，很好的支持用户发现潜在的兴趣偏好。也不需要领域知识，并且随着时间推移性能提高。但是也存在无法向新用户推荐的问题，系统刚刚开始时推荐质可能较量差。

电商行业也常常会使用到基于关联规则的推荐。即以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。比如，你购买了羽毛球拍，那我相应的会向你推荐羽毛球周边用品。关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业中已经得到了成功的应用。

3.广告行业（基于知识推荐）

自从可以浏览器读取cookies，甚至获得年龄属性等信息，广告的个性化投放就也可以根据不同场景使用了。

当用户的行为数据较少时，基于知识的推荐可以帮助我们解决这类问题。用户必须指定需求，然后系统设法给出解决方式。假设，你的广告需要指定某地区某年龄段的投放，系统就根据这条规则进行计算。基于知识的推荐在某种程度是可以看成是一种推理技术。这种方法不需要用户行为数据就能推荐，所以不存在冷启动问题。推荐结果主要依赖两种形式，基于约束推荐和基于实例推荐。

4.组合推荐

由于各种推荐方法都有优缺点，所以在实际中，并不像上文讲的那样采用单一的方法进行建模和推荐（我真的只是为了解释清楚算法）。。。

在组合方式上，也有多种思路：加权、变换、混合、特征组合、层叠、特征扩充、元级别。并且，为了解决冷启动的问题，还会相应的增加补足策略，比如根据用户模型的数据，结合挖掘的各种榜单进行补足，如全局热门、分类热门等。还有一些开放性的问题，比如，需不需要帮助用户有品味的提升，引导人去更好的生活。

最后，我总想，最好的推荐效果是像一个了解你的朋友一样跟你推荐，因为他知道你喜欢什么，最近对什么感兴趣，也总能发现一些有趣的新东西。这让我想到有一些朋友总会兴致勃勃的过来说，嘿，给你推荐个东西，你肯定喜欢，光是听到这句话我好像就开心起来，也许这就是我喜欢这个功能的原因。

㈦信息流的那点事：3 推荐算法是如何实现的

讲完信息流流行的原因（信息流的那点事：2 为什么信息流如此流行），这一篇，我们来从产品的视角，来看看推荐算法在技术上是如何实现的。

根据需要的技术和运营成本，可以将主流的推荐算法分为三类：基于内容元数据的推荐、基于用户画像的推荐、基于协同过滤算法的推荐。

基于元数据的推荐是比较基础的推荐算法，基本原理是给内容打标签，具体元数据的选取根据的内容有所不同，比较通用的角度有内容的关键词、类型、作者、来源等，打开一款头条类app，选择屏蔽一条内容，就可以看到一些该内容的元数据颤差举。

有了内容的元数据，就可以根据内容间的关联，可以进行相关内容的推荐，喜欢看奇葩说的用户，可能也会喜欢看同是米未传媒出品的饭局的诱惑。根据内容的元数据，也可以记录并逐渐明确用户的内容偏好，进行数据积累，便于结合用户的喜好进行对应的精准推荐，这也就是下面要说的基于用户画像的推荐的内容。

用户画像，类比一下就是给用户打标签，主要由三部分组成：用户的基础数据（年龄、性别等）、应用使用数据（应用使用频率、时长等）和内容偏好数据（喜好的内容分类、种类等）。

对于基础数据，不同年龄的用户的内容偏好有很大差异，年轻人可能更喜欢新歌热歌，而中年人可能更爱听怀旧一些的歌曲；根据应用使用数据，可以进行用户分层，活跃用户可以多推荐内容促进使用，快要流失用户可以推送一些打开率较高的内容来挽回，运营活动也可以更有针对性；基于内容偏好数据，可以记录并逐渐明确用户的内容偏好，从而进行更精准的推荐，从爱看娱乐新闻，到爱看国内明星，再到爱看某个小鲜肉，随着内容偏好数据的逐步积累，头条类产品的推荐也就越精确。

协同过滤算法，简单来说，茄碧就是寻找相近的用户或内容来进行推荐，主要有基于用户的协同过滤推荐和基于项目的协同过滤推荐两种。

（1）基于用户的协同过滤推荐

基于用户的协同过滤推荐算法，就是通过算法分析出与你内容偏好相近的用户，将他喜欢的内容推荐给你，这种推荐给你志同道合的人爱看的内容的思路，更相近于生活中的朋友作为同道中人的推荐。举例来说，如果你喜欢ABC，而其他用户在和你一样喜欢ABC的同时，还都喜欢D，那么就会把D推荐给你。

（2）.基于内容的协同过滤推荐

基于内容的协同过滤推荐算法，就是通过算法分析出内容和内容之间的关联度，根据你喜欢的内容推荐最相关庆迹的内容，常见的看了这个内容的用户85%也喜欢xxx，就是这种思路。举例来说，如果你喜欢A，而喜欢A的用户都喜欢B，那么就会把B推荐给你。

相比于纯粹的基于内容元数据的推荐，基于内容的协同过滤推荐更能发现一些内容间深层次的联系，比如罗辑思维经常推荐各种内容，仅仅根据内容元数据来推荐，一集罗辑思维最相关的应该是另外一集，并不能推荐内容元数据相关性不太大的节目里推荐的内容；但由于可能很多用户看完后都会搜索查看节目里推荐的内容，基于内容的协同过滤推荐就会发现两者的相关性，进行推荐。

介绍推荐算法的思路时，我们一直谈到一个词“内容偏好”，这也就是实现推荐算法时一个核心的问题——需要通过怎样的数据，才能判定用户的内容偏好？主流的思路有一下三种：

让用户手动选择，显然是最简单的思路，然而由于选择的空间必然有限，只能让用户从几个大类中间挑选，无法涵盖全部内容的同时，粒度过大推荐也就很难精准。而且刚打开应用就让用户选择，或者是让用户使用一段时间后在去补充选择，这样的操作都太重可能造成用户流失。

既然手动选择很难实现，我们就需要从用户的使用数据中挖掘，主流的思路就是根据用户一些主动操作来判断，点击阅读了就说明喜欢，点了赞或者回复分享就是特别喜欢，如果跳过了内容就减少推荐，点击了不感兴趣，就不再推荐。

根据用户使用的操作来判断内容偏好，在不断地使用中积累与细化数据，对内容偏好的判断也就越来越准确，这就是头条系应用的主要策略，这样的策略对于下沉市场的不愿做出主动选择的沉默用户，是一个非常适合的策略，但这样只看点击与操作，不关注内容实际质量的策略也会造成标题党、内容低俗等问题，在后文会进一步介绍。

既然选择不能完全代表用户的内容偏好，如何使判断更加精准呢？就要从一些更加隐性的数据入手了，比如对于文章，除了点击，阅读时间，阅读完成度，是否查看文章的相关推荐内容，都是可以考虑的角度，相比纯粹的点击判断，可以一定程度上解决标题党的问题。再比如看视频，如果快进次数过多，虽然看完了，可能也不是特别感兴趣，而值得反复回看的内容，命中内容偏好的几率就相对较高。

介绍完了推荐算法的原理与数据来源，让我们来试着还原一下一条内容的完整分发流程。

首先，是内容的初始化与冷启动。可以通过算法对内容进行分析提取或者人工处理，提取内容的来源、分类、关键词等元数据，再根据用户画像计算内容兴趣匹配度，分发给有对应内容偏好的用户，,也可以通过内容原匹配度,向关系链分发,完成内容的冷启动。

然后，可以根据用户阅读时间，阅读完成度,互动数等数据，对该内容的质量进行分析，相应的增加或者减少推荐,实现内容动态分发调节。

最后，就是协同过滤算法发挥作用的时间，对于优质内容，可以通过基于用户的协同过滤推荐，推荐给与该内容受众有类似爱好的用户，也可以基于项目的协同过滤推荐，推荐给爱观看同类内容的用户,让优质内容的传播不在局限于关系链。

在真正的推荐算法实现过程中，除了基础的内容原匹配度,内容匹配度和内容质量,还有很多值得考虑的问题，比如新闻通知等时效性内容就要短时间加权，超时则不推荐；对于用户的内容偏好也不能永远维持，随着时间用户可能会喜欢新的内容，如果一定时间内用户对以前喜欢的内容不感兴趣，就要减少该种类推荐；还有为了不陷入越喜欢越推荐，最后全部是一种内容，让用户厌烦的境地，对于用户的偏好也要设定一个上限；为了保持新鲜度，需要帮助用户发现他可能喜欢的新内容.....

最后，通过数据可以了解我们如何阅读这篇文章，但任何数据都无法准确描述我们阅读后的感受与收获；再高级的算法也只是算法，它虽然可能比我们更了解我们实际的的内容偏好，但无法了解到我们对于内容的追求。

这可能也就是头条系产品虽然收获了巨大成功，但也收到了标题党、低俗化、回音室效应等指责的原因，下一篇，让我们来聊聊，信息流产品的面临的问题与可能的解决方法。

㈧推荐算法有哪些

这种形式一般可以按推荐引擎的算法分，主要有基于协同过滤、基于内容推荐等算法。 “买过此商品的人，百分之多少还买过其他啥啥商品”：协同过滤item-based filtering “和你兴趣相似的人，还买过其他啥啥商品”：协同过滤 user-based filtering “相关商品推荐”：基于内容推荐content-based “猜你喜欢” 一般混合使用推荐算法。

导航:首页 > 源码编译 > 主流的推荐算法

主流的推荐算法

与主流的推荐算法相关的资料