混合推荐算法python_Python实现协同过滤推荐算法用的大一些的数据集就报错MemoryError

㈠用python写一个单词推荐系统

实现一个简单的单词推荐系统，可以使用如下步谈毕骤：

1. 准备单词列表和输入单词

首先准备一个单词列表，用于查找相似单词。然后输入用户要查询的单词。

words = ['apple', 'banana', 'cherry', 'date', 'elderberry', 'fig', 'grape', 'honeydew', 'kiwi', 'lemon']
query = input("Please enter a word: ")

2. 计算单词间的相似度

可以使用如下的余弦相似度公式计算两个单词之间的培侍棚相似度：

$similarity = frac{sum_{i=1}^{n} a_i imes b_i}{sqrt{sum_{i=1}^{n} a_i^2} imes sqrt{sum_{i=1}^{n} b_i^2}}$

其中，$a_i$ 和 $b_i$ 分别表示两个单词的向量表示中第 $i$ 个元素的值。

在这里，我们采用单词向量的方法，将每个单词表示为一个向量。向量的每个元素表示单词中每个字母的出现次数。

定义一个函数，用于计算两个单词之间的相似度：

import math
def compute_similarity(word1, word2):
vector1 = [0] * 26
vector2 = [0] * 26
# 统计每个单词中每个字母的出现次数
for char in word1:
vector1[ord(char) - ord('a')] += 1
for char in word2:
vector2[ord(char) - ord('a')] += 1
# 计算余弦相似度
dot_proct = sum([vector1[i] * vector2[i] for i in range(26)])
magnitude1 = math.sqrt(sum([x ** 2 for x in vector1]))
magnitude2 = math.sqrt(sum([x ** 2 for x in vector2]))
similarity = dot_proct / (magnitude1 * magnitude2)
return similarity

3. 查找相似单词

遍历单词配则列表，计算每个单词与输入单词的相似度，并将相似度保存在字典中。然后将字典按照相似度从大到小排序，输出前五个相似的单词。

similarities = {}
for word in words:
similarities[word] = compute_similarity(query, word)
similarities = {k: v for k, v in sorted(similarities.items(), key=lambda item: item[1], reverse=True)}
print("The recommended words are: ")
count = 0
for key in similarities.keys():
if count >= 5:
break
if key != query:
print(key)
count += 1

示例输出结果：

Please enter a word: banan
The recommended words are:
banana
lemon
apple
kiwi
grape

注意：这只是一个简单的单词推荐系统示例，实际应用中可能需要使用更复杂的算法或数据结构来实现，以达到更好的推荐效果。

希望我的回答能够帮助到您！

㈡推荐算法小结

输入：与用户相关的包含众多特征（feature）的数据：

用户的注册信息（职业、年龄、性别等显信息），行为信息（使用功能、有效使用时长等隐信息）。

输出：推荐给用户的功能列表（根据得分高低排序）

函数：传统算法、机器学习算法（Machine Learning）、深度学习算法（Deep Learning）

基于流行度的算法非常简单粗暴，类似于各大新闻、微博热榜等，根据VV、UV、日均PV或分享率等数据来按某种热度（加权）排序来推荐给用户。

访问次数（VV）：记录1天内所有访客访问了该网站多少次，相同的访客有可能多次访问该网站，且访问的次数累加。

独立访客（UV）：记录1天内所有访客访问了该网站多少次，虽然相同访客能多次访问网站，但只计算为1个独立访客。

PV访问量（Page View）：即页面访问量，每打开一次页面或者刷新一次页面，PV值+1。

优点：该算法简单，适用于刚注册的新用户

缺点：无法针对用户提供个性化的推荐

改进：基于该算法可做一些优化，例如加入用户分群的流行度进行排序，通过把热榜上的体育内容优先推荐给体育迷，把政要热文推给热爱谈论政治的用户。

基于用户的协同过滤推荐算法（UserCF）：针对目标用户（A），先通过兴趣、爱好或行为习惯找到与他相似的“其他用户”（BCD...），然后把BCD...喜欢的并且A没有浏览过的物品或功能推给A。

基于物品的协同过滤推荐算法（ItemCF）：例如由于我之前看过张艺谋导演的《英雄》这部电影，会给我推荐《红高粱》、《归来》等同导演电影。

1）分析各个用户对物品的评价，通过浏览记录、购买记录等得到用户的隐性评分；

2）根据用户对物品的隐性评分计算得到所有用户之间的相似度；

3）选出与目标用户最相似的K个用户；

4）将这K个用户隐性评分最高并且目标用户又没有浏览过的物品推荐给目标用户。

优点：

基于用户的协同过滤推荐算法是给目标用户推荐那些和他有共同兴趣的用户喜欢的物品，所以该算法推荐较为社会化，即推荐的物品是与用户兴趣一致的那个群体中的热门物品；

适于物品比用户多、物品时效性较强的情形，否则计算慢；

能实现跨领域、惊喜度高的结果。

缺点：

在很多时候，很多用户两两之间的共同评分仅有几个，也即用户之间的重合度并不高，同时仅有的共同打了分的物品，往往是一些很常见的物品，如票房大片、生活必需品；

用户之间的距离可能变得很快，这种离线算法难以瞬间更新推荐结果；

推荐结果的个性化较弱、较宽泛。

改进：

两个用户对流行物品的有相似兴趣，丝毫不能说明他们有相似的兴趣，此时要增加惩罚力度；

如果两个用户同时喜欢了相同的物品，那么可以给这两个用户更高的相似度；

在描述邻居用户的偏好时，给其最近喜欢的物品较高权重；

把类似地域用户的行为作为推荐的主要依据。

1）分析各个用户对物品的浏览记录；

2）依据浏览记录分析得出所有物品之间的相似度；

3）对于目标用户评价高的物品，找出与之相似度最高的K个物品；

4）将这K个物品中目标用户没有浏览过的物品推荐给目标用户

优点：

基于物品的协同过滤推荐算法则是为目标用户推荐那些和他之前喜欢的物品类似的物品，所以基于物品的协同过滤推荐算法的推荐较为个性，因为推荐的物品一般都满足目标用户的独特兴趣。

物品之间的距离可能是根据成百上千万的用户的隐性评分计算得出，往往能在一段时间内保持稳定。因此，这种算法可以预先计算距离，其在线部分能更快地生产推荐列表。

应用最广泛，尤其以电商行业为典型。

适于用户多、物品少的情形，否则计算慢

推荐精度高，更具个性化

倾向于推荐同类商品

缺点：

不同领域的最热门物品之间经常具有较高的相似度。比如，基于本算法，我们可能会给喜欢听许嵩歌曲的同学推荐汪峰的歌曲，也就是推荐不同领域的畅销作品，这样的推荐结果可能并不是我们想要的。

在物品冷启动、数据稀疏时效果不佳

推荐的多样性不足，形成信息闭环

改进：

如果是热门物品，很多人都喜欢，就会接近1，就会造成很多物品都和热门物品相似，此时要增加惩罚力度；

活跃用户对物品相似度的贡献小于不活跃的用户；

同一个用户在间隔很短的时间内喜欢的两件商品之间，可以给予更高的相似度；

在描述目标用户偏好时，给其最近喜欢的商品较高权重；

同一个用户在同一个地域内喜欢的两件商品之间，可以给予更高的相似度。

（相似度计算：余弦相似度、Jaccard系数、皮尔森相关系数等）

常见经典 ML 分类算法：

逻辑回归（Logistics Regression）

支持向量机（SVM）

随机森林（Random Forest）

提升类算法（Boosting）：Adaboost、GBDT、XGboost

一般处理流程：数据处理 -> 特征工程 -> 模型选择 -> 交叉验证 -> 模型选择与模型融合

特征清洗：剔除不可信样本，缺省值极多的字段不予考虑

特征预处理：单个特征（归一化，离散化，缺失值补全，数据变换），多个特征（PCA/LDA降维，特征选择）

使用工具：pandas（python开源库）

模型选择与模型融合：根据交叉验证得分选择前几名模型，然后进行模型融合（Bagging、Boosting、Stacking）

DL 优势：ML 中特征工程是十分重要并且要根据行业经验确定，DL 可以自己从数据中学习特征。DL 能自动对输入的低阶特征进行组合、变换，得到高阶特征。对于公司产品应用领域来说，用户的注册信息（职业、年龄、性别等显信息），行为信息（使用功能、有效使用时长等隐信息）。这些就可以作为低阶特征输入。

RNN系列（处理文本数据）

CNN系列（处理图像数据）

DNN （处理一般性分类）

㈢ python算法有哪些

算法（Algorithm）是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

一个算法应该具有以下七个重要的特征：

①有穷性（Finiteness）：算法的有穷性是指算法必须能在执行有限个步骤之后终止；

②确切性(Definiteness)：算法的每一步骤必须有确切的定义；

③输入项(Input)：一个算法有0个或多个输入，以刻画运算对象的初始情况，所谓0个输入是指算法本身定出了初始条件；

④输出项(Output)：一个算法有一个或多个输出，以反映对输入数据加工后的结果。没有输出的算法是毫无意义的；

⑤可行性(Effectiveness)：算法中执行的任何计算步骤都是可以被分解为基本的可执行的操作步，即每个计算步都可以在有限时间内完成（也称之为有效性）；

⑥高效性(High efficiency)：执行速度快，占用资源少；

⑦健壮性(Robustness)：对数据响应正确。

导航:首页 > 源码编译 > 混合推荐算法python

混合推荐算法python

与混合推荐算法python相关的资料