超市零售分析python_python使用面向对象的编程方法完成“超市管理系统”的编写

1. python使用面向对象的编程方法完成“超市管理系统”的编写

是代码有bug需要调试，还是别的

2. 超市营销创新分析

超市营销创新分析

现代社会竞争越来越激烈，要想从激烈的竞争中脱颖而出，企业就要不断改革创新营销思路，要在较好掌握传统营销策略的基础上，创造性地开发符合市场需求的、可行的营销策略。以下是我精心整理的超市营销创新分析，欢迎阅读，希望大家能够喜欢。

[摘要 ]

现在，超市已经成为人们生活中不可或缺的部分，超市是民众休闲购物的重要场所，人们在满足物质需要的同时，也在享受超市购物带来的购物体验。超市是零售业的主要集合地，我们国内目前已有多家国际大型超市入驻，这些外来超市往往凭借自身优秀的管理理念、先进的管理手段和舒适的购物体验而赢得民众的广泛认可;面对外来超市的冲击我国的本土超市又该如何迎接挑战、站稳市场呢?通过对消费者行为以及以往营销方式的分析，提出营销策略的创新对策。

[关键词]

超市;消费者行为;营销

1.超市的消费者行为特点及其分析

去超市购物的人有学生、家庭主妇、老人等，他们由于生活背景、文化程度、消费能力等的不同，所具有的购物心态和购物目的也不相同，但总体分析还是有一些共同之处的。

1.1价值取向越来越清晰

人们去超市购物一般都是去购买一些生活用品以及副食品，而这类商品主要是用来满足消费者最基本的生活需求的，在消费过程中，消费者越来越关注商品的价格、商品的实用价值以及商品的质量，价格和质量成为人们决定是否购买的关键性因素。

1.2注重购物的便捷性

随着生活节奏的加快，人们越来越重视购物的便捷性，为了节约时间人们往往会选择能够一次性付款的超市，而不去逛商业街;人们往往也喜欢超市自由的选购氛围，这样他们就能按照自己的标准去选择商品，也能节省挑选时间。

1.3消费判断能力较强

一般说来，家庭主妇和老人，由于生活经验比较丰富，在选购商品时往往能够较为准确地判断商品的属性和实用价值，往往能够以较合适的价格买到称心的商品。上班族或学生则因具有较高的文化水平，往往也能准确判断商品是否拥有较高的性价比，是否值得购买。

1.4感性消费成为趋势

随着生活水平的提高，人们的物质需求已基本能够得到满足，越来越多的人开始追求精神层面上的东西，开始注重购物体验，开始关注购物过程中精神需求能否得到满足。

1.5对店铺的忠诚度下降

超市购物的出现使得消费者的购物经验快速增加，消费者在消费过程中变得更加理性，更加注重商品的甄别，而不再将自己的购物喜好禁锢在某些商店。

2.常见的营销策略对超市消费者行为产生的影响

超市在经营过程中也不断摸索出一些营销策略方法，那么那些较为常见的营销策略对消费者的消费行为究竟影响如何呢?下面我们就来分析一下，也为下一步提出营销创新做好铺垫。

2.1促销策略对超市消费行为的影响

促销是最常见的一种营销方式，其形式也是多种多样，但是具体到超市，主要还是以打广告、销售促进和人员推销三种为主。

2.1.1打广告。消费者的购买程序通常是这样的，先知道有这么一种商品，然后开始关注，之后就萌发出想要购买的欲望，最后就是实施购买行动，而要想让消费者行动起来，打广告的工作是必不可少的。对于那种半确定型的消费者，他们的购买目标和意向还不是很明确，因此他们很有可能在终端广告的提示下展开购买行动;还有一些消费者，他们在逛超市时并没有明确的购物目标，那么，商场里的任意一条终端广告都有可能勾起他们的购物欲望，并诱使他们购买。

2.1.2销售促进。销售促进的方式是多种多样的，有打折、抽奖、免费赠送样品、发放奖券等，通过这些方式直接现场改变消费者的消费行为。销售促进的目的是增加消费者对商品的购买次数，通过销售促进还可以帮助树立产品品牌印象，增加消费者再度购买的可能性。

2.1.3人员推销。人员推销是一种较为直接、有效的促销方式，消费者在与推销人员的交谈中能够提高对产品的认识，增强消费者的兴趣和参与热情，从而有效促成购买行为的发生。

2.2价格策略对超市消费行为的影响

价格是消费行为发生与否的一个很关键的因素，也是消费者在购物过程中最为关心的。所谓价格策略就是在一定的市场环境条件下，根据实际成本和供求关系来灵活调控价格的一种营销策略。虽然超市里商品的价格是总店和生产商协商之后的结果，但是对于商品的心理定价往往是确定的，主要有以下两种。

2.2.1非整数定价策略。这种定价方法在超市里较为常见，就是商品定价的时候，以零头数结尾，使用户在心理上有一种很便宜的感觉;这种定价方法往往能给消费者带来心理上的信赖感，认为该商品是经过严格考量后才被精准定价的，消费者购买时也会感觉很踏实。

2.2.2招徕定价策略。这种定价策略往往是为了满足消费者追求价格优惠或是心理好奇而制定的，其形式有低价与高价招徕两种。例如，为了吸引消费者，将某些商品价格定得很低以满足消费者追求低价的心理;或是有的把价格定得很高，致使有些消费者出于好奇前来超市。

3.超市营销策略创新分析

现代社会竞争越来越激烈，要想从激烈的竞争中脱颖而出，企业就要不断改革创新营销思路，要在较好掌握传统营销策略的基础上，创造性地开发符合市场需求的、可行的营销策略。

3.1营销过程中要以讲诚信为基本导向

现在媒体对于商品质量问题事件时有曝光，奶粉、黑作坊制作的饮料和食品、食品中有害添加剂严重超标等，都让消费者对购物环境和所购商品的质量时常持怀疑的态度，这些问题商品不但流入了很多小超市，一些大超市中也时常出现问题商品，这让消费者对超市商品的信赖程度大打折扣。就超市而言，其诚信问题主要体现在：

①所售商品质量不合格或是缺斤少两;

②存在价格欺诈和促销欺诈行为，最常见的就是标签价与实际结账价格不一致、截取赠品当卖品。这些行为不但是商家不讲诚信，也是对消费者实际利益的侵害。而这些不诚信行为之所以屡见不鲜是因为长期以来，消费者一直处于一种弱势地位，而在这种状况无法一下子被扭转的情况下，消费者利益的保护只能靠商家的自律来实现了。

诚信是企业发展的一项重要保障，很多知名店铺之所以拥有良好的业界口碑、较大的市场份额以及忠实的'消费者，往往是因为其将诚信作为企业发展战略的一部分，能够在实际运营中做到诚信经营。

3.2品牌化策略

品牌化道路是超市稳固市场、赢得忠实消费者的必然选择。

3.2.1目标市场差别化策略。

由于消费者的消费水准不同，对商品的质量、价格的要求也不一样，所以超市需要对消费市场进行合理划分，将目标市场按照人群或人群需求做系统划分，在防止竞争过激的同时，还能获得较高的经营利润，对企业而言是一件十分有利的事。例如那些退休老人，他们没有生活负担，退休金还比较可观，购买力相对较强，针对这一目标人群，超市可以开展专门的促销活动，还可以通过改变超市内部购物环境的方法，例如地面防滑处理、设置老年购物通道等，来吸引老年人来超市购物。

3.2.2市场定位差异化。

通过提供差异化服务，可以使超市的形象在消费者心目中得到提升，超市给消费者的品牌印象也是很独特、很好的。例如，在食品超市中，食品占绝大多数，而这些食品超市又有所区别，有的以零食为主，有的以海产品为主;在日用品超市中，有的主营厨房用具，有的主营生活用品等;在商品档次选择设定上，可以选择中低档商品作为超市的主营商品，一些较大的超市还是以中高端商品销售为主，而那些社区里的小超市则多以低端商品售卖为主。

3.2.3营销创新要结合目标市场以及市场定位的实际情况。

对于超市而言，加强商品策略、价格策略、促销手段、销售地点方面的协同是十分有必要的。商品的选取上，除了要考虑商品的种类以及档次质量以外，商品的产品线的宽度与深度也需要被包含在考虑范围之内。在一些大超市中可以实施完善商品品牌和产品线的做法，这样的最终目的是为了满足消费者的一站式购物需求。那些规模较小的超市则可以选择售卖一些消费者生活中常用到的普通商品，商品的选择要围绕“便利”展开。那么，怎样做才能找到那些与消费者日常生活密切相关的商品?要知道超市不可能一步到位找到所有适合的商品，只有通过不断调试、不断调整，才能最终陈设与消费者生活最为密切的商品，找到消费者购买频率高的商品并不断增加其上架数量和种类，找到消费者购买较少的商品，逐渐减少其上架数量，进而商品的购买率呈不断上升态势。

另外，超市还可以通过经营自有品牌的方式来提高消费者的消费黏性。国外一些超市在这方面做得就很好，而且自有商品在本超市中所占比例还比较可观，作为超市商品结构的改善方向之一，自有品牌策略是很重要的。

适当的价格策略也是很重要的。降低成本从而压低价格，这是超市运营的一条很重要的规律，低价也是消费者始终追求的。可是现在很多超市所采取的价格策略却是，部分主要商品价格较低，其他很多商品价格高于周边商场，还有一些是虽然价低但是商品质量也很次，长此以往，超市的经营势必受到影响。

为提升销售量同时提升超市整体形象，超市可以选择开展合理的广告宣传活动，例如直接借助媒体打广告、参加公益事业等。关于超市的渠道策略，不仅要局限于线下选址，还可以开发一些线上途径，同时可以提供送货上门服务，这样可以为消费者带来便利，增强消费黏性，为超市发展提供帮助。

3.3创建营销文化

现在的消费者消费越来越理性，超市需要在增强文化软实力方面下功夫，打造特色购物平台，营造高雅购物氛围，满足消费者精神层面的需求，提升品牌影响力。在掌握消费者消费心理基础上，立足本土文化，将传统的尊老爱幼、团结友爱等文化理念运用到超市的文化构造上来，让这些成为超市的独特卖点。例如春节时候超市可以通过征集对联等形式为参与者发放奖品，调动消费者的参与热情，让大家在文化氛围中体会传统佳节带给我们购物乐趣。

另外，超市还可以针对不同的民族，开设具有不同民族特色的分店，让店员穿上具有不同地域特色的民族服装，拉近与当地同胞的距离。超市文化品牌的打造，是超市整体实力的体现，是应对激烈的市场竞争不可缺少的重要组成部分，好的文化品牌不仅能提升超市的综合竞争能力，还能提高顾客忠诚度，长久地赢得顾客的青睐。

;

3. 超市零售业的行业分析应该从什么方面入手

就超市内部每日管理来说，首先是商品销售结构上的分析（abc单品类别销售分析、销售top100、不动销商品分析、高库存、负毛利、负库存、销售部门占比），然后是顾客消费数据分析（客单价、客流量、全店平效、时段客流量等）

4. python数据分析好学吗

不难，python是当下十分火爆的编程语言，尤其在人工智能应用方面。如果有心从事编程方向的工作，最好到专业机构深入学习、多实践，更贴近市场，这样更有利于将来的发展。

5. 怎样用python求超市销售量前五商品

没表、没数据，没字段、、、
只能说下大致思路：
pandas 读表，groupby聚合，sort_values（by=销量，ascending=Flase）
pd.head(5)，前五行数据就是。

6. 如何对超市的数据分析，需要对那些方面和数据分析

一、从销量入手
1、与去年同期相比查找销量下降原因
2、从滞销品查找，主要分析零销售商品。
3、应季商品销量分析。
4、分析各区销售占比。
5、促销活动开展时的销量变化
二、从价格体系入手
1、认真研究周边商圈价格情况与己对比
2、根据毛利额的情况看价格设定是否合理
3、进价分析
三、从商品结构入手
1、根据各类商品购买力找出缺品
2、在同系列供应商的增加或减少对销售的影响
3、正确掌握“二、八”原则
总之从数据中能发现很多问题，甚至更换卖场管理者在数据中都能反映出来。因此数据是管理的基础，很多问题都是通过数据反映出来的。

7. 超市销售分析怎么写大哥大姐，帮帮忙！

首先，超市营运者心中要有“三个价值”的销售理念，即：渠道价值、消费价值、品牌价值。

渠道价值：在供应商营销战略中，渠道是最重要的，也是最出业绩的方式，就超市而言，除了关注卖场消费者终端，也要关注渠道价值，即团购客户。尤其是节庆旺季时期，各个事业机关单位，金融教育机构，工厂医院等大型单位都会给职工发放节庆福利物品，对于超市而言，建立外联公关营销部门（团购部），通过渠道进行业务，如果开发好这些团购大客户，建立长期信任的合作方式，相信会很大幅度拉升销售了。

消费价值：众所周知，超市行业以零售消费群为主，卖场硬件要做好商场艺术陈列展示等，运用商品管理，软件上做好顾客服务，不断提升商品力、企业形象，在消费者心中的树立良好的影响，要记住，想要提升销售，最终“得民心者得天下”。

品牌价值：不管哪个行业，树立品牌影响力总会是一个长期的过程，但只要在经营超市，管理者就要以这个理念做指导，坚持不懈，始终如一，明白做生意不是“一锤子买卖”，努力去完善商品结构，改进服务，为每个消费者提供具备良好性价比的商品，良好的增值服务，将卖场从心智上推进至消费者心中，产生品牌效应，使消费者用良好的口碑相互宣传，从而产生重复购买、提高销售。

其次，提升销售的“三个主力”武器，即：商品力，价格力，促销力。

商品力：超市行业，商品本身就是一个提升销售的竞争力，根据周边的消费习惯制定合理的商品品类，拓展优秀的供应商资源，运用商品三零七零管理法则，搞好主力商品、辅助产品、关联商品，高、中、低档商品的组合。节庆时期尤其注重节庆主力商品的陈列，一定要排面整齐，货源充足。制订合理库存，合理订货，盘活滞销商品资金，做好商品的各项工作，也是为销售的提升做了最基本的铺垫。

价格力：近几年因通货膨胀，物价一直上涨的厉害，因此造就了消费者的购买习惯更加的敏感，消费更加理性化。“货比三家”式的购物习惯正逐渐在全球蔓延开来，因此，商品的价格又是提升销售的一个竞争力。通常除了给消费者做好商品“一物一签”的标识外，更要多做敏感性商品（油、奶、蛋、肉、粮）的市调工作，多了解竞争店的价格动态，供应商货源方面运用谈判技巧，增大销量，争取到好的价格，从各方面让自己店的价格优势更为主动。

促销力：顾名思义就是促进销售，促销实质上是一种沟通活动，即营销者（信息提供者或发送者）发出作为刺激物的各种信息，说服或吸引消费者购买其产品，以达到扩大销售的目的。在当今营销策划满天飞的年代，促销的创新性更为重要，就中秋节日促销而言，超市168网编辑已在《借势中秋超市促销要点》一文中做了要点的阐述，可以说一个有创意的促销主题，加上合理的商品选择及强势的价格，做好评估预算，那么，提升销售的目标也就达到了。

最后，不要忘记，超市品牌的最直接传导者，提升销售真正的执行者，你的员工。

员工是一个企业的中坚力量，是企业的细胞，是建设品牌，整合企业形象的基石。指导好员工做好理货与促销及顾客服务，才能更好更有效的去实现制定的销售目标。顾客是零售企业利润的源泉，但他们往往是由企业最基层的员工（如营业员、收银员）直接提供服务。企业是否有崇高的使命，管理人员有没有受过良好的教育，企业的管理机制是否完善，这些东西对于企业来说固然非常重要，但顾客不一定感受得到，他们也不一定在意。顾客想要的是在这家店里是否能买到自己想买的东西，是否得到了良好的服务。所以说，基层员工的管理直接关系到业绩的提升。

人力资源绝对不容忽视，除非想放弃销售的增长。所以说，超市内部更应加强底层员工的培训，制定合理的制度化流程，更好的规范员工的工作，制定有效的激励机制，让员工与企业产生一种和谐归宿感，员工各个是企业的主人，还怕销售不提升吗？

综上所述，全面系统化的提升销售，是一个坚持不懈，共同创新的过程，停止空谈一切，现在开始吧！

8. 如何在 Tableau 中利用 Python 的力量

2016年， Tableau便发布了 TabPy的试用版本，一个可以在 Tableau工作簿中运行 Python代码的新 API 。当你通过 Tableau使用 TabPy时，你可以在 Python中定义计算字段，从而在你的可视化作品中充分挖掘大量机器学习库的潜力。
这个在 Tableau中与 Python的集成应用，为用户提供了强大的解决方案。例如，它只需几行 Python代码就能得到一个线上零售商所售商品的情感分析。然后你可以在 Tableau中从很多方面探索获得的结果。
你可能只想看到负面评价并且希望理解这些内容背后的原因。你可能想得到一个顾客列表，并与他们联系。或者你可能想可视化整体情绪随时间变化的情况。

R/Python整合：Rserve/TabPy Server
你可以很容易在电脑上或者远程服务器上安装 TabPy服务器。在 Tableau Desktop中，通过点击帮助 >设置与性能 >管理外部服务连接，在其中输入服务 URL ，你就可以完成配置。然后你可以使用 Python脚本作为 Tableau中计算字段的一部分，就像从 Tableau 8.1开始你可以利用 R的那样。

TabPy使用流行的 Anaconda环境，这能够预装和准备许多包括 scipy , numpy和 scikit-learn在内的常见 Python包。你可以在你的脚本中安装使用任何 Python库。
如果在公司里你有一个数据分析团队来开发定制模型， TabPy还可以通过发布模型很方便与其他那些想要在 Tableau中利用模型的人分享。
一旦发布，无论模型的类型与复杂性如何，你就只需要在 Tableau中运行一个只有一行 Python代码来运行该机器学习模型。

使用已发布的模型有几个好处。在预服务环境中，复杂的功能变得容易使用，分享和以部署方式重用。你可以在后端提升和更新模型，或者修改代码，而 Tableau中的计算字段并不需要额外的操作即可保证正常工作。
看到 Python在 Tableau中的应用，你是不是有点手痒了？亟不可待的想尝试一下？小编在这里推荐一篇新手实用教程，如果你以前没有使用过 Python ，不用担心 ——这对新手来说绝对是可以实现的。继续看下去吧！
Python实用案例分享
本次教程使用的数据集来源 Makeover Monday（点击了解详情），关于最流行的前100首歌曲的歌词。
1设置你的环境
1 .确保你使用的是 Tableau 10版本
2 .打开含有 top-song数据的 TDE文件
3 .安装 TabPy
2在 Tableau中连接 TabPy
现在是时候在 Tableau中设置 TabPy了。在 Tableau中，转到帮助 >设置和性能 >管理外部连接。输入 “localhost” ，因为你在自己的计算机上运行 TabPy 。默认端口为 9004 ，因此除非你手动更改它，否则应该将其保留。

3创建 TabPy计算
TabPy Github页面具有你应该在 Tableau计算中使用 Python的详细文档。我简单地重新调整了在 #data 16 TabPy部分的一个计算演示。这里可以看重播。复制下方链接至浏览器查看重播：
现在，你可以使用视图中的这个 [Word]计算字段来处理情绪评分了！缺点是，由于这是一个表计算并且还使用了 ATTR函数，因此你不能在一个详细级别表达式中使用它。也就是说，你不能使用这个例子和数据结构来计算歌曲细节级别的情感总和。

9. Python购物篮数据（关联分析）

pip install mlxtend

由于已经是csv格式，所以直接输入：

每一行：一个购物篮

每一列：购物篮中的商品

先看看pd读的对不对：

然后按行打印：

再将这些存在一个数组中：

1、什么是独热码

独热码，在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制，更加详细参加 one_hot code（维基网络）。在机器学习中对于离散型的分类型的数据，需要对其进行数字化比如说性别这一属性，只能有男性或者女性或者其他这三种值，如何对这三个值进行数字化表达？一种简单的方式就是男性为0，女性为1，其他为2，这样做有什么问题？

使用上面简单的序列对分类值进行表示后，进行模型训练时可能会产生一个问题就是特征的因为数字值得不同影响模型的训练效果，在模型训练的过程中不同的值使得同一特征在样本中的权重可能发生变化，假如直接编码成1000，是不是比编码成1对模型的的影响更大。为了解决上述的问题，使训练过程中不受到因为分类值表示的问题对模型产生的负面影响，引入独热码对分类型的特征进行独热码编码。

可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征（如成绩这个特征有好，中，差变成one-hot就是100, 010, 001）。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。

这样做的好处主要有：

（1）解决了分类器不好处理属性数据的问题

（2）在一定程度上也起到了扩充特征的作用

M

以下为我摘取的别人的，贴上原文链接https://blog.csdn.net/hellozhxy/article/details/80600845

着名的啤酒与尿布, 这是典型的购物篮问题, 在数据挖掘界叫做频繁项集(Frequent Itemsets).

note: 数据类型写法按照Python的格式.

一. 目标与定义

1. 问题背景

超市中购物清单中总是有一些项目是被消费者一同购买的. 如果我们能够发现这些关联规则 (association rules), 并合理地加以利用, 我们就能取得一定成果. 比如我们发现热狗和芥末存在这种关系, 我们对热狗降价促销, 而对芥末适当提价, 结果能显着提高超市的销售额.

2. 目标

找到频繁地共同出现在消费者结账小票中项目(比如啤酒和尿布), 来一同促销, 相互拉动, 提高销售额.

3. 定义

支持度support: 其实就是概率论中的频次frequency

支持度阈值support threshhold: 记为s, 指分辨频繁项集的临界值.

频繁项集: 如果I是一个项集(Itemset), 且I的出现频次(i.e.支持度)大于等于s, 那么我们说I是频繁项集.

一元项, 二元项, 三元项: 包含有一种商品, 两种, 三种商品的项集.

4. 关联规则

关联规则: 形式为I->j, 含义是如果I种所有项都出现在某个购物篮的话, 那么j很有可能也出现在这个购物篮中. 我们可以给出相应的confidence值(可信度, 即概率论中的置信度).

其中, 这个关联规则的可信度计算为Confidence = I∪{j} / I, 本身是非常符合直觉和常识的. 比如我们说关联规则{dog, cat} -> and 的可信度为0.6, 因为{dog, cat}出现在了1, 2, 3, 6, 7五个购物篮中, 而and出现在了1,2,7中, 因此我们可以算出Confidence = freq[{dog, cat, and}] / freq[{dog, cat}] = 3/5 = 0.6

注意到, 分子部分的频次总是比分母低, 这是因为{dog, cat} 出现的次数总是大于等于{dog, cat, and}的出现次数.

二. 购物篮与A-Priori算法

1. 购物篮数据表示

我们将有一个文本文件输入, 比如allBills.txt, 或者allBills.csv. 里面每行是一个购物篮.

文件的头两行可能是这样(df.show(2)):

{23, 456, 1001}

{3, 18, 92, 145}

我们假定这是一家大型连锁超市, 比如沃尔玛, 因此这个文本文件是非常大的, 比如20GB. 因此我们无法一次将该文件读入内存. 因此, 算法的主要时间开销都是磁盘IO.

我们同时还假定, 所有购物篮的平均规模是较小的, 因此在内存中产生所有大小项集的时间开销会比读入购物篮的时间少很多.

我们可以计算, 对于有n个项目组成的购物篮而言, 大小为k的所有子集的生成时间约为(n, k) = n! / ((n-k)!k!) = O(n^k/ k!), 其中我们只关注较小的频繁项集, 因此我们约定k=2或者k=3. 因此所有子集生成时间T = O(n^3).

Again, 我们认为在内存中产生所有大小项集的时间开销会比读入购物篮的时间少很多.

2. Itemset计数过程中的内存使用

我们必须要把整个k,v字典放在内存中, 否则来一个Itemset就去硬盘读取一次字典将十分十分地慢.

此处, 字典是k=(18, 145), v=15这种形式. 此处, 应当注意到, 如果有{bread, milk, orange}这样的String类型输入, 应当预先用一个字典映射成对应的整数值编码, 比如1920, 4453, 9101这样.

那么, 我们最多能用字典存储多少种商品?

先看下我们存储多少个count值.

我们假定项的总数目是n, 即超市有n种商品, 每个商品都有一个数字编号, 那么我们需要(n, 2) = n^2/2 的大小来存储所有的二元组合的count, 假设int是占4个byte, 那么需要(2·n^2)Byte内存. 已知2GB内存 = 2^31 Byte, 即2^31/2 = 2^30 >= n^2 --> n <= 2^15. 也就是说n<33 000, 因此我们说商品种类的最多是33k种.

但是, 这种计算方法存在一个问题, 并不是有10种商品, 那么这10种商品的任意二元组合都会出现的. 对于那些没出现的组合, 我们在字典中完全可以不存储, 从而节省空间.

同时, 别忘了我们同样也得存储key = (i, j), 这是至少额外的两个整数.

那么我们到底具体怎么存储这些计数值?

可以采用三元组的方式来构造字典. 我们采用[i, j, count]形式来存储, 其中i代表商品种类1, j代表商品种类2, 前两个值代表key, 后面的value就是count, 是这个二元组合下的计数.

现在, 让我们注意到我们(1)假定购物篮平均大小较小, 并(2)利用三元组(2个key的)字典和(3)不存储没出现组合优势. 假设有100k = 10^5种商品, 有10million=10^7个购物篮, 每个购物篮有10个项, 那么这种字典空间开销是(10, 2) · 10^7 = 45 x 10^7 x 3= 4.5x10^8x3 = 1.35x10^9 个整数. 这算出来约为4x10^8 Byte = 400MB, 处于正常计算机内存范围内.

3. 项集的单调性

如果项集I是频繁的, 那么它的所有子集也都是频繁的. 这个道理很符合常识, 因为{dog, cat} 出现的次数总是大于等于{dog, cat, and}的出现次数.

这个规律的推论, 就是严格地, 我们频繁一元组的个数> 频繁二元组的个数 > 频繁三元组的个数.

4. A-Priori算法

我们通过Itemset计数中内存使用的部门, 已经明确了我们总是有足够的内存用于所有存在的二元项集(比如{cat, dog})的计数. 这里, 我们的字典不存放不存在于购物篮中的任何二元项集合, 而且频繁二元组的数目将会大于三元频繁三元组> ...

我们可以通过单边扫描购物篮文件, 对于每个购物篮, 我们使用一个双重循环就可以生成所有的项对(即二元组). 每当我们生成一个项对, 就给其对应的字典中的value +1(也称为计数器). 最后, 我们会检查所有项对的计数结果,并且找出那些>=阈值s的项对, 他们就是频繁项对.

1) A-Priori算法的第一遍扫描

在第一遍扫描中, 我们将建立两个表. 第一张表将项的名称转换为1到n之间的整数, 从而把String类型这样的key转为空间大小更小的int类型. 第二张表将记录从1~n每个项在所有购物篮中出现的次数. 形式上类似

table 0(name table): {'dolphin': 7019, 'cat': 7020} //dict形式, 其实也可以做成list形式 [['dolphin', 7019], ['cat', 7020]]

table 1(single-item counter table): {7019: 15, 7020: 18} //dict形式, 其实也可以做成数组形式A[7019] = 2, A[7020] = 18

2) 第一遍扫描完的处理

第一遍扫描完后, 我们会按照自己设定的阈值s, 对整个table 1再进行一次mapping, 因为我们只关注最后counter值大于等于阈值的项目, 而且不关心其counter值具体多少. 因此, mapping策略是:

对凡是counter<s的, 一律把counter设成0; 对于counter>=s的, 按照次序, 把其设置成1~m的值(总共有m个满足要求的项)

3) 第二遍扫描

第二遍扫描所做的事有三:

(1) 对每个购物篮, 在table 1中检查其所有的商品项目, 把所有为频繁项的留下来建立一个list.

(2) 通过一个双重循环生成该list中的所有项对.

(3) 再走一次循环, 在新的数据结构table 2(dict或者list)中相应的位置+1. 此时的效果是dicta = {48: {13: 5}, 49: {71, 16}} 或者 lista [ [48, 13, 5],[49, 71, 16], ... ]

注意此时内存块上存储的结构: table1(name table), table2(single-item counter table), table3(double-item counter table)

5. 推广: 任意大小频繁项集上的A-Priori算法

我们对上面这个算法进行推广.

从任意集合大小k到下一个大小k+1的转移模式可以这么说:

(1) 对每个购物篮, 在table 1中检查其所有的商品项目, 把所有为频繁项的留下来建立一个list.

(2) 我们通过一个k+1重循环来生成该list中的所有(k+1)元组

(3) 对每个k+1元组, 我们生成其的(k+1 choose k)个k元组, 并检查这些k元组是否都在之前的table k中. (注意到k=1的时候, 这步与(1)是重复的, 可以省略)

(4)再走一次循环, 在新的数据结构table k+1(dict或者list)中相应的位置+1. 此时的效果是k=2, k+1=3, 生成dicta = {48: {13: {19: 4}}, 49: {71: {51: 10}}, ... } 或者生成lista [ [48, 13, 19, 4],[49, 71, 51, 10], ... ]

注意, 在进入下一次扫描前, 我们还需要额外把counter中值小于s的元组的计数值都记为0.

模式总体是:C1 过滤后 L1 计数后 C2 置零后 C2' 过滤后 L2 计数后 C3 置零后 C3' ......

END.

生成的商品种类为set形式：转成list形式

第一张表：把项名称转换为1~n的整数：

至于数数，大神说，你就用collections.Counter就好：哈？

哈哈，可爱的wyy，开始分析吧~噜噜噜啦啦啦~噜啦噜啦噜~

生成全零矩阵：

换成zeros:

统计每一列的和，即每种商品的购买总数：

每一行列:

第一行：

建立一个新的只含有频繁一项集的购物篮矩阵：

频繁二项集：

10. 如何做超市的数据分析

1989年成立而研发的FineBI的分析页面由控件和组件组成，控件和组件的数量是可以添加至任意多个，同时控件和组件的大小以及位置都是可以调整的，可以满足用户自由定义的风格需求。

导航:首页 > 编程语言 > 超市零售分析python

超市零售分析python

与超市零售分析python相关的资料