数据挖掘笔记:关联规则-创新互联

什么是关联规则

从那个尿布和啤酒的故事中不难看出,虽然是两个完全不相关的事物之间也可能存在一定的关系——这也就是所谓的关联规则;

成都创新互联公司坚持“要么做到,要么别承诺”的工作理念,服务领域包括:网站建设、网站设计、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的抚顺县网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!
  • 关联规则:反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。

    根据上述规则,下面给出个例子:


    关联规则的强度可以用它的支持度和置信度度量。可以看到,面包和黄油一起的关系在所有组合中支持度最高;

支持度和置信度
  • 关联规则的支持度:支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。因此,支持度通常用来删除那些不令人感兴趣的规则;

  • 关联规则的置信度:置信度通过规则进行推理的可靠性。对于给定的规则 X —>Y,置信度越高,Y 在包含 X 的事务中出现的可能性就越大;

  • 提升度:提升度代表的是“商品 A 的出现,对商品 B 的出现概率提升的”程度。计算公式如下:提升度 (A→B)=置信度 (A→B)/ 支持度 (B)
    所以提升度有三种可能:
    (1)提升度 (A→B)>1:代表有提升;
    (2)提升度 (A→B)=1:代表有没有提升,也没有下降;
    (3)提升度 (A→B)<1:代表有下降。


先验原理
  • 简介:如果一个项集是频繁的,则它的所有子集一定也是频繁的。相反,如果一个项集是非频繁的,则它所有的超集也是非频繁的;
  • 支持度的反单调性(anti-monotone):一个项集的支持度绝不会超过它的子集的支持度;
    基于此原理,我们就能对项集进行 基于支持度的剪枝(support-based pruning),不用计算支持度就能删除掉某些非频繁项集——>

Apriori算法
  • 主要步骤:
  1. K=1,计算 K 项集的支持度(也就是各自为集);
  2. 筛选掉小于最小支持度的项集;
  3. 如果项集为空,则对应 K-1 项集的结果为最终结果。
    否则 K=K+1,重复 1-3 步。
  • 缺点:
  1. 可能产生大量的候选集,因为采用排列组合的方式,把可能的项集都组合出来了;
  2. 每次计算都需要重新扫描数据集,来计算每个项集的支持度;

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧

网站名称:数据挖掘笔记:关联规则-创新互联
当前URL:https://www.cdcxhl.com/article44/csphhe.html

成都网站建设公司_创新互联,为您提供动态网站手机网站建设建站公司电子商务企业网站制作虚拟主机

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

商城网站建设