本论文是一篇关于电子商务方面论文查重,关于基于顾客购买行为的Apriori算法在电子商务中的应用相关专升本毕业论文范文。免费优秀的关于电子商务及数据库及算法方面论文范文资料,适合电子商务论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要随着Inter技术和数据库技术的飞速发展,企业数据量非常大,而其中真正有价值的信息却很少,因此从如此规模庞大和杂乱的数据中找出对企业的商业动作和提升它们核心竞争力的信息,就如从矿石中淘金一样,在这种情况下数据挖掘技术应运而生.
【关 键 词】数据挖掘技术数据库技术Apriori算法
数据挖掘技术有助于企业从数据库以及数据仓库中更快和更精确地寻找到所需要的信息内容,然后对这些提取的信息进行分析,从而可以成功了解客户的购买习惯,进一步地预测企业未来业务的发展趋势,更有效地帮助企业制定正确的商务决策.而关联规则挖掘作为数据挖掘的重要方法,已经广泛运用于电子商务领域,如关联规则挖掘可应用于研究电子商务领域中分析客户购买行为.Apriori算法是关联规则挖掘在电子商务领域中众多算法中最有影响的算法.但是Apriori算法在电子商务实际应用中,还存在着许多的不足.很多专家学者针对这些不足提出了改进算法,尽管这些算法都各具优点且挖掘性能都明显优于传统的Apriori算法,但总的来说,算法仍较复杂低效.本文在此基础上提出了一种新的关联规则改进算法.该改进算法不仅可以节省大量的存储空间,而且能更高效的挖掘出电子商务中顾客与商品之间的内在联系,从而指引企业做出正确的商业决策.
1Apriori算法
1.1Apriori算法基本思想
Apriori算法是一种很有影响的算法,能够应用逐层查找的迭代算法(查找(K+1)-项集是通过K-项集得来)来挖掘关联规则频繁项集的一种算法.Apriori算法的思路如下:第一步,对数据集首先进行全面扫描,然后形成一个大的预备数据项集,最后算出预备数据项集发生次数;第二步,L1的生成(频繁1-项集的集合,它是利用事先已给出的最小支持度生成),在依靠数据集以及生成的L1内的数据的基础上,继续生成L2(频繁2-项集),以此类推,生成频繁n-项集Ln,这里要提醒的是,频繁(N+1)-项在如此给定的最小支持度条件下已经无法生成;第三步,在大数据项集内引出规则.
1.2Apriori算法关键步骤
如何从Lk-1查找出Lk,这是Apriori算法应用的关健步骤,对于这个关健步骤,还可以细分成两步:
连接:为了准确找出Lk,需要利用Lk-1与自己连接产生备选k-项集的集合.设该备选项集的集合用Ck表示,其中A1和A2是Lk-1中的项集,Ai[j]的含义为Ai的第j项.设I1和I2是Lk-1中的项集,Ii[j]表示Ii的第j项;执行连接Lk-1和Lk-1,其中Lk-1的元素是可连接,如果它们前(k-2)个项相同且第(k-1)项不同,连接A1和A2产生的结果项集是A1[1]A1[2]......A1[k-1]A2[k-1].
剪枝:Ck为Lk的超集,换言之,其成员既允许是频繁的也允许是不频繁的,唯一注意的是全部频繁k-项集均包括在Ck中.通过数据库的扫描来汇总所有候选的计数,由此获取Lk.一般情况下Ck数据较大,由此运算量也大.如果想要压缩Ck,利用Apriori的特征即可实现,所以,某个候选k-项集的(k-1)子集一旦未出现在Lk-1中,就认定此该候选不频繁,据此从Ck中将其删除.
有关论文范文主题研究: | 关于电子商务的论文范文检索 | 大学生适用: | 在职研究生论文、高校毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 61 | 写作解决问题: | 如何怎么撰写 |
毕业论文开题报告: | 论文模板、论文小结 | 职称论文适用: | 核心期刊、中级职称 |
所属大学生专业类别: | 如何怎么撰写 | 论文题目推荐度: | 优质选题 |
Apriori算法自身已经做了一定的优化,但仍然存在算法效率不高的问题.Apriori算法主要不足在以下三个方面:
(1)需要对数据集进行多次扫描,这引起系统I/O负载重.在Apriori算法的每一次循环运算,都需对全部数据集进行扫描,每一次扫描都可能面临庞大的数据量,导致扫描的时间长,而Apriori算法需对数据集进行多次扫描的设计,更是需要大量的时间.
(2)生成数量众多备选项集.Lk由Lk-l中的项集作自连接产生候选项集的集合Ck,如此引起备选k-项集的数量以几何级数速率成倍增加.比如在频繁1-项集的数量是103时,频繁1-项集的数量一下子就变成105个.
(3)该运算方法的适应面通常情况下比较窄.因为它仅仅注重按照单维布尔关联规则进行挖掘,但在大部分情况下,产生的是多维、多层数据的数值型关联规则.
考虑Apriori算法的上述三方面不足,本文给出了相应的改善方法,并提出了一种新的Apriori改进算法.
2Apriori算法的改进
2.1算法基本思想
首先,将电子商务中产生的事务数据库中全部数据项实施编码,同时,将其映射至布尔矩阵,并产生频繁1-项集,然后针对布尔矩阵的行向量应用向量内积运算,找出频繁项集可能存在的行以达到逐步浓缩布尔矩阵行向量的目的,最后从浓缩的布尔矩阵中快速、直观地归纳出事务数据库要找的频繁项集.据此可知,该运算方法的基本思想就在于对数据库按顺序扫描一次,此外,还可以大幅度地降低候选集的总量,由此提升运算方法的效率.
2.2算法基本步骤
一般来说,该运算方法的步骤如下:
(l)为确认数据库中记录总量,先对其实施一次扫描,同时汇总记录总数N,此外,还需编码数据项,编码的长度通常情况下就
关于电子商务方面论文范文集
电子商务本科论文的写作方法
播放:31888次 评论:4753人
(2)将编码后的各项数量与最小支持度min_sup*N相比较,删除小于最小支持度min_sup的项,得到频繁1-项集.将频繁1-项集的数据映射到与该项集数据库相对应的一个布尔矩阵R(a1,a2,a3,等,an).
(3)针对布尔矩阵R的第i行向量ai(i等于1,2,等,n),统计<αi,αi>等于的个数bi.这里,j等于1,2,等,n.判断bi≥min_sup*N是否成立.(4)如果成立,这里的ai就可以被看成是可能行向量,它与频繁项集相对应.在这里,还需要对R中的其他行作出标记,即所包括的非零数量小于ai,接着开始检索后面未曾标记的行,相应地修改i值;反之,将该行作标记,接着开始检索后面未曾标记的行,相应地修改i值.
本文url:http://www.sxsky.net/zhengzhi/050265220.html
(5)如果i≤n,然后跳至(3),反之,则跳至(6).
(6)凡是在R中被标记的行全部删除.接着,把剩下的行向量依据其所包括的非零元素次序设定对应的频繁项集.
2.3算法描述
下面是算法的描述:
输入:数据库D:最小支持度阀值min_sup
输出:D中的频繁项集L
L1等于D中的频繁1-项集;S等于D中的记录个数,N等于min_sup*S;
for(i等于1,j等于1;i<=N;i++,j++)
{
if(i等于等于1)
if(Count(I1)>等于N)
生成L1项集
bi等于Count_Vector(
if(bi>N)
{
c等于Count_V(ai);
for(k等于i+1;k<=N;k++)
if(c>Count_V(ak)
Delete(ak);
}
}
2.4在电子商务中的应用举例
在电子商务购物清单中提取一部分数据如图-1,从其中找出频繁项集.
第一步,先将电子商务购物清单表中的数据进行扫描,由于I6个数小于最小支持度,所以,删除I6并删除I6所在的项集,再按项目I1,I2,I3,I4,I5,顺序生成频繁1-项集.设给定的最小支持度min_sup等于0.3;第二步,以生成的频繁1-项集映射成布尔矩阵R,如图-2所示,记R等于(a1,a2,等,a8);第三步,计算a1向量对应的b1,通过判断说明a1为频繁项集对应的可能行向量,同时标记比a1中非零个数小的向量a2,a4,a5,a7所对应的行;第四步算法从第四行a3开始,计算b3,由于b4 2.5算法评价 从上述描述中可知该算法具有如下的优点: (1)只需扫描一次数据库,且频繁项集的搜索除了要增加标记位外,整个过程均在布尔矩阵R所开辟的内存空间中完成,不必考虑内存空间分配和候选项过多等问题,减轻了系统的I/O负载. (2)使用的向量内积运算和判断规则,使算法既简单,又能较好地处理项目集维数较大的情况. (3)在该算法的运行过程中,由于不断地将一些行加以标记,从而逐步浓缩了对布尔矩阵行向量的搜索,有效提高了搜索速度. 3结束语 互联网的广泛运用,电子商务已经成为了商业运作的重要模式.改进的算法,通过优化连接和剪枝,对Apriori算法进行了改进.因为只对数据库进行一次全面扫描,这有效地减少了生成的备选项集,从而加快了数据挖掘的效率,利用改进的Apriori算法应用在电子商务中,还能有效发现大量数据中隐藏信息内容,从其信息中分析出消费者的购买行为和购买规律,为企业针对消费者购买行为规律制定营销策略提供决策数据和材料,促使企业的业务处理过程重组、改善并强化对客户的服务,充分发挥企业的独特优势,促进管理创新和技术创新,提高企业竞争力,具有良好的发展和应用前景. 参考文献 [1]韩家炜,堪博.数据挖掘概念与技术[M].范明,孟小峰译.北京:机械工业出版社,2005. [2]毛国君,段立娟,王实等.数据挖掘原理与算法.北京:清华大学出版社,2005. [3]MargaretHDunham.数据挖掘教程[M].北京:清华大学出版社,2005. [4]李杰,徐勇,王云峰.最简关联规则及其挖掘算法[J].计算机工程,2007. [5]邓爱林.电子商务推荐系统关键技术研究博士学位论文.计算机软件与理论[D].复旦大学,2003. 作者简介 陆疆(1979-),男,土家,本科学历,研究方向:数据挖掘. 作者单位 国网湖南省电力公司张家界供电公司湖南省张家界市427000 关于电子商务方面论文范文集,与基于顾客购买行为的Apriori算法在电子商务中的应用相关论文查重参考文献资料: