当前位置 —论文管理学— 范文

网站有关论文范文集,与Web结构挖掘在电子商务网站结构优化中的应用相关论文格式范文

本论文是一篇网站有关论文格式范文,关于Web结构挖掘在电子商务网站结构优化中的应用相关本科论文范文。免费优秀的关于网站及结构及页面方面论文范文资料,适合网站论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

[摘 要]本文概述了Web结构挖掘技术并描述了其常见算法.针对Web结构挖掘算法,提出了提高网站结构合理性的对策.使用户通过优化网站结构来获取更多有效客户,扩大网站影响力,从而提升网站价值.

[关 键 词]Web结构挖掘网站结构超链接PageRankHITS

一、前言

网站的推广对电子商务网站而言尤为重要.网站在常用搜索引擎上的排名会直接影响到网站的推广和网站的运营效果.因网站的结构不同,即使内容相同,外观相同的网站,在常用搜索引擎中的排名也会不同.网站结构是否合理会影响到搜索引擎在网站页面上抓取的结果,从而影响到网站的排名.在实际应用中,常使用PR(PageRank)值来判断网站结构是否合理,PR值越高说明网站结构越合理,搜索引擎就会收录该网站更多的页面,为网站带来更多的流量.因此,提高网站结构的合理性,获取更高的PR值就显得尤为重要.只有用网站结构优化的理念去设计网站,才有可能设计一个成功的网站.基于Web的数据挖掘技术中的Web结构挖掘(WebStructureMining)则是判断网站结构是否合理的一个有效方法.使用Web结构挖掘方法可以提高网站结构的合理性,增加网站的PR值,扩大网站的流量.

Web结构挖掘在电子商务网站结构优化中的应用参考属性评定
有关论文范文主题研究: 网站相关论文范文 大学生适用: 研究生论文、大学毕业论文
相关参考文献下载数量: 97 写作解决问题: 写作技巧
毕业论文开题报告: 论文任务书、论文小结 职称论文适用: 期刊发表、职称评副高
所属大学生专业类别: 写作技巧 论文题目推荐度: 优质选题

二、Web结构挖掘的概念

基于Web的数据挖掘是指使用数据挖掘技术在Web数据中发现潜在的、有用的模式或信息.基于Web的数据挖掘一般可以分为三类:Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)及Web用法挖掘(WebUsageMining).其中Web结构挖掘是对Web的链接结构进行分析,以对超链接分析来评估Web资源,从而发现有用模式,提高搜索质量及提高网站被抓取的可能性.Web结构包括不同网页之间的超链接结构和网页内部用HTML,XML表示的树形结构,以及文档URL中的目录路径结构等.Web页面之间的链接结构中包含了许多有用的信息,Web结构挖掘是从Web结构中推导知识,即对Web文档的结构进行挖掘,挖掘Web潜在的链接结构模式,通过分析网页间链接数量及对象来建立网站自身的链接结构模式.

Web结构挖掘的基本思想是将Web看成是一个巨大的以Web页面为节点、页面之间超链接为有向边所构成的一个网状结构的有向图,然后利用图论对Web的拓扑结构进行分析,从而确定其网站结构的合理性.

Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类.HITS(HypertextInducedTopicSearch)和PageRank分别是查询相关算法和查询无关算法的代表.这些算法已经在实际的系统中实现和使用,并且取得了良好的效果.

三、Web结构挖掘算法描述

基于超链接分析的思想,SergeyBrin和LawrencePage在1998年提出了PageRank算法,同年J.Kleinberg提出了HITS算法,其他一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法.对超链接进行挖掘的两个典型的算法是:PageRank算法及HITS算法.


这篇论文来源:http://www.sxsky.net/guanli/00349034.html

1.PageRank算法

PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具.Google、Yahoo、Baidu等都是基于该算法的搜索引擎.PageRank算法基于2个前提,一是若网页A被多次引用,则A重要;若A被重要网页B引用,则A重要;B的重要性被平均的传递到它所引用的网页.二是若用户访问网页A,然后跟随A的导出链接向后浏览网页B而不退回A,那么浏览B的概率就是B的PageRank值.

PageRank在具体实现时会忽略掉页面的文本和其他内容,只考虑页面间的超链接.但由于网页的链接范围领域很广,链接的页面价值参差不齐,所以仅以简单的链接数量来判断网页的重要性是不真实客观的,所以其他研究者对PageRank算法提出了改进.改进的PageRank算法不仅考虑了网页引用数量,还根据页面的导入链接的权重来计算页面的重要性.页面导入链接的权重由链接提供页面的重要性所决定,即当前页面的重要性主要由其他页面的重要性来决定,PageRank算法就是从链接结构中获取网页的重要性.

简单PageRank算法描述如下:

PR(A)等于(1-d)/N+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn))

其中:PR(A):页面A的PR值,

PR(Ti):页面Ti的PR值,页面Ti链向页面A

C(Ti):页面Ti链出的链接数量

d:阻尼系数,取值在0-1之间

N:互联网上所有网页的数量

由此可见,PageRank算法不以站点排序,页面PR值由独立的页面决定.页面的PR值由链向它的页面的PR值决定,但每个链入页面的贡献值是不同的.如果Ti页面中链出越多,它对当前页面A的贡献就越小.A的链入页面越多,其PR值也越高.阻尼系数的使用,减少了其他页面对当前页面A的排序贡献.所有页面的PR值形成了一个概率分布,所有页面的PR值之和为1.

简单PageRank算法也可以用矩阵来描述,设T为一个矩阵,T的行和列对应页面集的页面.PageRank的算法是将T的行和列互换后得到的矩阵A.为了将各列矢量的总和变成1(全概率),把各个列矢量除以各自的链接数(非零要素数),即如果网页i有指向网页j的一个链接,则Aij等于1/Ni,否则Aij等于0,就形成了一个“推移概率行列”,各个行矢量表示页面间的推移概率.由T倒置得到A的理由是,PageRank并非重视“链接到多少地方”而是重视“被多少地方链接”.PR值的计算,就是求属于这个推移概率行列最大特性值的固有矢量.

2.HITS算法

HITS算法综合权衡了查询内容与页面链接的关系.HITS算法认为网页的重要性依赖于用户提出的查询请求.HITS算法通过两个评价权值――内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估.内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高.HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价.

HITS算法是一个“迭代―收敛”的过程,在获取了一个与查询主题相关的返回页面根集合(RootSet)S后,根据S中的页面的链接关系再向集合S中扩充与S中页面相链接的页面,将S扩展成一个更大的基础集合(BaseSet)T.可将T看作一个二分有向图SG=(V1,V2,E),其中:顶点集Vl:T中的Hub网页集;顶点集V2:T中的Authority网页集;边集E:Vl中的网页到V2中的网页的超链接.对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值.开始时h(v)=a(u)=1,对u执行I操作修改它的a(u),对v执行O操作修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的操作I,O,直

1 2

网站有关论文范文集,与Web结构挖掘在电子商务网站结构优化中的应用相关论文格式范文参考文献资料:

电大工商管理学位英语

旅游管理硕士招生

企业风险管理论文

道路交通管理专业

管理硕士论文题目

工商管理学术论文

建筑施工与管理毕业论文题目

自考工商企业管理本科难吗

一月份工商管理硕士

工商企业管理专

Web结构挖掘在电子商务网站结构优化中的应用WORD版本 下载地址