本论文是一篇关于链接论文格式,关于基于网页结构的网页去噪算法设计相关毕业论文开题报告范文。免费优秀的关于链接及节点及网页方面论文范文资料,适合链接论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:本文对网页去噪的定义和分类、经典方法以及实验方法等进行了研究,在重定义启发式规则的基础上,针对文本类网页,设计新的算法,并用代码进行实现,在对比结果中验证,该算法能很好的解决文本类网页噪音问题.
关键字:网页去噪;DOM树;风格树;启发式规则
中图分类号:TP393.092文献标识码:ADOI:10.3969/j.issn.1003-6970.2013.08.029
本文著录格式:[1]陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97
0相关研究
随网民人数和网站数目的急速增长,网络上的信息也以一种前所未见的速度增长,以满足人们对信息的渴求.但在网页中,除了主题信息以外,还存在大量与主题无关的导航条、广告信息、版权信息以及修饰信息等内容,这些内容相对于主题内容来说就是噪音内容.从大量复杂的网页中迅速、有效地获得所需信息,并清除无用的噪音成为近几年大家研究的重要问题及难点问题.当前,国内外关于噪音信息去除的研究中,大多数是基于网页本身的特点和主题信息的特征,如LINShan—hua[1]等;或是运用启发式规则,如张志刚[2]等;或是基于DOM树,如刑涛[3]等;或是运用模板;或是基于机器学习等诸多的去噪方法.
有关论文范文主题研究: | 关于链接的论文范文集 | 大学生适用: | 硕士论文、本科论文 |
---|---|---|---|
相关参考文献下载数量: | 36 | 写作解决问题: | 如何写 |
毕业论文开题报告: | 标准论文格式、论文选题 | 职称论文适用: | 论文发表、中级职称 |
所属大学生专业类别: | 如何写 | 论文题目推荐度: | 优秀选题 |
本文针对文本类网页,主要在于定义不同于上述方法的启发式规则,但又能更好地满足噪音去除需求.本方法后续可加入机器学习等更好地优化本方法.
1去噪思想
本文对文本类网页进行噪音去除,大体流程如下:首先获取网页,并通过BeautifulSoup解析器对获取的HTML网页进行解析,剩余承载网页内容、图片、链接以及非其他信息部分;其次根据网页标签分类表示成DOM树,并依据文本内容、图片、字符、链接及脚本等进行分类;最后依据定义的启发式规则对文本、图片、链接等阈值进行主体内容提取,将噪音信息去除,从而获得所需内容.其中,要点是DOM的形成和启发式规则的定义.下面对这两点分析:
1)分析HTML标签进行内容、图片、链接等分类.即一个块表达了什么形式的内容,有文字长度、链接数量、链接文字长度、图片数量、图片大小等等.例如,若是链接文字长度比上链接数量,如果大于5(可能有变化),则该链接可能是内容的文字链接;如果小于5,则有可能是网站链接或是大标题链接.综合考虑空间特征和内容特征,可以判断出是否是我们要求的内容.为方便信息的处理,参考聂卉等人[4]对主题内容的分类方法,信息可以分成内容块、图片块、链接块、非内容块,具体表示如表1.
经分析,将HTML源代码解析成DOM树的形式,如图1所示,图的左边是HTML代码文档,右边是其生成的信息块树.
2)启发式规则
本文是针对文本类型网页周围的噪音信息,以及网页中除标题型链接之外的其余链接文字进