该文是论文格式专业计算机系论文范文,主要论述了关于计算机系毕业论文范文,与基于XML技术的WEB数据收集模型的相关论文范文集,适合计算机系及数据及数据结构方面的的大学硕士和本科毕业论文以及计算机系相关开题报告范文和职称论文写作参考文献资料下载。
摘 要 :该文提出了一种基于XML技术的WEB数据收集模型,并实现了其中的一些主要功能.同时针对模型系统的不足做了一些有意义的改进探索.
关 键 词 :XML;WEB;数据收集;RDF
中图分类号:TP311文献标识码:A文章编号:1007-9599 (2011) 24-0000-01
XML-based Web Data Collection Model Study
Zhang Rubing,Lai Jianjun
(Jilin Oilfield Communications Company,Songyuan138000,China)
计算机系自考专科毕业写论文怎么写
播放:23152次 评论:6437人
Abstract:This paper proposes an XML-based Web data collection model,and implemented some of the major features.For lack of model systems to do some meaningful improvements in exploration.
Keywords:XML,The WEB,Data collection,RDF
一、XML简介
XML是由W3C发布的一种新标准,它是SGML的一个简化子集,将SGML丰富的功能和HTML的易用性结合起来,以一种开放的、自我描述的方式定义数据结构.XML文档由标记和字符数据组成,通过DTD或Schema使XML文档结构化,这样很容易验证文档数据的合法性,容易提取(查询)文档中的数据.可以利用CSS或XSL在浏览器中实现同一XML文档的多种显示形式,因而可满足WEB多种接入设备的显示要求,利用XSLT也可方便地将XML文档译为HTML文档或者不同标记表示的XML文档.
这篇论文网址 http://www.sxsky.net/geshi/414318.html
二、基于XML的WEB数据收集模型
(一)模型设计.这个模型是建立在XML技术上的,它包括下面几个主要问题:在某个站点通过超链接找到目标HTML页(页面导航),从这个HTML页面中取得相关信息(数据抽取),过滤这些信息并提高他们的结构化(XML文档的存储),根据用户需求查询相关信息(XML文档的查询).
1.页面导航.在数据收集过程中会遇到两种HTML页:包含所需数据的HTML页和链接到所需数据页的HTML页.对WEB站点的导航规则可以经过仔细分析目标站点,结合所需数据的特点进行手工编写或者借助于一些半自动化的工具编写.
2.数据抽取.根据用户需求,抽取相关HTML页面上的信息.当前许多WEB站点上的HTML代码并不是格式完整的,换句话说HTML对格式完整并没有什么严格要求,解析HTML的浏览器如IE或Netscape都可以容忍一定格式上的缺陷.因此,首先要把这种格式非良好的HTML文档转变成格式良好的XML文档.其次通过分析XML文档提取用户所需的信息.
3.XML文档存储.XML数据的存储技术目前已获得广泛研究,除一些通用的存储系统外,一些专用的存储系统也相继出现,如斯坦福大学研制的Lore系统是较为突出的一个.XML数据存储的三种方式:存储于文件系统中、存储于数据库系统中、建立专门的存储系统,对各个系统的优缺点进行分析和比较.
4.XML文档查询.XML数据的查询语言应该能够表达基于内容查询,允许从一个或多个XML数据源中提取所需信息,因此在模型中选用了由AT&T实验室提出的一种基于XML的查询语言XML-QL(XQL).XML-QL是在查询语言(UnQL和Str