这篇图书馆论文范文属于论文格式免费优秀学术论文范文,图书馆相关在职毕业论文开题报告,与数字资源收割工作的相关毕业论文格式要求。适合图书馆及档案馆及出版物方面的的大学硕士和本科毕业论文以及图书馆相关开题报告范文和职称论文写作参考文献资料下载。
[摘 要 ]介绍各国数字资源收割技术的发展,如挪威、新加坡、丹麦等从法律上明确公共图书馆对数字资源进行收割和保存的职责;日本、韩国、美国等都各自开发有对网络资源爬行和抓取的工具软件.并着重论述新西兰国家图书馆与英国不列颠图书馆合作开发Web CuratorTool,在收割质量保障、保存格式、授权管理等方面优点明显,但在图像资源收割及大规模任务执行等方面还存在不足.
[关 键 词 ]数字资源长期保存 数字资源收割
[分类号]G253
1 数字资源收割工作的现状
当今的数字资源将成为未来的科学史、文化史、社会史.正如我们从印刷资源中追溯文明一样,后代将从被保存的数字资源中回顾和利用我们所创造的知识,让人类可持续发展.数字资源长期保存工作的意义不言而喻.
数字资源收割是数字资源长期保存的第一步,近年来,各国的数字资源的收割工作在制度、机构和工具等各方面都有了长足的发展.
1.1 数字资源收割的相关制度
挪威于1990年生效的《保存本法》所规定的国家图书馆收割和保存范围涵盖了网络电子出版物,并提供了具体实施规章.
新加坡于1995年通过了“新加坡国家图书馆管理局法案”(NLB Act),规定在法定的呈缴框架下,电子或联机形式传播的出版物不论是否已通过网页内容收割和存档,都须向管理局呈缴两份复本.
丹麦于2000年出台的第340号法案规定了公共图书馆收割、保存和提供包括因特网与多媒体在内的电子信息的职能.
澳大利亚联邦于2006年修正的著作权法案(Amendments t0 the Copyright Act)第40条和41条,对图书馆的数字收割和保存活动给予了重视与支持.
英国国家图书馆正建议国家立法,不限制数字资源的自动获取,支持以保存为目的缴送和复制,并涵盖有可能增加的各种介质出版物.
德国的国家存档项目Nestor正建议修改《呈缴本法》,要求法律支持数字资源副本的创建和修改权,取消由DRM提出的限.
1.2 数字资源收割的执行机构
目前进行数字资源收割和保存的执行机构主要是各国的国家图书馆,但除此之外,许多政府、文化与科研机构及联盟也成为了重要力量.
澳大利亚的PANDORA项目以国家图书馆为核心,参与机构包括国家声像档案馆、战争纪念馆、原住民及托雷斯海峡居民研究协会、澳大利亚可持续知识仓储伙伴计划(APSR)中的联盟成员等.
德国国家图书馆组建了数字资源长期保存专业技术网,参与的组织除几所大学图书馆外还包括柏林博物馆信息协会和巴伐利亚州档案馆.
互联网档案组织(Inter Archive,IA)由美国国会图书馆和Smithsonian组织共同构成,以为后代保存稍纵即逝的、具有历史性重大意义的“原生”互联网资源为目的.
澳大利亚、加拿大、丹麦、芬兰、法国、冰岛、意大利、挪威、瑞典等国的国家图书馆,英国不列颠图书馆,美国国会图书馆和IA等机构共同建立了国际网络资源保存社团(International Internct Preservation Consorti―um,IIPC),鼓励和支持利用通用工具、技术与标准建设国际档案馆(international archives),并资助相关研究项目.
1.3 数字资源收割的工具
2006年,在WARP项目(Web Archiving Project)中,日本国会图书馆开发了一个须版权人授权的网页爬行机器人进行网络资源收割.主要收割对象是网站,其次是在线期刊和城镇农村信息资源.
2008年,韩国国家图书馆在OASIS计划(Online Archiving&Searching Inter Sources)中进行网络数字资源的收割和保存.目前的收割对象主要为两类:网站和其他单独网页数字资源.
新加坡国家图书馆管理局从2006年开始启动了收割互联网中所有与新加坡有关的网页内容计划.2007年,该局建设并使用了一个自助提交系统,出版者可以在网络上直接提交数字出版物.
澳大利亚PANDORA项目开发了PANDAS系统,与IA协作进行大规模地域收割活动,已完成两次大规模的资源“爬行”,主要抓取采用.au顶级域名的网页资源.
2006年,美国国会图书馆开通了直接隶属于国家数字信息基础设施和保存计划(NDIIPP)的网页抓取项目,使用IA专门设计的开发源代码爬虫软件Heri―trix进行网页收割.
2 新西兰的数字资源收割工作
2.1 相关制度和机构
新西兰于1965年出台了136号法令――《新西兰国家图书馆法》,并在1971―2003年间进行了多次补充和修订,对国家图书馆进行数字资源收割与保存的职责及权利提供了法律支持.
2.省略站点下载.新西兰国家图书馆使用WCT的硬件系统是Sun SPARC servers,操作系统是Solaris,数据库管理系统是Oracle,网络服务系统是Apache HTrP Server and Tomcat,用户识别系统是Novell e―Directory.整个软件系统被布署在两个服务器上:一个服务器用作核心指令舱(core module);另一个用作收割器(harvest―er).
WCT工作系统的主菜单上共包括9个功能模块,如图1所示:
In Tray:总览模块.Harvest Authorisations:收割授权模块.Targets:收割对象管理模块,负责管理收割任务时间表.Target Instances:收割对象列表模块.Groups:收割对象分组模块,通过比较元数据信息、对同类资源进行成批收割.Permission Request Tem―plates:收割许可请求生成模块.Reports:报告生成模块.Harvest Configuration:收割设置模块,负责依据时 作界面可列出辅助评估的数据清单,包括:概述信息、起始日期、已下载数据、获取成功的和失败的URL,共用时间与当前状态等.WCT还可提供多个窗口,以对比收割结果和该资源的原始版本及其他版本间的差异,使得评估更直观、有效.2007年,新西兰国家图书馆共进行了1249项收割任务,其中953(76%)项完成了收割并经评估被认可后保存,69(6%)项未完成收 割,224(18%)件收割结果未通过评估被拒绝保存.
怎么撰写图书馆毕业论文
播放:24391次 评论:3136人
有关论文范文主题研究: | 关于图书馆的论文范文检索 | 大学生适用: | 在职研究生论文、专升本毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 28 | 写作解决问题: | 本科论文怎么写 |
毕业论文开题报告: | 论文模板、论文设计 | 职称论文适用: | 核心期刊、职称评中级 |
所属大学生专业类别: | 本科论文怎么写 | 论文题目推荐度: | 优秀选题 |
本文来源 http://www.sxsky.net/geshi/420308.html
2.4.2 不断改进适宜被长期保存的数据格式新西兰国家图书馆早在1999年就已开始进行程控Web资源收割,在2006年底以前一直使用的收割工具是:HT―Track Website Copier.长期以来,HTTrack对MARC格式的网络资源数据库进行资源选择和获取,累积性地遗留了海量的无法被长期保存的数据,目前正依靠数据迁移技术对这部分资源进行格式转化处理.2007年,新西兰国家图书馆开始使用WCT,其显著的不同在于:使用ARC文档格式输出收割结果,ARC以“分要素层存放数据”为特征,这种格式使得长期保存工作更为方便和有效.
2.4.3 通过建立各环节间的沟通机制提高收割效率WCT的设计充分考虑了过去类似软件在各环节工作间存在的鸿沟(gap),设计了加强整个工作流程整体性的各环节交流机制.例如,规定评估环节每周向描述环节提交报告,以提示资源描述需求、预告技术层对资源数量和大小的后续要求.
2.4.4 收割任务规模有限WCT还不能同时进行多项(大于8项)收割工作,也不能胜任对大规模网站资源的收割任务.目前已成功完成的最大的一次收割任务数据量是10G,新西兰国家图书馆曾尝试过一次21G的收割任务,但收割结果未通过评