在开放获取运动的大力推动下,机构知识库的基础建设也取得较大的成效。机构知识库在遵守相应的开放标准下,长期保存本机构的学术成果与数字资源,并进行规范化处理,方便机构成员的查阅与使用。现如今机构知识库已发展为知识成果的开放获取和支撑学术研究的重要工具,也是传播学术知识、支持信息基础设施建设和社会创新的重要组成部分。
虽然越来越多的机构参与到机构知识库的建设中,但是机构知识库在建设过程中存在大量的问题。许多机构知识库收录内容不完全,有的长时间缺少内容的更新,机构知识库的内容质量问题越来越凸出。机构知识库要想保持可持续发展,除了保证平台的升级和内容的持续更新外,更要加强机构知识库的质量控制。
目前,我国关于机构知识库质量控制的研究成果按照内容可分为:
1)国外机构知识库质量控制的研究:美国构建质量控制体系,重视质量控制理念,注重对资源的长期更新,规范机构知识库管理秩序[1];日本则将资源的容量大小作为衡量机构知识库建设质量的一项重要指标[2].
2)国内机构知识库质量控制的研究。①从内容方面研究:蔡迎春提出从元数据、内容控制以及数据访问质量控制三个方面构建质量评价指标,采取相应的措施以此实现对机构库建设的质量控制[3];郎庆华提出从政策、技术、管理、服务和方法五方面对机构知识库的资源进行质量控制[4];孙振良强调我国应从内容有效期管理、原有内容更新和加强新增内容管理等方面加强高校机构知识库的质量控制;李欣荣提出以学科带头人为中心的内容质量控制模式,并就学科带头人、高校学科和读者三部分进行分析[5];马玲玲提出元数据质量控制方法,挖掘元数据的内部联系,通过构建机构知识库的基础数据,以此保障元数据的质量控制[6].②从提交方式方面研究:孙薇根据机构知识库提交的提交流程,在提交前、提交中和提交后三个阶段对学术成果进行质量控制[7];郭少友提出机构知识库的内容质量控制方法与其面向资源提供者的服务模式有关;分布式、半分布式和集中式等不同服务模式下,应采取不同的质量控制策略[8];张云瑾指出台湾地区的机构知识库采取包括上传对象控制、同行评议控制和在系统中设置排行榜等相对严格的文献质量控制制度[9];毕煜分析机构知识库质量控制与权限之间的关系,并以SDUT-IR为例进行说明[10];刘丹则针对在线提交和批量导入等操作阐述机构知识库元数据质量控制方法[11].
总体来看,我国学者在机构知识库的建设与应用方面上进行了很多探索,积累了大量研究成果,但对于机构知识库的质量控制,大多只是在内容建设中提及要加强内容质量控制,缺少深入全面的论述,本文从机构知识库的数据管理、权限管理以及反馈等方面探讨如何控制其内容质量。
1.1内容质量控制的含义
机构知识库内容质量控制是通过对机构知识库的开放获取政策体系、数据内容管理和数据上传等方面进行规定,构建以控制机制、执行机制以及评审机制为主的内容质量控制,三者相互促进,相互影响,保障机构知识库的内容质量。
1.2内容质量控制的必要性
目前我国的机构知识库多数是机构学术资源成果的集合,在资源数量上急剧增长,但对机构知识库内容没有进行质量把控。如果对收录资源不进行质量控制,机构知识库只能是数据库,而不能成为具有学术特色的知识库,也会导致用户对机构知识库的认识偏见和信任度缺乏。
内容质量控制是机构知识库质量控制的重要保障,完善的内容质量控制机制能够对机构知识库在管理和运行等方面起到至关重要的作用,可以为机构知识库的可持续发展提供保障。其中数据质量包括数据的安全性、持续性、隐私性等问题[12],构建数据开放保障机制,有利于机构知识库内容质量的控制研究,建立高质量的机构知识库,实现机构知识库的可持续发展。
2.1资源增长快,全文率低
机构知识库的内容来源于多元化的主体,在一定程度上丰富存储资源的类型,并提升了资源存储量。其中不仅包括正式发表的研究论文与出版物,还包括课题作品。除了正式文献以外,如研究报告、学术报告(PPT)、工作文档等,高校其他系统已有的资源,包括教师课件、精品课程、讲座视频等资源也存储在机构知识库中,资源的多样化在一定程度上也增加了机构知识库质量控制的操作难度。高校机构知识库在实际收录的数字资源中,多以期刊论文和会议论文为主,图像、音频以及视频等多媒体资源收录较少。
机构知识库中的全文收录率较低[13],仅提供全文链接,不提供全文浏览与下载。截止到2018年8月,中国科学院机构知识库服务网格为74.4%,中国人民大学机构知识库为39.4%,江苏大学机构知识库为41.9%,全文率低下导致在资源审核过程中无法进一步了解内容质量。此外,还有许多机构知识库仅限内部访问,说明高校对于开放获取理念下机构知识库的定位存在一定的偏差。
2.2资源审核方式单一
由于机构知识库开放获取的特点,导致机构知识库在资源上传过程中,缺少实质内容审核。一是由于管理人员的缺乏,国内机构知识库的建设与管理多由高校图书馆担任,部分老师只是兼职机构知识库的工作,导致没有充足的时间与精力对每个上传的文献进行审查,或仅仅是简单查看,这些未审核的文献可能包含不够准确的数据与结论等,在一定程度上影响机构知识库内容质量。二是权限问题,部分用户没有上传到该专题的权限,导致用户将数据误传到别的版块,影响其他用户的检索,造成数据冲突、数值越界的问题。三是缺乏在线同行评议等过程,很难保障审核的公正性、有效性。这些问题导致机构知识库的内容质量参差不齐,影响用户对于机构知识库的使用态度,导致科研人员不愿意上传科研成果。
2.3缺乏政策标准
我国对机构知识库开放获取政策缺少重视,目前还没有正式的机构知识库管理政策等,导致机构知识库在建设与发展过程中缺少标准与规范。同时,高校与机构在科研绩效的评价指标中缺乏关于开放期刊的相应指标,导致政策执行力度不强,影响了用户的积极性。此外,作品的认领模式,机构知识库服务模式等管理机制没有得到推广,缺少高校师生的认可。
上述存在的问题导致机构知识库的质量参差不齐,改善机构知识库的质量问题需要内容质量控制机制,本文从控制、执行以及评审机制三方面对机构知识库的质量问题进行研究,并提出相应的建议以保障机构知识库的内容质量。
在参考国内外现有机构知识库质量控制研究的基础上,笔者建议从控制、执行以及评审机制三个方面构建机构知识库内容质量控制机制。
3.1控制机制
3.1.1相关内容
机构知识库的质量控制机制主要以开放获取政策体系为主,根据上文的分析情况,我国针对机构知识库尚未有完整的政策体系,已有的政策如《关于公共资助科研项目发表的论文实行开放获取的政策声明》等多是从数据存储的角度出发,强制性要求受到资助的科研项目在一定规定日期内,存储到机构知识库供开放获取,这些声明无法为机构知识库的质量保障提供依据。机构知识库的开放获取政策体系,主要从国家宏观政策和机构指导政策两个方面进行构建。
1)要建立明确的国家宏观政策。①制定数据安全标准,保证机构知识库的开放数据不涉及国家安全和公民隐私;保证数据具有传播授权许可,减少知识产权的纠纷。②制定资金支持标准,维持整个机构知识库的日常运行与维护,保证机构知识库的持续运行,明确如何申请资金以及资金去向等,需保证资金透明度,建立完善的资金公开制度。
2)要建立完善的研究机构的指导政策,包括机构人员政策、技术政策、推广政策、激励政策等。①在制定机构开放获取政策时应采取以强制性政策为主,请求性开放获取为辅的政策,通过强制性政策保障实施效果,请求性政策保障科研人员的利益,以此推动我国机构知识库的可持续发展;②数据开放的执行部门需建立人员管理政策,由图书馆或相关部门提供机构知识库的相关指导和培训,由各单位受培训的人员负责相关单位的资源提交或者咨询答疑,通过相应的管理政策明确各部分的任务等,保证开放数据进程合理、有序、平稳;③通过相应的政策加强对机构知识库的宣传和推广,如西安交通大学发布的《信息化建设三年行动计划》和《信息化建设十年发展规划》两项声明,兰州大学发布的《关于建设兰州大学机构知识库的通知》等文件都在一定程度上促进机构知识库的发展;④对机构知识库数据的内容标准进行规范,加强机构知识库的管理,可以从内容、提交、使用、保存、撤回等方面保障开放数据的质量。OpenDOAR于2018年更新其网站政策工具,具体分为:元数据政策--用于描述存储库中项目的信息;数据策略--用于管理全文和其他完整数据;内容政策--用于描述文件和数据集类型;提交政策--关于提交者,质量和版权的相关内容;保存政策--用于管理数据保留期、文件保存、撤回以及版本控制的政策。
3.1.2控制机制与数据安全
控制机制中的政策指导以数据安全界定机构知识库所上传的数据,保证开放数据不涉及国家安全和公民隐私,同时机构知识库的指导政策对机构知识库的内容、提交流程、资源使用与撤回等方面进行说明,保障开放数据的质量。
宏观政策指导对数据本身安全进行界定,机构知识库的指导政策对服务器安全做出具体要求。首先宏观政策指导规定机构知识库内容不应涉及国家机密,在上传到机构知识库后应实现数据完整性和机密性;其次,机构知识库管理政策指导同时规定,对通过不正当方式获取者应当承担相应的责任,如以网络爬虫方式(“Flashget”和“网络蚂蚁”)非法获取本站内容,若被系统检测到,即刻被永久拒绝访问本机构知识库,防止数据被用于非法操作,保障开放数据的安全性。
3.2执行机制
执行机制主要研究机构知识库的数据管理和数据提交两部分,其中数据管理主要从数据标准、数据来源、数据整合与数据服务四个方面研究。
3.2.1数据管理
1)数据标准:研究和制定机构知识库内容建设的数据标准,实现数据的标准化和规范化,保障数据的质量问题,包括:机构知识库各类型资源的元数据规范、各类型学术成果描述中所涉及的各项元素及其属性的数据关联模型和各类型学术成果中主要元素的属性值规范,如学科分类规范、机构名称代码规范、权威期刊收录规范、学者ID规范等。
制定元数据标准有助于数据规范控制,促进学术信息交流。美国国家信息标准组织提出建设优质元数据的6条要求:符合标准、支持长期保存、使用权限控制和内容标准来描述对象、具有使用条款、支持互操作和高质量。2014年,IPTC宣布了它们的最新版的“图片元数据标准”(PhotoMetadataStandard)。它允许用户在图片上增加精确的、可靠的数据来描述人物,产品,地点和艺术品,并提供一种改进的,灵活的方式来表达与图片相关的版权。2017年上海交通大学和北京大学设计的CHAIR机构库的资源描述元数据规范(草案)中规定:优先采用中国国家标准,没有现有国标的,采用ISO标准及行业通用标准,以《GB/T25100-2010信息与文献-都柏林核心元数据元素集》、都柏林核心元素集(DC)和元数据对象描述模式(MODS)等为基础,综合北京大学、中国科学院和上海交通大学机构库元数据方案,数据标准化有助于统计各机构的学术成果。
2)数据来源与要求:内容是机构知识库的重要组成部分,内容的好坏关系着机构知识库的质量问题。数据来源于本机构教职工以及在校学生等,确保数据科学性与准确性,应说明机构知识库收录的知识成果的等级和类型,未侵犯他人的知识产权、隐私等;保证数据组织方式行之有效,继而实现数据的质量控制。存储要求是对机构知识库内收录的各种资源的明确规定,通过存储要求确定收录资源的种类、大小和相应的存储格式,机构知识库使用该资源的权利以及成果的归属机构问题等,以此保证机构知识库内容的质量,使其长期存储。
3)数据整合:主要包括数据来源、搜集、清洗、规范主要包括:对来自不同数据源(一般以WebofScience,EiCompendexWeb,CNKI,CSSCI为主)的成果收集;在成果收集阶段,对同一成果数据记录的去重优化与来源不同的同一作者成果的归属判断,可编写ExcelVBA程序,通过“DOI匹配”“题名+刊名模糊匹配”共同完成;在Web网页中,相似重复数据可以借鉴重复数据清理方法ADDCWBD的经验;不同学科分类的映射工具、同一学者不同ID的映射词表等工具。
4)数据服务:机构知识库除长期保存机构成员的智力知识成果外,还可以提供基于机构知识库的数据统计、浏览统计和统计数据导出等;提供合作者可视化图谱以及成果影响力动态跟踪等。实现知识共享,推动知识创造,很大程度上推进科研成果传播和存储方式、科技交流和合作方式的改变。如中国科学院文献情报中心机构知识库的知识图谱工具,从知识作品类型分布、研究人员发文量排行、论文收录类型分布、研究单元产出分布、论文引用排行、论文关键词共现图谱、作者合作网络图谱多方面对机构知识库的内容进行分析。此外在中科院机构知识库网格中还加入SCI作品/作者引用排行、CSCD作品/作者引用排行、IR成果排行等类型。
3.2.2数据提交
国外的机构知识库提交方式主要有作者自我存缴、中介存缴方式、数据推送与数据提取方式、开放获取数据源以及其他数据库进行链接聚合6种。欧洲国家多数采取作者自我存缴方式,如剑桥大学机构知识库、牛津大学科研存档库等是由作者提交到科研管理系统SymplecticElements.其次,美国加州大学机构知识库、德国海德堡大学机构知识库等通过开放期刊系统收割实行开放获取政策的期刊出版物。
国内机构知识库通常有三种存缴方式。一种为作者自我存缴,由用户自身按照相关的上传流程上传,国外许多高校的机构知识库已经制定自存储模式的相关政策,并进行实施。第二种为半分布式,各单位选出相应的负责人,负责本单位相关知识成果的上传问题。第三种为集中式,高校的集中式提交一般由图书馆负责,图书馆负责收集本校各院系的成果并且统一上传到机构知识库。现如今各大高校机构知识库对三种提交方式均有涉及,以第三种集中式为主,多由图书馆负责上传,如中科院文献情报中心机构知识库(NSLOpenIR)规定符合NSLOpenIR内容提交责任人范围规定的人员,在NSLOpenIR中注册并获得提交授权后才可以提交内容。虽然国内机构知识库的提交方式多以图书馆集中提交为主,但也不能无视用户个人提交的资源,资源提交者在完成实名注册的前提下,应了解机构知识库的推荐成果存缴格式,熟悉相应的提交流程,避免出现资源提交混乱的情况,如果学术成果已过相应的禁锢期,应提交全文文档。同时,若想撤回或修改相应的成果,应与资源审核者及时联系。提交方式是否方便快捷,在很大程度上影响了用户的使用体验,机构知识库应选取适合自身特点的提交方式。
机构知识库应支持多种格式成果的上传,支持在线音频与视频,NSLOpenIR在CSpace系统中构建影音存储与应用功能拓展框架,拓展CSpace系统的影音资源支持能力。
3.2.3执行机制与数据权限
执行机制中数据上传是根据用户的权限进行相应的设定,不同用户是否具有查看、获取、传播以及使用的权限进行界定,根据用户的权限访问机构知识库的内容。对用户以及用户组进行分类设定权限,实现机构知识库的有序运行,规范机构知识库管理,保障机构知识库质量。
以NSLOpenIR为例,NSLOpenIR提供了两种权限设定功能:用户权限设定功能与专题权限设置。用户权限可分为系统管理员,注册用户以及游客,专题权限是通过对用户组进行授权的方式来限制和规范各用户在专题内的行为。除此之外,NSLOpenIR还可以通过设置访问IP,从网络入口方面控制访问权限,以此来区别机构内外用户对机构知识库的浏览。通过对用户权限的设置,对数据上传权限进行限定,减少不正规或者不合理的资源上传,从而控制机构知识库的质量。
3.3评审机制
由于机构知识库开放存取的特点以及缺乏完善的评审体制,很难保障内容质量,尤其是非正式文献的质量影响因素最多。评审功能是高校机构知识库服务拓展的重要形式,评审功能的建设有助于完善机构知识库自身的成果呈现,进一步推动机构知识库知识资产的组织管理,还对高校科研管理部门、院系及科研团队、学者、用户有着重要的价值。
传统的同行评审制度需要耗费大量时间,可能会阻碍学术成果的及时传播。在机构知识库中嵌入的评审机制,在传统同行评审的基础之上增加了评审的透明度,使学者和用户在线公开参与评审,符合机构知识库的开放性与公开性,可分为:在线评审、评价推荐和激励体制三个部分。这种反馈机制既能提高机构人员参与使用机构知识库的积极性,又能保障信息资源的质量,快速高质量地传递最前沿的科研信息。对于机构知识库的在线评审,可以参考中国科技论文的同行评议,学者给出综合评议后,并就上传的资源提出具体的观点。
机构知识库建设与评价相互支撑,互相依存。机构知识库建设是资源评价的基础,而资源的互相关联和评价促进机构知识库信息资源的建设[14].除了评审机制以外,建立相应的学术评价功能对于机构知识库的成果展示和高校各部门用户也有着重要的价值。机构知识库的学术评价功能框架可以从系统层、数据层、功能层以及用户层四部分构建。系统层为机构知识库的建设平台系统,数据层为机构知识库的评价指标数据,功能层以数据层为基础,提供数据信息产生服务。用户层即为机构内各部门与人员[15].评价指标应以传统计量类指标和Altmetrics指标相结合,提高机构知识库评价准确性。
机构知识库的管理人员应定期对收录的内容进行复审,发现存在问题的内容及时反馈,对其进行修正,从而保证机构知识库的质量。
4.1加强资源整合,完善内容保存机制
内容是机构知识库的重要组成部分,内容的好坏关系着机构知识库的质量问题。在注意内容质量的同时,我们也应该保障数字资源的新颖性、科学性、及时性、合法性和完整性。对于一些需要保护的数字资源,可以灵活地设定其浏览权限,以此达到控制访问的目的。为了数字资源的长期保存,还应设置备份机制,定期的对数字资源进行备份。
国外许多机构知识库已建立完善的资源保存机制,而我国大部分机构知识库没有明确的保存机制,仅有北京大学和西安交通大学的内容保存机制相对较为完善。我国应在借鉴国外经验的基础上根据机构自身发展状况制定完善的资源保存机制。明确资源的存缴范围,除了期刊论文专着外,还要加强对未出版资源的保存,发展多媒体资源,丰富机构知识库的内容类型,满足用户的信息需求;加强内容的格式化和标准化,尽量采用有利于资源长期保存和便于访问的格式;要求提交的资源要有完整的元数字段对内容进行有效揭示,另外对于实验数据要求附有数据来源、收集方法、数据价值等信息,便于数据的重新使用和检验,对于应用软件,要求标准应用范围、使用步骤和方法等以便用户选择和使用。
4.2加强机构知识库的政策管理
高质量的机构知识库离不开科学的机构知识库管理政策,国内机构知识库的管理政策相似度较高,灵活度较低。各高校机构知识库应根据各自的实际情况,在原有的管理政策上推出符合自身的管理机制,而不是直接借鉴或参考相对成熟的机构知识库,应突出各自机构库的特点。高校应加强对于机构知识库的重视程度,一方面引导用户积极参与机构知识库的数字资源的自存储,提高机构知识库内的数据总量,宣传开放获取理念。另一方面,明确质量要求和责任制度,保障机构知识库长期保存的基本功能。对于管理者、资源提交者以及用户建立相应的责任制度,管理者对机构知识库的维护更新等正常运行负责,保护用户的隐私以及协调相应的知识产权等问题,资源提交者对资源内容质量以及规范化负责,在提交前需签署知识共享协议(CreativeCommons,CC协议),用户应规范使用行为,浏览相应的说明手册,遵守相应的要求,维护机构知识库和数据提交者的相应权益。此外,高校应加大图书馆与各部门的数据信息协调实现数据共享。用户在使用机构知识库的过程中会产生大量的个人信息,机构知识库需进一步完善用户的是隐私保护制度,保护用户的信息安全。
4.3规范元数据标准,资源分级审核
机构知识库应完善资源描述元数据方案,对与标识符、题名以及创建者相关的元素修饰词进行规定,同时在系统中进行相应的录入选项,减少手动输入部分,优化提交步骤。同时,资源审核者应对提交的资源进行分级处理,如西安交通大学机构知识门户与山东大学机构知识库等,将存缴的资源分为核心级、扩展级与关联级三个等级。此外,资源审核者可根据资源的等级采取不同的审核方式,并且根据机构知识库的数据统计服务,对浏览量或者下载量高的资源进行重点推荐,如NSLOpenIR在机构知识库的下载排行,论文引用排行等。而对陈旧、质量低下的资源可自行删除或者资源作者进行相应的协商处理,在一定程度上保证机构知识库提交内容的质量。
在保障机构知识库质量问题的前提下,机构知识库应深度展示高校科研与学术成果,使其成为学术交流整合的有效机制和开放信息架构的核心组成,吸引科研人员主动参与机构知识库建设,提供基于科研、教学和管理的服务,促进学术交流和跨学科协同,充分发挥高校资源的学术价值和社会价值,为机构发展和创新发挥驱动作用。
参考文献
[1]蒋逸颖,周淑云。中美开放存取知识库建设比较研究--基于OpenDOAR的分析[J].图书馆杂志,2016(6):80-87.
[2]魏巍,黄丽霞。日本机构知识库内容建设研究及对我国的启示[J].图书馆理论与实践,2016(4):35-38.
[3]蔡迎春。分布式机构库的质量控制[J].图书情报工作,2008(7):44-47.
[4]郎庆华。学术机构库自存储资源的质量控制策略探析[J].情报杂志,2009(2):179-183.
[5]李欣荣。高校图书馆机构典藏库内容质量控制分析[J].图书馆,2011(1):136-137.
[6]马玲玲,卞艺杰,梅俊。高校机构知识库元数据质量控制问题研究[J].计算机技术与发展,2014(1):31-34.
[7]孙薇。E-Research环境下机构知识库学术信息资源的质量控制研究[J].图书馆学刊,2016(2):30-32.
[8]郭少友。机构库建设的若干问题研究[J].中国图书馆学报,2006,32(1):77-80.
[9]张云瑾。台湾地区机构知识库建设特点及其启示[J].福建师范大学学报:哲学社会科学版,2010(4):56-59.
[10]毕煜,刘文云。基于权限管理的机构库个人存缴质量控制体系--以山东理工大学科技信息研究所为例[J].情报理论与实践,2016,39(7):41-44.
[11]刘丹。机构知识库元数据质量控制方法研究[J].图书馆学研究,2018(4):59-66.
[12]刘文云,岳丽欣,马伍翠,等。政府数据开放保障机制在数据质量控制中的应用研究[J].情报理论与实践,2018(4):21-27.
[13]邓支青。高校机构知识库内容质量控制策略研究[EB/OL].http://210.41.165.2:9053/kcms/detail/61.1167.G3.20180614.1317.004.html
[14]侯壮,曹学艳,李泰峰。学科服务视角下机构知识库的构建特点和推广模式研究[J].图书情报工作,2015(S2):185-188.
[15]赵洁洁,詹华清,介凤。高校机构知识库学术评价功能研究[J].图书馆杂志,2017,36(9):20-25.