图书馆相关论文范文文献,与新疆地区少数民族文字识别系统的进度相关硕士论文范文

时间:2020-07-05 作者:admin
后台-系统-系统设置-扩展变量-(内容页告位1-手机版)

本论文为图书馆相关毕业论文格式范文,关于新疆地区少数民族文字识别系统的进度相关毕业论文提纲,可用于图书馆论文写作研究的大学硕士与本科毕业论文开题报告范文和优秀学术职称论文参考文献资料下载。免费教你怎么写图书馆及文字及数据库方面论文范文。

【摘 要】数字资源为新兴时代图书馆必不可少的资源之一,而文字识别技术是建立数字资源过程中的重要环节之一.本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题,提出了少数民族地区数字文献事业发展的进展和现状

【关 键 词 】新疆;民族;文字识别;发展进度

我国是多民族国家,尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展.在我国少数民族语言文字政策的大力支持下,我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术,使各自的文字领域创造了数字化、自动化的新的局面.本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式,再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程.这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用PDF文件或HTML网页文件等软载体传播并提供给读者阅读.文字识别系统为后者提供准备工作和硬条件,也就是为电子图书等数字文献的形成做中转的作用(如图1).介绍新疆地区少数民族文字识别系统之前,我们必须先了解其文字背景和特点,首先简单介绍一下我区少数民族文字现状.

新疆地区少数民族文字识别系统的进度参考属性评定
有关论文范文主题研究: 关于图书馆的论文范文文献 大学生适用: 学位论文、电大论文
相关参考文献下载数量: 40 写作解决问题: 怎么写
毕业论文开题报告: 论文提纲、论文题目 职称论文适用: 核心期刊、职称评副高
所属大学生专业类别: 怎么写 论文题目推荐度: 优秀选题

一、少数民族文字基本情况

在新疆地区,维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通.这几个民族使用文字的历史原因,使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性.在解放前后都已经使用过新、旧文字两种文字表达方式.而他们现在用的文字是国家按有关语言文字的特征,在阿拉伯文字的基础上模仿性创造出的文字表达方式,是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母,既有阿拉伯文字的有些特征并有自己的特点和不同.维吾尔文字使用32个字母,哈萨克文使用33个字母,柯尔克孜文使用30个字母(1983年版),这三种语言文字在各自中间也有些共同点和不同地方.

目前,虽然有关这些语言文字识别的研究有了些新的进展,其实幅度还是不能满足使用者对新技术的发展需求,可以说是出于发展的初级阶段.由于阿拉伯文和这些语言字符集上的相似性,可以借鉴阿拉伯文研究成果.但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究,大部分的研究采用的是结构化的方法.

二、少数民族文字自动识别的特点

因为跟阿拉伯文字有不同点,这些语言文字的识别技术也会有自己的特点和不同之处,简单总结为以下几点:

(1)形成的少数民族文字电子书籍格式不统一或不完善,基本以图像格式使用,再有转化为文本格式的电子书籍也是很少一部分.因相关文字识别技术不成熟,好多电子图书都不是靠文字识别系统来转换为电子版的.在使用扫描形成的图像格式(*.BMP,*.JPG等文件)制作成包括PDF在内的各种格式的资料中,转换出的文本里不能正常显示的字母占的比例高或者各种符号的错误率较高、排版出现混乱等现象普遍存在,最后影响了整本电子文献的质量.这种现象的主要原因是某些字母在数字转换过程中没有能够达到识别的标准,部分原因来自于工作人员的疏忽和工作态度等.现在,已经以图像形式扫描成为电子文献的资源已经开始在社会各个领域使用并开始形成数据库.跟文本形式的电子书相比,这些图书在实际使用中确实不易利用,显然有很多不足之处.读者使用时这种图像个会的文件仅能通过输入文本格式的文件名来查询,而不能直接把文件内容使用各种文本编辑工具来编辑或通过 JAVA ,XML等脚本语言编程,对PDF或HTML等网页文件内容进行查询和编辑操作.


如何写图书馆硕士学位论文
播放:38362次 评论:5617人

(2)因历史种种原因导致的文字使用背景,存在一种语言使用多种文字情况,识别过程比较复杂,处理一种语言文字需要两种解决途径,而且这两种解决方式是并且(U或者AND)关系的结构.拿维吾尔语和哈萨克语来讲的话,这两种语言到1965年前都使用阿拉伯文字形式的旧文字,从1965年开始使用拉丁文字形式的新文字,而又从1982年开始变更为以前的阿拉伯文字形式的旧文字.所以,处理这不同年代时的图书资料时,我们需要处理两种不同文字.虽然是一种语言,因使用的文字不同,而且这两种文字从结构上有根本性区别和不同的特点.这显然会要求我们准备和使用两种不同的处理技术和方案.

(3)文字识别系统准确率不高,识别质量低.虽然少数民族文字识别系统问世已有几年时间,软件技术基本不成熟,实际使用中遇到的需要攻关和还未能得到全面解决的技术性问题很多.不仅现有的少数民族文字识别软件的种类和数量都少,而它们的识别率等最关键的技术水平也未能得到提高,还处在初级研究和充实阶段,而且发展进度也比较慢.对现有的少数民族文字识别软件而言,它们的实际识别率仅仅达到10%—15%左右,根本无法满足文字系统应有的功能指标.如果按照这个比例进行扫描的话,整本书的大部分内容会出现错误而需要对其余部分进行手工输入,根本体现不出自动化处理的优越性,反而会浪费人力和财力并会提高建立数字资源的成本,最终影响数字资源库的建设步伐.其中也隐藏着使用者数量不多、市场发展前景不乐观、经济利润少等几个主要因素.不管再有多大的技术障碍或客观因素,如果有读者的需求和时代的要求,我们有必要组织更多的人力

后台-系统-系统设置-扩展变量-(内容页告位2-手机版)
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
后台-系统-系统设置-扩展变量-(内容页告位3-手机版)