关于计算机类论文范文参考文献,与汉文文本电脑编辑加工效率高于英文相关论文网
本论文是一篇关于计算机类论文网,关于汉文文本电脑编辑加工效率高于英文相关硕士论文范文。免费优秀的关于计算机及汉字及基础教育方面论文范文资料,适合计算机论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
1.引言
在机械化时代,汉字文本的编辑加工明显地比英文繁难、低效.这是大家普遍认同的,也是汉字拼音化改革的一个重要原因或根据.现在汉字已经成功实现了电脑化处理.但这种电脑化处理,是在英文电脑化之后,是大量借用了英文相关技术情况下完成的.换句话说,具有文字处理功能的电脑最初是为了解决英文问题设计的,而后才扩展用于汉字.汉字一个字符要用两个字节,比一个英文字母用一个字节多了一倍;汉字字量庞大,字形复杂,字库比英文大得多;最初进入中国的微型计算机并不是都能处理汉字,有的要插上什么“汉卡”才行;汉字BB机曾经比数字BB机贵数百元、甚至上千元.这些现象使得许多人觉得:汉字的电脑化处理必定仍然是比英文的繁难、低效.当今这种认识十分普遍.著名语言文字学家周有光先生是一位可敬的百岁老人,他在古稀之年,比许多中青年人更早地学会了电脑打字排版,百岁之后,仍然不断出版了许多著作,是一位难得的与时俱进的老人.他曾用极为简短、概括的语言描述文字的技术性.他说:“任何文字都有技术和艺术两面性,可是拼音文字技术性强,而艺术性弱,汉字技术性弱而艺术性强.”“从古代文明转变到现代文明的历史转折时期,汉字的两面性还表现为两种文明之间的矛盾.这时候汉字既是古代文明的‘宝贝’,又是现代文明的‘包袱’.”[1]他是在1994年说这句话的,当时中国的出版印刷行业已经全面淘汰了铅字,汉字处理电脑化已经基本实现.到2004年,中国社会网络化进程快速推进,普通中国百姓每人每天都亲身感受到汉字电脑网络的无所不在.他又一次说“汉字是低效率文字.它仍然是文化发展的包袱”[2].这些话表明,他认为电脑化了的汉字和机械化时代的汉字一样,还是技术性比英文差,效率比英文低.本文则想要说明,从文本编辑加工处理各方面比较,汉字都比英文高效.最后一节着重举例说明现代电子信息技术发展的神速、难于预料和高新技术性,可能是使许多人没有看到汉字的技术性已经不再落后、低效的客观原因.
2.汉、英文字占用计算机存储量的比较
汉英两种文字信息处理中,占用电脑存贮量的比较是个重要性的问题.许多作者在比较汉、英文字属性优劣时,在论及汉字发展前途时都谈到这个问题.一种观点认为:汉字字量大,结构复杂,一个汉字占两个字节,故而用计算机表示、存贮、加工都要耗费比英文大得多的存贮量,是计算机的沉重负担.并认为这是古老的汉字不能适应信息新技术的一个证据.另一种观点则认为:汉字简明、准确、信息量大,这些优点在电脑文字信息处理中也一定带来许多好处.哪一种看法更正确?我们具体分析如下.
(1)字形的点阵表示
计算机的打印输出和荧光屏显示已经完全摆脱了金属铅字,使用数字化点阵.就字形点阵表示、存贮来说,汉字确实要比英文至少多消耗数百倍、甚至数千倍的存储.例如显示英文,最低可用7×9点表示一个字符.显示汉字最低需用16×16点.英文字符总量取为100(实际上Ascii可见字符为94个),汉字取为7000.那么汉、英字形库占用存贮量分别为:
汉字字库:16×16×7000点
英文字库:7×9×100点
简单计算可知:此处汉字字形存贮量是英文的284倍.由于汉字结构复杂,同一种点阵规模,汉字字形视觉质量比英文差.如果取英文的点阵规模为n×n,汉字的为(2n)×(2n),英文仍取100个字符,汉字取五万个字符.那么
汉字字库:(2n)×(n)×50000点
英文字库:n×n×100点
此时比值为2000.即全汉字字形存贮量为英文的200倍.这里所用的单位“点”,对应着计算机存贮的最小单位:二进制位.16×16点阵7000个汉字所占计算机存贮,用计算机术语说,占1750K位等于218KB≈0.2MB.24×24点阵7000个汉字所占计算机存贮量44032000位等于504000字节等于504KB≈0.5MB.
(2)字符的二进制编码表示
电脑表示文字信息有两种方式.一种是上述的点阵方式,这只用于计算机的可见输出,即制作纸版本时的打印,或者应答用户操作时的屏幕显示.还有另一种应用更广的方式即内部编码表示,它广泛用于信息存贮、传输及加工处理.编码表示类似于用四位十进制数表示汉字的电报码,只是电脑文字编码中用二进制整数表示文字字符.一个拉丁字符,通常用一个八位二进制数表示,就是用一个字节表示.一个汉字字符,按国家标准GB2312―80,用两个字节表示.粗看起来,似乎仍然是汉字编码多耗费了字节.实则不然.因为拉丁字符和汉字字符负载的信息量大不相同,拉丁字母和汉字不是同一等级的.一个最简单的具体比较,例如:“你好”这句问候语,它的汉、英文版占用编码字节数分别为:
汉文版:你好,占2×2等于4个字节
英文版:Howareyou,占11个字节(内含两个空格)
英文版使用字节数是汉文版的2.75倍,可记为K等于2.75.这个例子似太简单,难于引出一般结论.1988年笔者曾做过如下统计.选择毛泽东选集、毛泽东诗词等材料,取英、汉两种文本输入电脑,计算英文版占用字节数与汉文版占用数的比值K,得结果如表1.
文本资料都选用有影响的权威资料[3][4][5][6].统计中没有计入文题、词牌名、题解、注释等项.正文统计中含空格及标点.统计结果表明:汉文的简约、信息量大的特点是鲜明的,汉文版编码表示用电脑字节数至少比英文省一倍.汉文版这种简约性因体裁不同而差异甚大.中国古诗简约性最强,现代白话文为最弱.但这最弱,也只是英文的一半.就文字编码表示、存贮来说,汉字的简捷性具有明显优点,同一文本的英文版占用电脑存贮量至少比汉文版多耗费一倍.
(3)综合观察
前述(1)中说,汉字字形库比英文字库大数百至数千倍.前述(2)中说英文编码表示比汉文长2倍到4.5倍.如何综合比较呢?最容易说清问题的是一套微机系统.一套普通的微机系统,汉字字库只要一套.具体些说,不管你的电脑是只存储单独一本红楼梦,还是同时存储四大古典名著和其他什么材料,都只要用一套字库即可.以存24×24的宋体、楷体两种各一套计算,汉字字库容量约为1MB(一兆字节,即一百万字节).上世纪80年代中期,通用微机硬盘为20MB.其中不妨去一兆字节,视为汉字字库比英文多消耗的.所剩19兆字节中,存汉文版将比存英文版省下一半,即省9.5兆字节.硬盘容量在不断扩大.2000年初装机的,大多大于80GB(一个GB大约等于1000MB).其中不妨去一个GB(合100MB,足以容纳宋体、黑体、楷体等二三十种高精度汉字库)字节,视为汉字库比英文多消耗的.所剩79GB中,存汉文版将比存英文版省下一半,即省39.5GB.不到20年间,从省4.5MB,到省39.5GB,说明了海量数据的“积累性”.而每台微机或每个系统,都只用一套汉字库,就是“一个性或一次性”.
汉字的字量大和字形复杂就没带来什么消极影响吗?影响肯定仍然是有的,但主要反映在“一个性或一次性”.16点阵汉字库已经有200KB还多.内存容量如果只有256KB,许多软件就都无法运行了.上世纪六、七十年代国际上的许多大计算机都因为存储量不足无法处理汉字.80年代中期,内存容量低于256KB的微机还是大量的,它们都难于运行汉字系统.由此可见,汉字系统实现的起码条件确实比英文高.因起码条件不具备而使使用滞后于英文,在以往是普遍现象.由此事实引出如下结论:①汉字字量大,字形结构复杂,使新汉字系统最初实现时遇到比英文大得多的困难,因起码条件不具备而使汉字系统的实
关于计算机类论文范文参考文献
3.汉、英文字编辑加工操作的比较
文字信息的电脑处理基本是字符串的处理,即字符二进制编码序列的处理.最基本的处理包括
关于计算机类论文范文参考文献,与汉文文本电脑编辑加工效率高于英文相关论文网参考文献资料: