本论文是一篇公式类论文怎么写,关于基于特征字符的印刷体公式识别系统相关函授毕业论文范文。免费优秀的关于公式及字符及文本方面论文范文资料,适合公式论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:采用一些方法对公式字符进行定位、分割以及识别,构建一个公式识别系统,公式是由不同的字符组合而形成的二维形式.另外,系统中对公式结构进行分析,可以识别较复杂结构的公式.
关 键 词:公式;识别;模版匹配;结构分析
中图分类号:TN949.199 文献标识码:B
FormulaRecognitionSystemBasedontheCharacteristicsofCharactersPrinted
FANGXin,FENGBao-lian,LIUZhi-jian
(HeFeiUniversityofTechnology,HefeiAnhui230011,China)
Abstract:Amethodtolocatetheformulacharactersegmentationandrecognition,tobuildaformularecognitionsystem.Theformulaisformedbydifferentbinationsofcharactersintheformoftwo-dimensional.Inaddition,thesystemoftheformulastructureanalysis,canidentifymoreplexstructureoftheformula.
Keywords:formula,identification,templatematching,structuralanalysis
引 言
很多印刷体文档除了包含文字信息以外,还常嵌有各类公式,因此印刷体文档的公式识别是印刷体文档识别的一个重要组成部分.1968年,Anderson在其博士学位论文[1]中提出了公式处理问题.90年代,公式识别的研究热度增加,有大量论文[2]发表,并且,个别较完整的实验系统已出现.相对于国外公式识别研究,国内起步较晚,大部分成果[3,4]都是2000年以后出现的.
与印刷体文字识别类似,印刷体公式识别也分为公式定位、公式分割、公式字符特征提取和公式识别等步骤,但公式识别还有公式结构分析这一步骤.
1 公式的定位和提取
公式在文字区域中主要有公式构成独立行和公式内嵌在文字中两种方式.设计中采用基于投影的公式定位方法,即将文本区域图像像素在横向和纵向进行投影,然后根据横向投影对独立行公式和普通字符文本区域进行区分,再根据纵向投影对每一行文字中的内嵌公式进行定位.
1.1 文本区域基本数据获取
需要获取的待分析文档区域图像的基本数据:
(1)Hr:多行样本高度的平均值.Hr等于,Hr(i)为第i个样本行的高度,N为样本的行数.
(2)Hr-r:多行样本中行与行之间距离的平均值.Hr-r等于,Hr-r(i)为样本中第i个样本行和第i+1个样本行之间的距离,N为样本的行数.
(3)Hch:多行样本字符高度的平均值.Hch等于,Hch(i)为样本中第i行字符的高度,M为样本中字符个数.
(4)Wch:多行样本中字符宽度的平均值.Wch等于,Wch(i)为样本中第i行字符的宽度,M为样本中文字个数.
有关论文范文主题研究: | 公式相关论文范文 | 大学生适用: | 在职研究生论文、大学毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 66 | 写作解决问题: | 学术论文怎么写 |
毕业论文开题报告: | 论文模板、论文结论 | 职称论文适用: | 期刊发表、职称评初级 |
所属大学生专业类别: | 学术论文怎么写 | 论文题目推荐度: | 最新题目 |
1.2 对含文本行中的公式提取
在文本区域公式行提取时,需要对文本行进行提取.可通过将文档区域向y轴投影,来获取一行文本在y轴上的坐标.当文本中不含公式时,能够准确得到一行文本在y轴上的投影坐标,但当文本内含有公式时,无论内嵌公式还是单独公式,都会出