数据库类有关论文范文检索,与基于内容音频检索综述相关论文答辩
本论文是一篇数据库类有关论文答辩,关于基于内容音频检索综述相关大学毕业论文范文。免费优秀的关于数据库及多媒体及信息检索方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
[摘 要]音频是一种重要的媒体,它包含丰富的听觉特征.根据基于内容的音频检索的研究现状,本文总结出基于内容音频检索系统的概念,给出音频检索的基本结构,综述了音频检索的关键技术,并展望基于内容音频检索领域的发展前景.
[关 键 词]基于内容的音频检索 音频特征提取 音频分类 音频检索
引言
随着多媒体和Inter的广泛应用和深入普及,多媒体数据的数量正在呈指数增长,音频数据作为多媒体数据的重要组成部分,其信息量也在迅速膨胀,如何快速、准确的检索到所需要的信息已经成为现代信息检索领域的一个重点.基于文本检索的常规信息检索技术已经无法满足大量音频数据的检索需要,基于内容的音频信息检索技术应运而生.
基于内容的音频信息检索突破了传统的基于文本表达的局限,直接对音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索,避免了用字符标识音频信息的转化过程.他涉及音频数字信号处理、语音识别、信息检索、数据库系统、模式识别、人工智能、数据挖掘等许多相关技术,在Inter音乐检索、数字音乐图书馆、点歌系统等领域中具有重要的应用.
1 基于内容的音频检索的概念
基于内容的音频检索,指通过音频特征分析,对不同音频数据赋以不同语义,使具有相同语义的音频在听觉上保持相似.该技术在许多领域都有极大应用价值.
基于内容的音频检索主要有两个方面的含义:一是检索音频内容本身,如通过“哼”某音乐的曲调查找音乐;二是检索与音频内容相关的信息,如通过语音查找说话人等.
基于内容的音频索引和检索通常采用下面的步骤:
(1)将音频数据分类,通常可分为语音、音乐和噪声等类型.
(2)不同类型的音频数据可以以不同的方式进行处理和索引.如,对语音可运用语音识别技术且可基于识别过的词汇对其进行索引.
(3)查询音频片段要同样地进行分类、处理和索引.
(4)根据查询索引和数据中音频索引之间的相似性,对音频片段进行检索.
2 基于内容的音频检索系统基本结构
基于内容的音频数据库检索系统是一种重要的和关键的多媒体信息处理技术.一般可把基于内容的音频数据库检索系统看作是介于信息用户和数据库之间的一种信息服务系统.在音频检索中,需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤[目:
特征提取指的是寻找原始音频信号表达形式,提取能代表原始信号的数据.要提取特征和属性,通常要对数据库中的多媒体数据项进行预处理.因为在检索过程中,其实是对这些特征和属性而不是对信息项本省进行搜索和比较,所以特征提取的质量决定着检索结果.
基于内容的音频检索,一般分为音频特征提取、音频识别分类、检索三个过程.在提取音频特征之前,一般还需要对音频数据进行预处理,预处理主要包括预加重和加窗,加窗使音频数据形成音频帧.特征提取音频的物理、听觉或语义特征,其中基本要素的特征提取是以音频帧为单位或者以若干帧组成的音频片段为单位来进行.音频识别分类是对音频进行归类划分,分类本身可以是一种检索方式,也可以作为检索的一个辅助手段,归类越精确,一般来说检索就越准确.检索的过程是一个匹配的过程,根据音频特征间的相似度给出检索结果.检索系统一般分为两部分:一部分是数据库的生成,即音频数据及其特征录入到数据库;一部分是数据库查询,即用户通过输入音频或输入特征字符串在数据库中查找所需要的音频.系统基本构成如图2.2所示.
该文来自:{$ge
数据库类有关论文范文检索
3 基于内容的音频检索系统特点
基于内容的音频检索技术突破了基于关 键 词匹配的传统索引技术的限制,它根据音频本身所固有的特征而不是人工标注的外部属性或者关 键 词对音频进行检索.它的核心思想是通过一定的计算处理,分析音频的结构和语义,建立它们的结构化的组织和索引,使得“无序”的音频变的“有序”,从而有利于用户的检索和浏览.
基于内容的音频检索技术的主要特点有:
(1)从媒体内容中提取信息线索.基于内容的检索突破了传统的基于表达式检索的局限,利用音频内容特征建立索引进行检索.
(2)基于内容的音频检索,犹豫内容表达的不精确,必然是一种近似的检索.结果中往往出现误检和遗漏.
(3)数据库的快速检索.在实际的多媒体数据库中,不仅数据量巨大,而且种类和数量繁多,要求基于内容的检索技术实现对多媒体信息的快速检索.
(4)作为一种多媒体技术,具有很强的交互性(用户可以参与检索过程).
4 基于内容的音频检索系统关键技术
4.1 音频特征提取
音频特征提取是整个基于内容的音频检索技术的核心技术.音频内容描述是在音频内容获取的基础之上进行的,同时是进一步进行音频特征相似度匹配的必要前提.特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据.要抽取特征和属性,通常要对数据库中的多媒体数据项进行预处理.在检索过程,需要对这些特征和属性进行不断的搜索和比较.
4.1.1 音频时域特征的提取
可提取的音频时域特征有平均能量、过零率和静音比等.
平均能量说明了音频信号的强度,可用于静音检测,对于一个音频例子,如这个音频例子中的某一短时帧的平均能量低于一个事先设定的阈值,则可判定该短时帧为静音.
过零率指每秒内信号值通过零值的次数,一定程度上说,它说明了平均信号频率.一般语音信号由单词构成,单词又由元音和辅音交替的音节组成,辅音信号的过零率低,而元音信号的过零率高.语音信号开始和结束都大量集中了辅音信号,所以其开始和结束部分的过零率总会有显著升高,利用过零率可判断语音是否开始和结束.另外,大多数音乐信号集中在低频部分,其过零率不表现出突然升高或降落的起伏特性,所以有时也可用过零率来区分语音和音乐两种不同音频信号.
静音比表示静音的声音片段的比例.
4.1.2 音频频域特征的提取
傅里叶变换可分解出音频信号的频率成分,可提取的音频频域特征有带宽、频谱中心、谐音、音调等.
(1)带宽说明了声音的频率范围,音乐通常比语音信号具有更高的带宽;
(2)频谱中心也称亮度,是一个声音频谱能量分布的中心点.语音与音乐相比,频谱中心较低;
有关论文范文主题研究: | 关于数据库的论文范文集 | 大学生适用: | 高校大学论文、函授毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 16 | 写作解决问题: | 如何怎么撰写 |
毕业论文开题报告: | 论文任务书、论文题目 | 职称论文适用: | 技师论文、初级职称 |
所属大学生专业类别: | 如何怎么撰写 | 论文题目推荐度: | 免费选题 |
(3)频率为最低频率的倍数的频谱成分称为谐音.在有谐音的声音中,频谱成分大部分是最低频率的整数倍数,音乐通常比其他声音具有更多的谐音;
(4)音调是听觉分辨声音高低的特性,完全由频率决定,可通过频谱估计.
只有阶段性&
数据库类有关论文范文检索,与基于内容音频检索综述相关论文答辩参考文献资料: