数据库类有关论文范文检索,与基于内容音频检索综述相关论文答辩
本论文是一篇数据库类有关论文答辩,关于基于内容音频检索综述相关大学毕业论文范文。免费优秀的关于数据库及多媒体及信息检索方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
#30340;声音,如那些由音乐设备和语音产生的声音,才会产生一种音调的感觉.可根据音调的级别对声音排序.音调是一个主观特征.4.2 音频分类与归纳
分类(classification)用于预测音频对象的所属类别.而聚类(clustering)是一个将数据集划分为若干组或类的过程,通常可以定义为音频的归类问题.分类用于判别用户提交的示例音频或音频文本属于哪个类别,也可用于将一段新的音频归入已有的分类中(音频识别).
根据音频的特征值可将音频分类.常见的分类方法是:首先计算输入音频片段的频谱中心,如果其频谱中心值比预先设定的阈值高,则认为它是音乐:否则它是语音,但由于有的音乐也具有低的频谱中心值,因此它也可能是音乐.其次,计算静音比,如果它的静音比低,则认为它是音乐:否则,认为它是语音或独奏音乐.最后计算平均过零率ZCR,如果它有着非常高的ZCR可变性,则它是语音,否则它是独奏音乐.
在这种分类方法中,特征判定的顺序是非常重要的,通常由计算的复杂性和特征的差别决定.一般首先判定差别性大、复杂性低的特征,这样可减少一个特殊音频片段将要经历的步骤数,同时也可降低所需的整个计算量.
将音频分类为语音和音乐后,就可以使用不同的技术对它们进行单独处理.
4.3 音频检索
4.3.1 语音识别和检索
语音索引和检索的基本方法是运用语音识别技术把语音信号转化为文本,然后应用IR技术进行索引和检索.除实际的发声词汇(spokenwords)外,包含在语音中的其他信息,如发音者的身份和情绪等,都有助语音索引和检索.
语音检索是采用语音识别、语音处理技术完成音频信息检索.主要包括大词汇语音识别技术检索:子词单元检索:关 键 词识别检索:对说话人的辨认进行分割检索.
(1)大词汇语音识别技术检索
这种方法是利用自动语音识别(ASR)技术把语音转换为文本,从而可以采用文本检索方法进行检索.
(2)字词单元检索
当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇不在系统词库中时.一种变通的方法是利用子词索引单元,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中储备好的特征进行匹配.
(3)关 键 词识别检索
在无约束的语音中自动检测词或短语通常称为关 键 词的发现.利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索.如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容.
(4)对说话人的辨认进行分割
这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么,它在合适的环境中可以做到非常准确.利用这种技术,可以根据说话人的变化分割录音,并建立录音索引.如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化,建立索引和确定某种类型的结构.
4.3.2音乐索引和检索
音乐的类型有两种:结构化的(或综合的)音乐和基于样本的音乐.一般说来,音乐索引和检索的有效技术的研发仍处于初期阶段.
(1)结构化音乐的索引和检索
结构化音乐和声音效果是由一系列指令或算法来表示的.最常见的结构化音乐是MIDI,它把音乐表示成大量的音符和控制指令.由于结构化音频的简明结构和音符描述的原因,没有必要从音频信号中抽取特征,因此结构化音频更便于检索.
对于结构化音乐和声音效果,由于两个音符序列之间的相似性定义的困难性,基于相似性的检索很复杂.目前一种可行的方法是基于音符序列的音调变化来检索音乐.其基本思想是:查询声音和数据库声音文件中的每个音符(第一个音符除外)都被转换成相对前一个音符的音调变化.音调变化有三种状态:该音符比前一音符高(U)、该音符比前一音符低(D)和该音符与前一音符相同或相似(S).按这种规则,任意一段旋律可转化为一个包含字母U、D、s的符号序列,检索任务也就变成了一个字符串匹配过程.该方法是针对基于样本的声音检索提出的,也同样适用于结构化声音检索,根据音符音阶可较容易地获得音调变化.
(2)基于样本的音乐的索引和检索
对于基于样本的音乐的索引和检索有两种通用的方法:一是基于抽取的声音特征集合,二是基于音乐音符的音调.
基于特征集的音乐检索;在这种音乐检索方法中,对每种声音(包括查询)抽取听觉特征集,将其表示成一个矢量.通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性.该方法可应用于一般的声音中,包括音乐、语音和声音效果.MuscleFishLLC完成的一项研究工作就是使用该方法的一个较好的实例.在这项研究中,共使用了5个音频特征:强度、音调、亮度、带宽和谐音.这些特征随着时间的变化而变化,因此可对每个帧进行计算,然后用统计学中的均值、方差和自动相关3个参数来表示每个特征.查询矢量和每个存储的音乐片段的特征矢量之间的欧几里德距离或Manhattan距离可用作它们之间的距离.
基于音调的音乐检索;该方法与基于音调的结构化音乐检索相似.二者之间的主要区别在于基于音调的音乐检索必须抽取或估计每个音符的音调.将一段旋律转化为一系列相对音调转移序列的过程称为称为音调跟踪.音调跟踪是自动化音乐转录的简化形式,它把音乐声音转化成符号表示.该方法的基本思想为:由于音乐的每个音符都是由它的音调表示的,因此一个音乐片段或部分可表示成一个序列或音调串.检索是以查询音乐和每个存储音乐片段相应的音调串之间的相似性为基础,音调跟踪和串相似测量是检索过程的关键.
5 展望
基于内容的音乐检索主要是基于音频特征矢量匹配和近似音调匹配.计算机对信息的表达归根结底是一种状态表达,要将听觉感知的信息借助计算机进行存储与检索,这当中进行的转换难以避免实际信息的失真.对于音频检索来说,由于感官上与表达上的不一致性大大增加了检索的处理难度.因此,基于内容的音频检索只能是一种相似性检索,而无法实现传统的精确匹配检索.虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究,但是为了满足大容量数据库和WWW检索的要求还有许多工作要做.
WWW上基于内容的音频检索问题,需要研究快速的大规模音频库的浏览、检索和提交:长音频的浏览,即结构化表示音频流,并设计出新形式的内容浏览界面:长音频的检索,研究通用的基于片段级的内容检索,在时间轨迹上匹配一组特征,这需要研究模糊的匹配方法:继续研究有效的听觉解析特征,以支持通用和专用的音频检索问题:用户的音频查询接口和检索引擎:音频索引问题,以满足大容量数据库和网络检索的要求.
6 结语
基于内容的音频检索是一个新兴的研究领域,在国内外仍处于研究、探索阶段.当今时代,随着现代信息技术的发展,多媒体信息可以说是无处不在,但是由于多媒体类型丰富,数据量大等特点,使得如何能高速的检索就显得尤其重要.在本论文中介绍了基于内容得音频检索系统的一般结构及相关技术.
基于内容的音频检索是一个涵盖十分广泛的研究领域,与信号处理、人感知心理研究和模式识别等学科紧密相联.为使计算机能像人那样对音频语义实现自动理解,并根据语义高级内容进行音频检索,我们面临的挑战还很多.
参考文献:
[1]尚永强,张琳海,许大伟,等.基于内容的音频检索算法[J]河南科技学院学报,2009,37(3):69-72
[
数据库类有关论文范文检索,与基于内容音频检索综述相关论文答辩参考文献资料: