句子类论文范文例文,与综合多特征值相似度在参考咨询问答系统中的应用相关毕业论文范文
本论文是一篇句子类毕业论文范文,关于综合多特征值相似度在参考咨询问答系统中的应用相关毕业论文提纲范文。免费优秀的关于句子及信息检索及信息方面论文范文资料,适合句子论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
【摘 要】自动问答系统给某个提问提供简单而精确回答,与信息检索任务和与信息提取任务极为不同.在自动问答系统中存在多个难点,其中,相似度是众多学者关注的一个领域,本文是对句子相似度计算研究的一个探索,主要从汉语句子中涉及到的词语、句法结构和语义分析三个不同层次对句子的相似度计算进行了研究,提出了一种综合多特征的句子相似度计算方法.
【关 键 词】自动问答;相似度;匹配;权重
0引言
自动问答系统(AutomaticQuestionandAnsweringSystem),是自然语言处理领域一个热点问题,与传统的搜索引擎相比,自动问答系统能够更好地满足人们的检索需求,目前国内外已有许多不同专业领域或开放域的自动问答系统,大致可以分为以下几种[1]:
(1)聊天机器人:采用自然语言的方式回答用户提问的问题.原理是在对话库中搜集各种句型和模板,然后提取用户的问题中的关 键 词,然后检索对话库,主要通过模式匹配的技术来检索问题最佳答案.
(2)基于知识库的自动问答系统:采用自然语言理解技术对用户提问的问题在知识库进行检索问题的答案.由于此类型的问答系统利用了自然理解技术,并且是基于知识库的检索,因此它在一定程度上能够实现智能回答.但是,由于该类型的自动问答系统依赖于知识库,所提问的问题必须限定在知识库的范围内,一旦在知识库的范围外,系统的答疑性能就会很低,甚至为0,此类自动问答系统经常会出现知识库瓶颈的情况.
(3)问答式检索系统:用户采用自然语言的方式提交问题进行检索查询,此类系统是从系统的文档集合或者互联网中检索出相关的文本或者相关的网页,并将这些文本或者网页返回给用户.目前典型的问答式检索系统有麻省理工学院开发的Start问答系统、密歇根大学开发的AnswerBus问答系统、美国Askjeeves公司的Askjeeves检索系统等等,此类系统虽然允许用户以自然语言的方式进行提问,但是返回的结果只是相关的网页,并没有以自然语言方式把答案返回给用户.
1问答系统多种算法的特点
传统搜索引擎中用户提交查询关键字以后,搜索引擎返回一系列与关键字相关的网页HTML文档,之后用户需要从大量文档资料中白己搜寻合适的信息;自动问答系统根据用户提交的查询问题进行处理,直接以简单的文本语句为答案进行返回,用户可以以最直接的方式获得问题的结果.返回结果的准确性以及简单化使得自动问答系统具有更好的用户体验.自动问答系统传统的处理方式为:首先,对用户提交的问句进行分析,主要进行汉语分词、句法分析等基础工作:然后使用分析后的问句在给定的文档集中进行检索,返回初始的结果集合;最后处理返回结果集,主要是采用信息抽取技术,挖掘出结果集合中与问题相关的结果.这种方式虽然能够返回用户满意的结果,但是却存在一定的问题,主要表现在有较大的查询延迟.在自动问答系统中加入常问问题集,能够有效的改善这种状态.问题集中包含了用户提问频率较高的问题以及其对应的答案,当用户提出问题后,系统首先查找FAQ问题库集,如果库中存在问题,则直接返回问题答案,这样可以大大缩减用户查询的延迟,给用户提供了一个方便、快捷地解答疑问的途径,具有较强的实用价值.句子相似度计算在自动问答系统中的应用主要体现在用户问句与常问问题库中问句的匹配,指用户的问句与常问问题库中的问句进行相似度计算,如果相似度计算的结果满足一定的值则说明了两个问句表达了类似的含义,是同一问题的不同描述,它们共享同一答案,可以直接将问题库中答案返回给用户.
这篇论文来源:http://www.sxsky.net/zhengzhi/050481997.html
经过多位学者多年的研究,我们可以发现当前的问答系统主要有以下几点欠缺[2]:(1)在分词方面采用基于词典的分词算法,或者借助于现有的分词工具如中科院的ICTCLAS,前者是能够准确划分专业词汇以及组合词汇,但是经常会出现某些词在词典中没有找到,有的学者把这种词叫做未登录词,导致不能正确的分词,而后者即借助于现有的分词工具不能准确划分专业词汇以及组合词汇;(2)在计算词语相似度方面采用基于《知网》的语义相似度,或者采用基于领域本体的概念相似度,而这两种计算词语相似度方法各有优缺点,前者对于专业词汇之间的语义相似度,特别是专业组合词汇的语义相似度不能准确的计算,因为《知网》没有搜集专业组合词汇;同样后者对于常用词汇的相似度的计算也有不足.
2句子相似度算法
句子相似度计算是中文信息处理中的一项基本而核心的工作.它的研究受到人们的广泛关注.由于其基础工作的地位,决定了句子相似度计算的重要性,它被广泛应用于中文信息处理的各个方面,它的研究工作的开展状况对其他一些相关领域的工作起着决定性的作用.有的学者将句子相似度计算应用于机器翻译中,用以找出类似的译文;还有的算法将句子相似度计算用于常问问题库的问答系统中,通过相似度计算找到目标问句的答案;同时还用于信息检索领域,用来查找与目标检索相似的句子等.
有关论文范文主题研究: | 句子相关论文范文 | 大学生适用: | 大学毕业论文、研究生论文 |
---|---|---|---|
相关参考文献下载数量: | 39 | 写作解决问题: | 如何写 |
毕业论文开题报告: | 文献综述、论文总结 | 职称论文适用: | 技师论文、职称评中级 |
所属大学生专业类别: | 如何写 | 论文题目推荐度: | 经典题目 |
传统的句子相似度计算方法主要有三种[3],这三种方法都或多或少存在一些不够完美的地方:一种是基于关 键 词信息的方法,具有代表性的是基于向量空间模型的TF一IDF方法,这种方法是将文档映射为向量空间中的一点,这个点的坐标由文档中相互独立的词条组构成,坐标的值为文档中的每一词条,依据它在文档中的重要程度被赋予的权值W,即(Wl,W2,等,Wn)为坐标值.这样就构成词条矢量,从而把向量空间中的矢量匹配问题用来解决文档信息中的问句匹配问题.句子的相似度与向量空间的夹角成反比,即向量间的夹角越大,句子相似度越低,夹角越小,句子相似度就越高.向量空间模型的TF一IDF方法是对关 键 词词频进行统计的方法,要使统计效果很好地表现出来,句子中包含的词语数量需要足够得多,相关的词语才会重复出现,因此这种方法是以大规模语料做为基础的.另外,TF一IDF方法对于同义词以及一词多义情况计算效果不太好,因为这种方法只考虑了词语在上下文中的统计信息,而没有考虑词语蕴含的语义信息.基于语
句子类论文范文例文
句子类论文范文例文,与综合多特征值相似度在参考咨询问答系统中的应用相关毕业论文范文参考文献资料: