本文是一篇电子商务论文范文,电子商务有关毕业论文题目,关于面向电子商务的关键信息抽取方法相关函授毕业论文范文。适合电子商务及语义及句子方面的的大学硕士和本科毕业论文以及电子商务相关开题报告范文和职称论文写作参考文献资料下载。
[摘 要]本文以知网知识库为基础,运用语义分析方法,通过语义的相似度计算实现在电子文档中抽取到有用的关键句和关键信息.
[关 键 词 ]电子商务 语义 关键信息 抽取
一、前言
近年,我国电子商务投资规模和发展处于快速增长和爆发时期,电子商务已经成为企业和个人商务活动中不可或缺的组成部分.面对海量的商品信息,消费者如何从这些电子文档中快速有效的找到有用的信息,成为信息检索领域的重要研究方向.信息抽取是一个有效的解决方法,是具有较高实用价值的关键技术.从已有研究看,运用语义方法做信息抽取还相对较少,而信息抽取不可能完全摆脱自然语言模型的影响,语义关系仍然是实现信息抽取的基础,比较其他信息抽取技术,能够提高查全率和查准率,并降低复杂度.本文将通过语义分析方法,对电子商务网站的自由文本做相应处理和语义相似度计算,实现关键信息抽取.
二、相似度计算
大部分基于语义做自然语言处理的研究,都是以知网为基础.知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库.在知网中,词汇语义的描述被定义为义项(概念),每一个词可以表达为几个义项,义项又是由一种知识表示语言来描述的,这种知识表示语言所用的词汇称作义原.其语义树并不涵盖所有词语,而将描述词汇语义的义原用树状结构组织起来,义原根据义原之间的属性关系分为多棵义原树,树与树之间存在一定的关系,形成网状知识结构.其义原数量很少,但组合起来可以表达数以万计词语.所以将词语相似度计算转换为义原相似度计算可以提高计算效率,有利于知识库的扩展.
1.词语相似度计算
根据知网的义项描述和义原结构,算法可做如下表达,设定两个词语有n个义项表示,等,,有m个义项表示,
电子商务有关论文范文参考文献
有关论文范文主题研究: | 关于电子商务的论文范文集 | 大学生适用: | 学院学士论文、函授毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 90 | 写作解决问题: | 写作参考 |
毕业论文开题报告: | 论文模板、论文总结 | 职称论文适用: | 期刊发表、中级职称 |
所属大学生专业类别: | 写作参考 | 论文题目推荐度: | 经典题目 |
(1)
其中为和的相似度,为和的相似度.这样就通过计算义项的相似度值得到义项所对应的词语之间的相似度,最后由计算义原相似度来实现.这样就将相似度计算由词语转换为义项最终转换为基本单位义原.通过计算语义距离及义原之间相对位置关系得到义原相似度.知网结构中,语义距离是影响义原相似度的基本因素,于是得到经验公式通过语义距离计算义原之间相似度:
(2)
其中p为义原;d为义原层次结构中路径长度;为可调节参数.
分析发现,义原的相对位置也是义原之间相对关系的很大影响因素,对(2)式做出改进,加入义原相对位置的影响因素h(义原在义原树中的深度):
(3)
具体处理文本时总结发现,实词在文本中表达本质含义,而虚词主要作为词语之间的连接等.所以,为提高效率,本文在计算相似度时只计算实词部分.
依据知网结构,将实词相似度计算用下面的计算完成.
(1) 第一独立义原计算:对两个义项计算第一独立义原相似度可由式(3)的计算方法算出,这里记第一独立义原为:.
(2) 其他独立义原计算:相似度记作,计算表达式如下:
(4)
(3) 关系义原计算:两个义项的相似度记为,计算表达式如下:
(5)
(4) 符号义原计算:相似度记作,基于在义原结构中表示形式相同的原因,符号义原计算与关系义原计算相近,如下式:
(6)
于是,两个义项语义表达式的整体相似度记为
(7)
鉴于知网结构和描述,第一独立义原之外的其他义原相似度是相对独立的,对公式进行改进:
(8)
至此可计算出两个实词的相似度.
2.句子相似度计算
这里计算句子相似度计算时只计算实词,包括动词(Verb)、名词(Noun)、代词(Pron)、副词(Adv)、形容词(Adj)、数词(Num)、量词(Quan)等.即,一个句子可根据上述分类得到如下集合:{Verb,Noun,Pron,Adv,Adj,Num,Quan}
怎么写电子商务毕业论文
播放:21978次 评论:5852人
设句子Sen经过分词之后包含m 个词:
(9)
再根据实词分类,得到分类集合:
(10)
根据各个实词在句子中所做的成分及作用分析,句子之间相同词性的词汇之间相似度可以衡量句子之间的相似度,这里设两个句子的实词分类集合分别为:
.
设动词集合V的两个集合为:
(11)
(12)
设句子和的相似度矩阵为,
(13)
其中为两词相似度.
两句子动词集合的相似度:
(14)
根据这种方法,即可得到其他分类集合的相似度.那么全句的相似度如下表示(为权系数):
(15)
三、关键句抽取算法
对于目前我们所遇到的绝大多数电子商务网页中的电子文本都具有一定的模式,它的特点是基本符合对商品描述的基本模式,一般包含的基本信息是:品牌、质地、颜色、细节等.而这些梗概信息也正是要抽取的关键元素.通过对大量文本的观察、统计发现,在一个完整的文本中,会存在一个句子完全包含这些关键元素,即关键句.抽取的基本思想是,一个完整文本中的句子,与其它句子或者相关,或者完全不相关.关键句作为信息量最大的句子与其他句子一定具有相关性;非关键句之间则是相互独立的.根据这个思想,关键句的抽取有如下算法:输入:包含自由文本的文档 ;输出:代表该文档的关键信息
步骤:
Step1 将输入的文档进行句子划分,得到其句子集D(W).
Step2 对D(W)的每一个句子进行分词处理,过滤虚词,形成实词集合W{ W1 , W2 ,等, Wn },其中Wi, i等于1,2,等n, 为第i个句子对应的实词集合.
Step3利用公式(15)计算任意两个由词集合表示的句子的语义相似度,设为
Step4 对每个句子与其他所有句子的语义相似度值求和,设句子对应和值为则,n为句子数目.
Step5 计算,并将其对应的句子作为关键句输出.
四、实验结果及分析
为评价本算法性能,本实验使用中国科学院计算机技术研究所研制的ICTCLAS系统的中文分词和词性标注功能,用Java语言实现算法.使用的语料为电子商务网页上摘录的200段文本.以召回率和准确率作为算法评价指标:
(16)
(17)
具体实验结果如图所示.
从实验结果看,本文算法对处理文本的类型具有一定的依赖性,对于主题比较鲜明的文本具有较高的抽取率.而对于同类型语料,不同语料数量的测试结果差别不大,因此算法对语料输入数量并不敏感,可见本算法能够保持较高的稳定性.体现了语义在自然语言处理中的优势.
参考文献:
[1]董振东,董强.知网[EB/OL]. http://.keenage.., 2003-
07-12.
[2]刘群,李素建.基于《知网》的词汇语义相似度计算[A].第三届汉语词汇语义学研讨会论文集[C],台北: [s n], 2002. 59-76
[3]牛之贤,白鹏洲,段富.基于框架语义标注的自由文本信息抽取研究[J].计算机工程与应用.2008,44(25) 143~145
[4]金博,史彦君.基于语义理解的文本相似度算法[J].大连理工大学学报, Mar,2005,Vol.45,No.2 292~297
[5]ZHANG Hua-ping,Yu Hong-kui,Xiong De-yi,etal. HHMM-based Chinese lexical analyzer ICTCLAS[A]. 41st Annual Meeting of the Association for Computational Linguistics[C]. Sapporo: [s n],2003
这篇论文网址:http://www.sxsky.net/shangwu/381325.html
电子商务有关论文范文参考文献,与面向电子商务的关键信息抽取方法相关函授毕业论文范文参考文献:
电子商务信息安全
电子商务概论,电子商务课程简介沈阳试要求]:掌握物流的基本概念与物流活动的主要要素,掌握电子商务与物流配送的相互关系,掌握电子商务配送中心的特点及运作情况;掌握物流信息管理的关。
电子商务方法
务网站求2,掌握网络商务信息采集和整理方法,熟练地使用搜索引擎3,能够对网络信息进行初步的分类整理4,了解网络信息发布的基本概念5,掌握网络广告的基础知识和方法(六)电。电。
电子商务推广方法
书有效期为壹年),企业代码企业名称企业法人电话手机传真电子邮件地。电子商务概论精品课程目录则,项目策划方案,精通电子商务信息网络的建设,编程及推广的原理,方法和技术研发,有敏锐的市。
电子商务的学习方法
.,(四)主要面向岗位,结合当。电子商务都学哪些课程采购程的教学和学习中,应尽可能结合电子商务实际对内容,方法和原理进行讲解和阅读,以便能透彻理解本课程的内容.,试卷中所涉及的问题将以。
电子商务信息技术
防火墙技术在电子商务中的应用易信息和证明文件难以获取.电子商务是一种无纸化交易,电子信息技术的运用使得交易记录以电子形式出现,如通过电子数据交换系统生成发票,通过电子资金转账系。
电子商务信息咨询
电子商务题目电子商务咨询,电子商务咨询果情况,12.本企业应用信息系统,电子商务进行网上采购/销售的相关效益情况如何?(划勾,列单选),订单准时交付提高财务结算周期缩短产成品库。
电子商务就业信息
电子商务物流信息管理2016-2020年中国电子商务软件市场调研与发展趋势预测报告,中国调研报告网,baogaobaogao.,一,基本信息,报告名称:2016-2020年中。
电子商务招聘信息
电子商务物流信息管理2016-2020年中国电子商务软件市场调研与发展趋势预测报告,中国调研报告网,baogaobaogao.,一,基本信息,报告名称:2016-2020年中。
电子商务信息平台
电子商务平台定制简介"非典"时期,在"接触式经济"遭遇严寒之际,以跨越时空,不正面接触为特点的电子商务赢得了商机.在上海,企业和商家纷纷借助信息技术和网络平台,改变服务和交易方。
电子商务信息安全论文
诀!,本资料由广。电子商务物流信息管理2016-2020年中国电子商务软件市场调研与发展趋势预测报告,中国调研报告网,baogaobaogao.,一,基本信息,报告名称:2016。