文本聚类开题报告

时间:2020-09-28 作者:poter
后台-系统-系统设置-扩展变量-(内容页告位1-手机版)

聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。通过衡量外向型经济发展水平的指标体系,运用聚类分析法对外向型经济发展区域差异进行实证分析。

基于聚类技术的煤炭销售与生产决策系统的研究与实现

一、选题依据

1、选题目的、意义:

聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一类多元统计方法。本文主要是采用聚类分析方法,对于煤矿销售中某一类煤的多个样本煤品进行聚类分析,得出结果并对结果进行分析,从而调整在生产中对不同类煤的生产量,提高不同供求渠道的销售效益。首先,介绍关于聚类分析的思想以及发展状况。其次,收集相关样本煤的数据,包括水分含量,灰份,挥发分,固定碳含量等指标。再次,用聚类算法进行处理,并得出结果,将样本煤进行分类。最后,对结果进行分析,为生产者提出建议。

在不同的应用领域,很多聚类技术都得到了发展,在矿产,钢材生产中也发挥着至关重要的作用,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。在煤矿生产也销售中,对于生产商来说,可以明确生产指标,扩大销售渠道的选择范围,适应了需求者多样性的煤种要求、交易动机和利益的需求,一般来说能为生产商提供较高收益的可能性。但是由于煤种销售受到地域,市场,煤种质量等因素的影响,也受到技术和生产着行为因素的影响,因此各类煤的生产与销售量经常处于频繁的变动之中,销售量的频繁变动扩大了市场的投机性活动,使生产商的风险性增大。因此,对各类煤进行聚类分析并设计出切实可行的生产与销售方案显得意义更大。

2、数据挖掘国内外研究现状:

(1)国际会议及机构:自KDD一词首次出现在***年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

世界上研究数据挖掘的组织、机构或大学很多。比较著名的如卡内基梅隆大学(有机器制造DM、多媒体数据库DM、互连网DM三个研究中心)、斯坦福大学、麻省理工学院。著名研究机构如:ACM(ACMSpecialInterestGrouponKnowledgeDiscoveryinDataandDataMining)、KDNet(theEuropeanKnowledgeDiscovery3

NetworkofExcellence)、NCDM(TheNationalCenterforDataMining(NCDM)attheUniversityofIllinoisatChicago(UIC))

(2)刊物、书籍、网站:IEEE的KnowledgeandDataEngineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。此外,在Internet上还有不少KDD电子出版物,其中以半月刊KnowledgeDiscoveryNuggets最为权威。IEEE的KnowledgeandDataEngineering会刊在1993年出版的KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。在网上还有许多自由论坛,如DMEmailClub等。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。

至于DMKD的专业书籍,目前已达250本之多,可以在任何大型书店找到十本以上的专业书。

参考文献:

[1]陈炎光.中国采煤方法[M].北京.中国矿业大学出版社,1991.

[2]李朝鹏.基于分层聚类的并行数据预处理方算法[J].湖南大学,2007,24(10)[3]王霞.模糊聚类分析的一个改进算法及其应用[J]..天津科技大学学报.2009,24(6):71-73

[4]张文颖.基于聚类分析的当代大学生学习心理研究[J].黑龙江高教研究,2009,(4)[5]DanielNR.SomeapplicationsofgeneralizedFFT.ProceedingsoftheDimacsWorkshopinGroupsandComputation[M],California,1997.329-332[6]SunJG,LiuJ,ZhaoLY..Clusteringalgorithmsresearch.JournalofSoftware[J],JiLin.2008,19(1):48-61.

二、研究(设计)内容、研究(设计)思路、方法或工作流程

研究内容:

本文主要讲述了聚类分析在煤生产销售中的应用,对煤类销售市场上各类煤的需求进行预测,为生产商提供有效的生产策略。因此,本文先从相关的参考文献,并结合我国总体煤炭销售市场需求量波动情况,确定影响需求者对各类煤需求量大小的相关指标,然后在相关网站收集所需样本数据,然后通过聚类分析思想对收集的数据进行处理,得出结果。最后,对结果进行分析,将煤分为几大类,并对每一类煤炭提出生产销售建议。

(1)现状与需求分析:对煤炭销售的基本情况数据及聚类的主要目的进行了解分析,明确系统的主要功能模块;

(2)系统总体分析与方案设计:包括系统设计思想和原理、系统模块结构的分析和设计、及其系统的总体工作流程设计等;(3)系统的组织、分配、设计与实现;

(4)其它有关软件的设计与实现:选择合适的开发平台,完成软件设计。

研究思路:

聚类的大体技术方案:

⑴简单聚类

根据相似性阈值和最小距离原则聚类xi∈={x1,x2,„,xn}=12„c;

ifD(xi,mj)≤T,mj=(1/nj)xi(j),xi(j)∈j,nj是j中的样本个数,T是给定的阀值。

Thenxi∈i

类心一旦确定将不会改变。

⑵谱系或层次聚类

按最小距离原则不断进行两类合并

类心不断地修正,但模式类别一旦指定后就不再改变。

⑶依据准则函数动态聚类

规定一些分类的目标参数,定义一个能刻划聚类过程或结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程。这类方法有—均值法、ISODATA法、近邻函数法以及运用图论理论的最小张树法。

影响聚类结果的主要因数:类心、类别个数、模式输入顺序。所谓动态聚类,是指上述因数在聚类过程中是可变的。工作流程:

(1)对市面上销售的各种煤炭进行数据收集,确定各项指标的具体数值。(2)对收集到的数据进行整理,汇总。搭建初期基本的模型。(3)确定聚类分析中所要使用的相关算法并研究其可行性。(4)用聚类算法对收集到的数据进行处理。(5)对计算结果进行分析,完善整体的数据模型。(6)参考模型,对煤炭销售和生产决策提出方案。(7)与导师讨论,完善方案,进一步细化方案。(8)整理材料,完成论文初稿,进行预答辩。

三、毕业设计(论文)工作进度安排

总计16周,具体进度安排如下:

3-4周,调研、收集资料,写出文献综述报告及开题报告;5-13周,分析归纳材料,进行理论研究及算法分析与实现;13-15周,整理材料,完成论文初稿,成果验收,进行预答辩;16-18周,完善、装订论文,答辩。

后台-系统-系统设置-扩展变量-(内容页告位2-手机版)
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
后台-系统-系统设置-扩展变量-(内容页告位3-手机版)