本论文是一篇计算机病毒方面有关毕业论文提纲,关于计算机病毒检测中Bayes分类技术探究相关大学毕业论文范文。免费优秀的关于计算机病毒及参考文献及概率统计方面论文范文资料,适合计算机病毒论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:贝叶斯分类算法是利用概率统计知识进行分类的分类算法,因此如何获得概率的初始知识是该算法进行分类的一个难点.这类算法利用贝叶斯定理来计算未知类别样本所属类别的可能性.本文分析了计算机病毒检测中应用贝叶斯分类技术的方法.
关 键 词:计算机病毒;检测;Bayes分类技术
中图分类号:TP309.5文献标识码:A文章编号:1007-9599(2011)24-0000-01
BayesClassificationTechniquesAnalysisofComputerVirusDetection
ShiLei
(66483TroopsofPLA,Beijing100093,China)
Abstract:Bayesianclassificationalgorithmistheuseofprobabilityandstatisticsknowledgeclassificationalgorithm,sotheinitialknowledgeofhowtoobtaintheprobabilitythatthealgorithmtoclassifyadifficult.ThetypeofalgorithmusesBayes'theoremtocalculatethepossibilityofunknownclasssamplecategory.ThispaperanalyzestheapplicationofBayesianclassificationtechniquesinputervirusdetectionmethod.
Keywords:Computerviruses,Detection,Bayesclassificationtechniques
贝叶斯分类是结合了统计学和贝叶斯网络的分类方法,它基于如下假定:待考察的变量遵循某种概率分布,且可以根据这些概率及已观察到的数据进行推理,以做出最优决策.贝叶斯分类器可以发现变量问的潜在关系,预测类成员变量的可能性,即给定样本属于某个类的概率.
一、贝叶斯分类的原理
贝叶斯定理成为依赖性很强的独立性假设前提,因此,属性之间的独立性是分类准确与否的另一个难点和重点.同时确定贝叶斯最优假设的计算代价比较大(与候选假设数量成线性关系).
在朴素贝叶斯学习算法中一般用出现频度代替概率,则可知道概率的初始知识,即可进行分类.朴素贝叶斯算法分类的准确度取决于属性之间的独立性,独立性好的准确度高,否则偏低.另外和决策树相比,朴素贝叶斯没有分类规则输出.由于贝叶斯算法过于依赖属性相互之间的独立性,为了减少对独立性的依赖,TAN算法被提出.TAN算法通过发现属性间的关联来减少朴素贝叶斯中对任意属性间独立性的依赖.TAN在朴素贝叶斯网络结构基础上通过增加属性对之间的关联来实现.由于TAN算法考虑了两两属性的关联性,该算法对属性间的独立性依赖有一定程度的减少,但是可能存在的其他方面的关联性并未涉及,因此适用范围有限.
二、基于朴素贝叶斯分类的异常检测方法
设X是类标识号未知的数据样本,如X可以表示为流量异常,H为某种假定,p可以表示为系统当前遭受人侵,则我们可以确定p(H/X).p(H/X)表示当流量异常时,当前系统遭受入侵的概率.p(H/X)是后验概率,即条件X下H的后验概率.p(H)表示系统遭受入侵的概率,p(X/H)表示系统遭受入侵时流量发生异常的概率.p(X)表示流量发生异常的概率.其中p