免费的企业网页制作网站北京备案网站负责人

diannao/2026/1/15 15:18:25/文章来源:

免费的企业网页制作网站,北京备案网站负责人,泰安网站建设公司排名,企业vi设计一整套1.引言　　随着网络技术的飞速发展和普及#xff0c;进入了信息大爆炸的时代。信息无处不在#xff0c;给我们的学习生活带来了诸多便捷#xff0c;由于堪称海量的信息量#xff0c;我们从中获取有用的信息变得困难#xff0c;解决这一难题就是要对这些大量的信息进行分…1.引言　　随着网络技术的飞速发展和普及进入了信息大爆炸的时代。信息无处不在给我们的学习生活带来了诸多便捷由于堪称海量的信息量我们从中获取有用的信息变得困难解决这一难题就是要对这些大量的信息进行分类。SVM就是一种很好的信息分类方法。SVM技术在解决小样本、非线性及高维度的模式识别问题中表现出许多优势在许多领域如文本分类、图像识别、生物信息学等领域中得到了成功的应用。　　2.SVM的发展　　SVM是基于模式识别方法和统计学习理论的一种全新的非常有潜力的分类技术主要用于模式识别领域。1963年ATE-T Bell实验室研究小组在Vanpik的领导下首次提出了支持向量机SVM理论方法。这种方法是从样本集中选择一组样本对整个样本集的划分可以等同于对这组样本的划分这组样本子集就被形象地称之为支持向量SV。但在当时SVM在数学上不能明晰地表示人们对模式识别问题的研究很不完善因此SVM的研究没有得到进一步的发展与重视。　　1971年Kimeldorf提出了使用线性不等约束重新构造SV的核空间使一部分线性不可分的问题得到了解决。　　20世纪90年代一个比较完善的理论体系——统计学习理论Statistical Learning TheorySLT形成了此时一些新兴的机器学习方法如神经网络等的研究遇到了一些重大的困难比如欠学习与过学习问题、如何确定网络结构的问题、局部极小点问题等这两方面的因素使得SVM迅速发展和完善并在很多问题的解决中表现出许多特有优势而且能够推广应用到函数拟合等其他机器学习问题中从此迅速发展了起来目前已经成功地在许多领域里得到了成功应用。　　3.SVM的应用　　SVM的主要思想可以概括为如下两点　　1它是针对线性可分的情况进行分析的。对于线性不可分的情况通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分从而使得在高维特征空间中采用线性算法对样本的非线性特征进行线性分析成为可能。2它基于结构风险最小化理论在特征空间中构建最优分类面使得学习器能够得到全局最优化并且使整个样本空间的期望风险以某个概率满足一定上界。　　从上面的两点基本思想来看SVM没有使用传统的推导过程简化了通常的分类和回归等问题少数的支持向量确定了SVM 的最终决策函数计算的复杂性取决于支持向量而不是整个样本空间这就可以避免“维数灾难”。少数支持向量决定了最终结果这不但可以帮助我们抓住关键样本而且注定了该方法不但算法简单而且具有较好的“鲁棒”性。　　3.1人脸检测、验证和识别　　Osuna最早将SVM应用于人脸检测取得了较好的效果。其方法是直接训练非线性SVM分类器完成人脸与非人脸的分类。由于SVM的训练需要大量的存储空间并且非线性SVM分类器需要较多的支持向量速度很慢因此他提出了一种层次性结构的SVM分类器它由一个线性SVM的组合和一个非线性SVM组成。检测时由前者快速排除掉图像中绝大部分背景窗日而后者只需对少量的候选区域做出确认。　　3.2说话人/语音识别　　说话人识别属于连续输入信号的分类问题SVM是一个很好的分类器但不适合连续输入样本。为此引入了隐式马尔可夫模型HMM建立了SVM和HMM的混合模型。HMM适合处理连续信号而SVM适合分类问题HMM的结果反映了同类样本的相似度而SVM的输出结果则体现了异类样本间的差异。为了方便与HMM组成混合模型需要首先将SVM的输出形式改为概率输出。　　3.3文字/手写体识别　　贝尔实验室对美国邮政手写数字库进行的实验中人工识别平均错误率为2.500专门针对该特定问题设计的5层神经网络错误率为5.100其中利用了大量先验知识而用3种SVM方法采用3种核函数得到的错误率分别为2.000、2.1%和2.200且SVM是直接采用16X 16的字符点阵作为输入的表明了SVM的优越性能。　　3.4图像处理　　3.4.1图像过滤。一般的针对互联网色情图像的过滤软件主要采用网址库的形式封锁色情网址或采用人工智能方法对接收到的中、英文信息进行分析甄别。学者们提出了一种多层次特定类型图像过滤法即综合肤色模型检验、支持向量机分类和最近邻方法校验的多层系图像处理框架此方法能够达到85%以上的准确率。　　3.4.2视频字幕提取。视频字幕蕴含了丰富的语义可用于对相应视频流进行高级语义标注。研究人员提出并实践了基于SVM的视频字幕自动定位和提取的方法该方法首先将原始图像的帧分割为NXN的子块提取每个子块的灰度特征然后使用预先训练好的SVM分类机进行字幕子块和非字幕子块的分类最后结合金字塔模型和后期处理实现视频图像字幕区域的自动定位提取。　　3.4.3图像分类和检索。由于计算机自动抽取的图像特征和人所理解的语义间存在巨大差异图像检索的结果难以令人满意。近年来出现了相关反馈方法以SVM为分类器在每次反馈中对用户标记的正例和反例样本进行学习并根据学习所得的模型进行检索。相关研究人员使用了由9918幅图像组成的图像库进行了实验结果表明这种方法在训练样本有限的情况下具有良好的泛化功能。　　3.5其他方面的应用　　SVM除了在上述领域中得到了成功的应用外在其他领域如汽轮发电机组的故障诊断金融工程生物医药信号处理生物信息自适应信号处理手写体相似字识别岩爆预测的支持向量机缺陷识别等领域都有成功的应用。　　4.结语　　目前国际上关于SVM理论的讨论和深入的研究在逐渐广泛发展我国国内在此领域的研究尚处在萌芽状态需要及时学习掌握有关的理论知识开展有效的研究工作使国内在这个具有重要意义的领域中尽快赶上国际水平跟上国际发展步伐。 SVM分类算法的基本理论问题它分类的基本思想是利用最大间隔进行分类处理非线性问题是通过核函数将特征向量映射到高维空间从而变成线性可分的但是运算却是在低维空间运行的。考虑到数据中可能存在噪音还引入了松弛变量。理论是抽象的问题是具体的。站在岸上学不会游泳光看着梨子不可能知道梨子的滋味。本篇博客就是用SVM分类算法解决一个经典的机器学习问题–手写数字识别。体会一下SVM算法的具体过程理理它的一般性的思路。问题的提出人类视觉系统是世界上众多的奇迹之一。看看下面的手写数字序列大多数人毫不费力就能够认出这些数字为504192。如果尝试让计算机程序来识别诸如上面的数字就会明显感受到视觉模式识别的困难。关于我们识别形状——–“9顶上有一个圈右下方则是一条竖线”这样的简单直觉实际上算法很难轻易表达出来。 SVM分类算法以另一个角度来考虑问题。其思路是获取大量的手写数字常称作训练样本然后开发出一个可以从这些训练样本中进行学习的系统。换言之SVM使用样本来自动推断出识别手写数字的规则。随着样本数量的增加算法可以学到更多关于手写数字的知识这样就能够提升自身的准确性。本文采用的数据集就是著名的“MNIST数据集”。这个数据集有60000个训练样本数据集和10000个测试用例。直接调用scikit-learn库中的SVM使用默认的参数1000张手写数字图片判断准确的图片就高达9435张。 SVM的算法过程通常对于分类问题。我们会将数据集分成三部分训练集、测试集、交叉验证集。用训练集训练生成模型用测试集和交叉验证集进行验证模型的准确性。加载数据的代码如下 mnist_loader ~~~~~~~~~~~~ 一个加载模式识别图片数据的库。 #### Libraries # Standard library import cPickle import gzip# Third-party libraries import numpy as npdef load_data():返回包含训练数据、验证数据、测试数据的元组的模式识别数据训练数据包含50000张图片测试数据和验证数据都只包含10,000张图片f gzip.open(../data/mnist.pkl.gz, rb)training_data, validation_data, test_data cPickle.load(f)f.close()return (training_data, validation_data, test_data) 123456789101112131415161718192021222324123456789101112131415161718192021222324 SVM算法进行训练和预测的代码如下 mnist_svm ~~~~~~~~~ 使用SVM分类器从MNIST数据集中进行手写数字识别的分类程序 #### Libraries # My libraries import mnist_loader # Third-party libraries from sklearn import svm import timedef svm_baseline():print time.strftime(%Y-%m-%d %H:%M:%S) training_data, validation_data, test_data mnist_loader.load_data()# 传递训练模型的参数这里用默认的参数clf svm.SVC()# clf svm.SVC(C8.0, kernelrbf, gamma0.00,cache_size8000,probabilityFalse)# 进行模型训练clf.fit(training_data[0], training_data[1])# test# 测试集测试预测结果predictions [int(a) for a in clf.predict(test_data[0])]num_correct sum(int(a y) for a, y in zip(predictions, test_data[1]))print %s of %s test values correct. % (num_correct, len(test_data[1]))print time.strftime(%Y-%m-%d %H:%M:%S)if __name__ __main__:svm_baseline() 12345678910111213141516171819202122232425262728293031321234567891011121314151617181920212223242526272829303132 以上代码没有用验证集进行验证。这是因为本例中用测试集和验证集要判断的是一个东西没有必要刻意用验证集再来验证一遍。事实上我的确用验证集也试了一下和测试集的结果基本一样。呵呵直接运行代码结果如下 2016-01-02 14:01:46 9435 of 10000 test values correct. 2016-01-02 14:12:37123123 在我的ubuntu上运行11分钟左右就可以完成训练并预测测试集的结果。需要说明的是svm.SVC()函数的几个重要参数。直接用help命令查看一下文档这里我稍微翻译了一下 C : 浮点型可选 (默认1.0)。误差项的惩罚参数C kernel : 字符型, 可选 (默认’rbf’)。指定核函数类型。只能是’linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’ 或者自定义的。如果没有指定默认使用’rbf’。如果使用自定义的核函数需要预先计算核矩阵。 degree : 整形, 可选 (默认3)。用多项式核函数(‘poly’)时多项式核函数的参数d用其他核函数这个参数可忽略 gamma : 浮点型, 可选 (默认0.0)。’rbf’, ‘poly’ and ‘sigmoid’核函数的系数。如果gamma是0实际将使用特征维度的倒数值进行运算。也就是说如果特征是100个维度实际的gamma是1/100。 coef0 : 浮点型, 可选 (默认0.0)。核函数的独立项’poly’ 和’sigmoid’核时才有意义。可以适当调整一下SVM分类算法看看不同参数的结果。当我的参数选择为C100.0, kernel’rbf’, gamma0.03时预测的准确度就已经高达98.5%了。 SVM参数的调优初探 SVM分类算法需要调整的参数就只有几个。那么这些参数如何选取有没有一些经验性的规律呢核函数选择如上图线性核函数的分类边界是线性的非线性核函数分类边界是很复杂的非线性边界。所以当能直观地观察数据时大致可以判断分类边界从而有倾向性地选择核函数。参数gamma和C的选择机器学习大牛Andrew Ng说关于SVM分类算法他一直用的是高斯核函数其它核函数他基本就没用过。可见这个核函数应用最广。 gamma参数当使用高斯核进行映射时如果选得很小的话高次特征上的权重实际上衰减得非常快所以实际上数值上近似一下相当于一个低维的子空间反过来如果gamma选得很大则可以将任意的数据映射为线性可分——这样容易导致非常严重的过拟合问题。 C参数是寻找 margin 最大的超平面”和“保证数据点偏差量最小”之间的权重。C越大模型允许的偏差越小。下图是一个简单的二分类情况下不同的gamma和C对分类结果的影响。相同的Cgamma越大分类边界离样本越近。相同的gammaC越大分类越严格。下图是不同C和gamma下分类器交叉验证准确率的热力图由图可知模型对gamma参数是很敏感的。如果gamma太大无论C取多大都不能阻止过拟合。当gamma很小分类边界很像线性的。取中间值时好的模型的gamma和C大致分布在对角线位置。还应该注意到当gamma取中间值时C取值可以是很大的。在实际项目中这几个参数按一定的步长多试几次一般就能得到比较好的分类效果了。小结回顾一下整个问题。我们进行了如下操作。对数据集分成了三部分训练集、测试集和交叉验证集。用SVM分类模型进行训练依据测试集和验证集的预测结果来优化参数。依靠sklearn这个强大的机器学习库我们也能解决手写识别这么高大上的问题了。事实上我们只用了几行简单代码就让测试集的预测准确率高达98.5%。 SVM算法也没有想象的那么高不可攀嘛呵呵事实上就算是一般性的机器学习问题我们也是有一些一般性的思路的如下

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/91782.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！