机器学习实操第一部分机器学习基础第5章支持向量机（SVM）

内容概要

第5章深入介绍了支持向量机（SVM），这是一种功能强大且应用广泛的机器学习模型。SVM适用于线性或非线性分类、回归以及 novelty detection。本章详细讲解了SVM的核心概念、训练方法以及在不同任务中的应用。通过理论和实践相结合的方式，读者将掌握如何使用SVM解决实际问题。
在这里插入图片描述

主要内容

线性SVM分类
- 硬间隔分类：在数据线性可分的情况下，寻找能够最大化间隔的决策边界。
- 软间隔分类：允许一些数据点位于间隔内或错误分类，以提高模型的泛化能力。通过调整正则化参数C来平衡间隔大小和容许的间隔违例。
非线性SVM分类
- 多项式核：通过添加多项式特征将数据映射到高维空间，使其线性可分。
- 高斯RBF核：利用径向基函数（RBF）核技巧，将数据映射到无限维空间，从而处理复杂的非线性关系。
- 相似性特征：通过计算数据点与特定地标（landmark）的相似性来构造新特征。
SVM回归
- 线性SVM回归：在回归任务中，SVM尝试拟合一个尽可能多的数据点位于其“街道”上的模型，同时限制间隔违例。
- 非线性SVM回归：使用核技巧来处理非线性回归问题。
SVM的数学原理
- 硬间隔和软间隔优化问题：通过二次规划（QP）问题来求解SVM的最优参数。
- 对偶问题：介绍SVM的对偶形式，以及如何通过核技巧来高效解决高维空间中的分类问题。
算法选择和计算复杂度
- LinearSVC：适用于线性SVM分类，计算复杂度较低，适合大规模数据集。
- SVC：支持核技巧，适用于中小型非线性数据集，但计算复杂度较高。
- SGDClassifier：使用随机梯度下降，适合在线学习和大规模数据集。

关键代码和算法

5.1 线性SVM分类

from sklearn.datasets import load_iris
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC# 加载数据
iris = load_iris(as_frame=True)
X = iris.data[["petal length (cm)", "petal width (cm)"]].values
y = (iris.target == 2)  # Iris virginica# 创建并训练线性SVM分类器
svm_clf = make_pipeline(StandardScaler(), LinearSVC(C=1, random_state=42))
svm_clf.fit(X, y)# 预测
X_new = [[5.5, 1.7], [5.0, 1.5]]
svm_clf.predict(X_new)

5.2 非线性SVM分类

from sklearn.svm import SVC
from sklearn.datasets import make_moons# 生成非线性数据
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)# 使用多项式核的SVM分类器
poly_kernel_svm_clf = make_pipeline(StandardScaler(),SVC(kernel="poly", degree=3, coef0=1, C=5)
)
poly_kernel_svm_clf.fit(X, y)# 使用高斯RBF核的SVM分类器
rbf_kernel_svm_clf = make_pipeline(StandardScaler(),SVC(kernel="rbf", gamma=5, C=0.001)
)
rbf_kernel_svm_clf.fit(X, y)

5.3 SVM回归

from sklearn.svm import LinearSVR, SVR# 线性SVM回归
svm_reg = make_pipeline(StandardScaler(), LinearSVR(epsilon=0.5, random_state=42))
svm_reg.fit(X, y)# 非线性SVM回归
svm_poly_reg = make_pipeline(StandardScaler(),SVR(kernel="poly", degree=2, C=0.01, epsilon=0.1)
)
svm_poly_reg.fit(X, y)

精彩语录

中文：SVM在小到中等规模的非线性数据集上表现出色，特别是对于分类任务。
英文原文：SVMs shine with small to medium-sized nonlinear datasets (i.e., hundreds to thousands of instances), especially for classification tasks.
解释：强调了SVM在处理中等规模非线性数据集时的优势。
中文：SVM对特征的尺度敏感，因此特征缩放是必要的。
英文原文：SVMs are sensitive to the feature scales.
解释：指出特征缩放对SVM性能的重要性。
中文：软间隔分类通过引入松弛变量来允许一定程度的间隔违例，从而提高模型的泛化能力。
英文原文：Soft margin classification allows some margin violations to improve the model’s generalization.
解释：介绍了软间隔分类的核心思想。
中文：核技巧使得SVM能够在高维空间中高效地进行分类，而无需显式地计算特征映射。
英文原文：The kernel trick makes it possible to get the same result as if you had added many polynomial features, even with a very high degree, without actually having to add them.
解释：解释了核技巧的工作原理及其优势。
中文：SVM回归通过调整间隔的大小来平衡模型的复杂度和预测误差。
英文原文：SVM regression tries to fit as many instances as possible on the street while limiting margin violations.
解释：总结了SVM回归的目标和方法。