一、逻辑回归基本概念
逻辑回归:用于解决二分类问题的统计学习方法,虽然名字中有"回归",但实际上解决的是分类问题。
核心思想:根据给定的输入特征,通过逻辑函数(Sigmoid函数)计算出样本属于某个特定类别的概率。
二、逻辑回归数学原理
- 线性组合
首先对输入特征进行线性组合:
z = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ - Sigmoid函数
将线性组合的结果映射到[0,1]区间:
σ(z) = 1 / (1 + e^(-z))
函数特性:
自变量:任意实数
值域:[0, 1]
图形:优美的S型曲线 - 概率解释
P(y=1|X) = σ(z):给定特征X时,样本属于类别1的概率
P(y=0|X) = 1 - σ(z):给定特征X时,样本属于类别0的概率 - 决策边界
设置阈值(通常为0.5)进行最终分类:
如果 P(y=1|X) ≥ 0.5,预测为类别1
如果 P(y=1|X) < 0.5,预测为类别0
三、逻辑回归代码实现
多分类策略:一对多(One-vs-Rest)
def train(self, max_iterations=1000):
cost_histories = []
for label_index, unique_label in enumerate(self.unique_labels):
current_lables = (self.labels == unique_label).astype(float)
数值优化:使用梯度下降
result = minimize(
lambda current_theta: LogisticRegression.cost_function(data, labels, current_theta),
current_initial_theta,
method='CG',
jac=lambda current_theta: LogisticRegression.gradient_step(...)
)
成本函数:交叉熵损失
@staticmethod
def cost_function(data, labels, theta):
predictions = LogisticRegression.hypothesis(data, theta)
cost = -np.mean(
labels * np.log(predictions) +
(1 - labels) * np.log(1 - predictions)
)
return cost
预测逻辑:概率最大化
def predict(self, data):
prob = LogisticRegression.hypothesis(data_processed, self.theta.T)
max_prob_index = np.argmax(prob, axis=1)
四、实战案例 鸢尾花
数据可视化 绘制散点图展示数据分布
for iris_type in iris_types:
plt.scatter(data[x_axis][data['class']iris_type],
data[y_axis][data['class']iris_type],
label=iris_type)
plt.show()
训练过程监控 绘制损失函数下降曲线
plt.plot(range(len(cost_histories[0])), cost_histories[0], label=labels[0])
plt.plot(range(len(cost_histories[1])), cost_histories[1], label=labels[1])
plt.plot(range(len(cost_histories[2])), cost_histories[2], label=labels[2])
plt.show()
决策边界可视化 生成网格坐标进行预测
for x_index, x in enumerate(X):
for y_index, y in enumerate(Y):
data = np.array([[x, y]])
prediction = logistic_regression.predict(data)[0][0]
绘制决策边界
plt.contour(X, Y, Z_SETOSA)
plt.contour(X, Y, Z_VERSICOLOR)
plt.contour(X, Y, Z_VIRGINICA)
plt.show()
五、进阶案例:微芯片测试数据
非线性分类问题 数据分布可视化
for validity in validities:
plt.scatter(
data[x_axis][data['validity'] == validity],
data[y_axis][data['validity'] == validity],
label=validity
)
特征工程
logistic_regression = LogisticRegression(x_train, y_train, polynomial_degree, sinusoid_degree)
生成非线性决策边界
for x_index, x in enumerate(X):
for y_index, y in enumerate(Y):
data = np.array([[x, y]])
Z[x_index][y_index] = logistic_regression.predict(data)[0][0]
六、学习总结
- 多分类处理:掌握了一对多策略实现多分类问题
- 优化算法:理解了梯度下降在逻辑回归中的应用
- 模型评估:通过损失函数曲线监控训练过程
- 可视化技巧:决策边界绘制帮助理解模型分类原理