K最近邻(K-Nearest Neighbors, KNN)

K最近邻(K-Nearest Neighbors, KNN)理论知识推导

KNN算法是一个简单且直观的分类和回归方法,其基本思想是:给定一个样本点,找到训练集中与其最近的K个样本点,根据这些样本点的类别(分类问题)或值(回归问题)来预测该样本点的类别或值。

距离度量

欧氏距离(Euclidean Distance)

曼哈顿距离(Manhattan Distance)

曼哈顿距离也称为L1距离或城市街区距离,适用于连续型和离散型变量。其计算公式为:

切比雪夫距离(Chebyshev Distance)

闵可夫斯基距离(Minkowski Distance)

余弦相似度(Cosine Similarity)

余弦相似度用于度量两个向量之间的角度差异,适用于文本数据和高维稀疏数据。其计算公式为:

汉明距离(Hamming Distance)

汉明距离用于度量两个字符串或向量之间不同字符或元素的数量,适用于离散变量。其计算公式为:

import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 生成随机多维数据
np.random.seed(42)
X = np.random.rand(200, 5)
y = np.random.choice([0, 1], size=200)# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 特征缩放
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)# 使用欧氏距离的KNN模型
knn_euclidean = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_euclidean.fit(X_train_scaled, y_train)
y_pred_euclidean = knn_euclidean.predict(X_test_scaled)
accuracy_euclidean = accuracy_score(y_test, y_pred_euclidean)# 使用曼哈顿距离的KNN模型
knn_manhattan = KNeighborsClassifier(n_neighbors=3, metric='manhattan')
knn_manhattan.fit(X_train_scaled, y_train)
y_pred_manhattan = knn_manhattan.predict(X_test_scaled)
accuracy_manhattan = accuracy_score(y_test, y_pred_manhattan)# 使用切比雪夫距离的KNN模型
knn_chebyshev = KNeighborsClassifier(n_neighbors=3, metric='chebyshev')
knn_chebyshev.fit(X_train_scaled, y_train)
y_pred_chebyshev = knn_chebyshev.predict(X_test_scaled)
accuracy_chebyshev = accuracy_score(y_test, y_pred_chebyshev)print(f'欧氏距离模型的准确率: {accuracy_euclidean}')
print(f'曼哈顿距离模型的准确率: {accuracy_manhattan}')
print(f'切比雪夫距离模型的准确率: {accuracy_chebyshev}')

选择最近的K个邻居

根据距离排序,选择距离最小的K个样本点。

投票或平均

对于分类问题,对这K个邻居的类别进行投票,得票最多的类别作为预测类别;对于回归问题,对这K个邻居的值取平均,作为预测值。

KNN的优缺点:
  • 优点

    • 简单易实现。
    • 不需要模型训练。
    • 对噪声数据不敏感(通过选择合适的K值)。
  • 缺点

    • 计算复杂度高,需要计算所有样本点的距离。
    • 存储复杂度高,需要存储所有训练数据。
    • 对数据的尺度敏感,需要进行标准化处理。

参数解读

  • n_neighbors:K值,即选择的最近邻居的数量。
  • weights:权重函数,用于预测。常用的有uniform(所有邻居权重相等)和distance(根据距离加权)。
  • metric:距离度量方法,默认是欧氏距离。

实施步骤

  1. 数据准备:准备训练数据集和测试数据集。
  2. 特征标准化:对数据进行标准化处理。
  3. 选择K值和距离度量方法:初始化KNN模型。
  4. 模型训练:KNN算法不需要训练过程,但需要拟合数据。
  5. 预测:对测试数据进行预测,并计算准确率或误差。
  • 选择K值:K值越小,模型越复杂;K值越大,模型越简单。一般通过交叉验证选择最佳K值。
  • 距离度量方法:常用欧氏距离,选择合适的距离度量方法可以提高模型性能。
  • 权重:uniform表示所有邻居权重相同,distance表示距离越近的邻居权重越大。

多维KNN模型

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.model_selection import GridSearchCV# 生成多维数据
np.random.seed(42)
X = np.random.rand(100, 3) * 100  # 三维特征数据
y = np.random.choice([0, 1], 100)  # 二分类标签# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 初始化KNN分类模型
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)# 预测
y_pred = knn.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'未优化分类模型的准确率: {accuracy:.2f}')# 使用网格搜索优化KNN分类模型
param_grid = {'n_neighbors': range(1, 21), 'weights': ['uniform', 'distance']}
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)best_knn = grid_search.best_estimator_
y_pred_optimized = best_knn.predict(X_test)accuracy_optimized = accuracy_score(y_test, y_pred_optimized)
print(f'优化后分类模型的准确率: {accuracy_optimized:.2f}')# 可视化三维数据分布和预测结果
fig = plt.figure(figsize=(18, 6))# 未优化模型结果
ax1 = fig.add_subplot(121, projection='3d')
ax1.scatter(X_test[:, 0], X_test[:, 1], X_test[:, 2], c=y_test, marker='o', label='True Labels')
ax1.scatter(X_test[:, 0], X_test[:, 1], X_test[:, 2], c=y_pred, marker='x', label='Predicted Labels')
ax1.set_title('未优化模型')
ax1.set_xlabel('Feature 1')
ax1.set_ylabel('Feature 2')
ax1.set_zlabel('Feature 3')
ax1.legend()# 优化后模型结果
ax2 = fig.add_subplot(122, projection='3d')
ax2.scatter(X_test[:, 0], X_test[:, 1], X_test[:, 2], c=y_test, marker='o', label='True Labels')
ax2.scatter(X_test[:, 0], X_test[:, 1], X_test[:, 2], c=y_pred_optimized, marker='x', label='Predicted Labels')
ax2.set_title('优化后模型')
ax2.set_xlabel('Feature 1')
ax2.set_ylabel('Feature 2')
ax2.set_zlabel('Feature 3')
ax2.legend()plt.show()

可视化展示

警告:D:\PyCharm\PyCharm2024.1.3\plugins\python\helpers\pycharm_matplotlib_backend\backend_interagg.py:80: UserWarning: Glyph 26410 (\N{CJK UNIFIED IDEOGRAPH-672A}) missing from font(s) DejaVu Sans.
  FigureCanvasAgg.draw(self)
D:\PyCharm\PyCharm2024.1.3\plugins\python\helpers\pycharm_matplotlib_backend\backend_interagg.py:80: UserWarning: Glyph 20248 (\N{CJK UNIFIED IDEOGRAPH-4F18}) missing from font(s) DejaVu Sans.
  FigureCanvasAgg.draw(self)
D:\PyCharm\PyCharm2024.1.3\plugins\python\helpers\pycharm_matplotlib_backend\backend_interagg.py:80: UserWarning: Glyph 21270 (\N{CJK UNIFIED IDEOGRAPH-5316}) missing from font(s) DejaVu Sans.
  FigureCanvasAgg.draw(self)
D:\PyCharm\PyCharm2024.1.3\plugins\python\helpers\pycharm_matplotlib_backend\backend_interagg.py:80: UserWarning: Glyph 27169 (\N{CJK UNIFIED IDEOGRAPH-6A21}) missing from font(s) DejaVu Sans.
  FigureCanvasAgg.draw(self)
D:\PyCharm\PyCharm2024.1.3\plugins\python\helpers\pycharm_matplotlib_backend\backend_interagg.py:80: UserWarning: Glyph 22411 (\N{CJK UNIFIED IDEOGRAPH-578B}) missing from font(s) DejaVu Sans.
  FigureCanvasAgg.draw(self)
D:\PyCharm\PyCharm2024.1.3\plugins\python\helpers\pycharm_matplotlib_backend\backend_interagg.py:80: UserWarning: Glyph 21518 (\N{CJK UNIFIED IDEOGRAPH-540E}) missing from font(s) DejaVu Sans.
  FigureCanvasAgg.draw(self)

结果解释

  1. 未优化分类模型

    • 准确率:显示未优化模型的分类准确率,通常受初始参数设置的影响。
    • 可视化:通过三维散点图展示真实标签和预测标签的分布情况,观察误分类样本的位置。
  2. 优化后分类模型

    • 准确率:通过网格搜索优化K值和距离度量方法后,显示优化后的分类准确率,通常高于未优化模型。
    • 可视化:通过三维散点图展示真实标签和优化后模型的预测标签分布情况,观察误分类样本的位置。

以上实例展示了KNN算法在未优化和优化后的性能差异,通过适当的参数调优,可以显著提升模型的预测效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/47068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu 22.04.4 LTS (linux) 安装iftop 监控网卡流量 软件

1 安装iftop sudo apt update sudo apt-get install iftop 2 监控网卡 sudo iftop -i eth0 -n -p 界面最上面&#xff0c;显示的是类似刻度尺的刻度范围&#xff0c;显示流量图形的长条作标尺用的。 中间的< >这两个左右箭头&#xff0c;表示的是流量的进出方向.TX&…

PTA - 嵌套列表求和

使用递归函数对嵌套列表求和 函数接口定义&#xff1a; def sumtree(L) L是输入的嵌套列表。 裁判测试程序样例&#xff1a; /* 请在这里填写答案 */L eval(input()) print(sumtree(L)) # 调用函数 输入样例&#xff1a; 在这里给出一组输入。例如&#xff1a; [1,[2…

邮件飞鸿:深入解析Laravel的邮件系统

邮件飞鸿&#xff1a;深入解析Laravel的邮件系统 在现代Web应用中&#xff0c;邮件服务是与用户交互的重要方式之一。Laravel&#xff0c;作为PHP界的流行框架&#xff0c;提供了一个强大而灵活的邮件系统。本文将深入探讨Laravel的邮件系统如何工作&#xff0c;并通过代码示例…

轻断食1.0.1-july 16th 冥想1.1.1

自己昨天晚上吃了豆皮以后&#xff0c;自己感觉自己还是很饿&#xff0c;然后随即自己又吃了一些东西&#xff08;其实自己可以控制的&#xff0c;但是没有办法&#xff0c;你不知道那种感觉&#xff1a;有一只该死的蚊子&#xff0c;老在自己的耳朵旁边嗡嗡乱飞。&#xff09;…

Python中的sorted()与list.sort():深入解析它们的效率差异

目录 Python中的sorted()与list.sort()&#xff1a;深入解析它们的效率差异内部实现与原理sorted()list.sort() 性能与内存使用内存消耗执行速度适用场景sorted()list.sort() 实例对比结论 Python中的sorted()与list.sort()&#xff1a;深入解析它们的效率差异 在Python编程中…

【Vue随笔】Vue中watch的不同写法

【写在前面】在实际开发中&#xff0c;我们要监听的属性可能是对象中的某个属性&#xff0c;除了对整个对象进行监听以外&#xff0c;我们可以用单引号包裹的形式监听对象中的某个属性。 watch: {searchFormModel.appKey: function (newVal) {if (newVal.includes(全部)) {if (…

昇思25天学习打卡营第23天|基于MindSpore的GPT2文本摘要

这节课主要学习基于MindSpore的GPT2文本摘要。主要包括环境安装、数据集加载与处理、模型构建、模型训练、模型推理五部分内容。 1.首先介绍环境安装 %%capture captured_output # 实验环境已经预装了mindspore2.2.14&#xff0c;如需更换mindspore版本&#xff0c;可更改下面…

go 编译ollama的时候报错:open /dev/null: no such file or directory

go 编译ollama的时候报错&#xff1a;open /dev/null: no such file or directory github.com/xtgo/set: /root/work/go/pkg/tool/linux_amd64/compile: open /dev/null: no such file or directory gonum.org/v1/gonum/blas/gonum: /root/work/go/pkg/tool/linux_amd64/compi…

Spark中的JOIN机制

Spark中的JOIN机制 1、Hash Join概述2、影响JOIN的因素3、Spark中的JOIN策略3.1、Shuffle Hash Join3.2、Broadcast Hash Join3.3、Sort Merge Join3.4、Cartesian Product Join2.5、Broadcast Nested Loop Join1、Hash Join概述 Apache Spark共提供了五种JOIN机制,其中常用的…

Laravel Horizon:任务队列的智能指挥官

Laravel Horizon&#xff1a;任务队列的智能指挥官 在现代Web应用中&#xff0c;处理耗时的任务通常需要异步执行&#xff0c;以避免阻塞主线程和影响用户体验。Laravel的Horizon任务系统是一个强大的后台工作管理器&#xff0c;它不仅优化了队列任务的处理&#xff0c;还提供…

【论文阅读】MCTformer+:弱监督语义分割的多类令牌转换器

【论文阅读】MCTformer:弱监督语义分割的多类令牌转换器 文章目录 【论文阅读】MCTformer:弱监督语义分割的多类令牌转换器一、介绍1.1 WSSS背景1.2 WSSS策略 二、联系工作2.1 弱监督语义分割2.2 transformers的可视化应用 三、MULTI-CLASS TOKEN TRANSFORMER3.1 Multi-class t…

读人工智能全传15意向立场

1. 物理立场 1.1. 可以解释一个实体行为 1.2. 在物理立场中&#xff0c;我们使用自然法则(物理、化学等)来预测系统的行为结果 1.3. 虽然物理立场在解释这种行为的时候非常有效&#xff0c;但无法应用于理解或者预测人类行为 1.3.1. …

java基础学习:序列化之 - hessian2

文章目录 一、介绍二、主要特点三、应用场景四、使用方式五、与其他序列化协议的比较六、总结 一、介绍 Hessian2是Hessian协议的一个更新版本&#xff0c;由Caucho Technology公司开发。Hessian是一种基于二进制的轻量级、高效的跨语言序列化协议。Hessian2相较于原始Hessian…

迭代器+反向迭代器

接上节内容&#xff0c;反向迭代器&#xff08;aoto的价值显示的更明显&#xff09; int main() {string s1("hello world");//string::reverse_iterator rit s1.rbegin();auto rit s1.rbegin();while (rit ! s1.rend()){(*rit) 3;cout << *rit << &…

解决 Vscode不支持c++11的语法

问题&#xff1a; 解决方案&#xff1a; 1、按 CtrlShiftP 调出命令面板&#xff0c;输入 C/C: Edit Configurations (UI) 并选择它。这将打开 C/C 配置界面 2、打开 c_cpp_properties.json 文件 3、编辑 c_cpp_properties.json 4、保存 c_cpp_properties.json 文件。 关闭并…

软设之模板方法模式

设计模式中模板方法模式的意图是:定义一个操作中的算法骨架&#xff0c;而将一些步骤延迟到子类中&#xff0c;使得子类可以不改变一个算法的结构即可重新定义算法的某些特定步骤。 打个比方&#xff0c;比如要制作蛋糕&#xff0c;有准备材料&#xff0c;搅拌材料&#xff0c…

防火墙---带宽管理

防火墙的带宽管理&#xff1a;是指对防火墙设备的带宽进行管理和控制&#xff0c;以确保网络流量的合理分配和优化网络性能 带宽管理&#xff1a;是指限制网络流量的速率或控制网络流量的优先级&#xff0c;以确保网络的性能和可用性 核心&#xff1a; 带宽限制&#xff1a;…

在ArcGIS Pro中新建空图层的最快方法

01常规方法 一般情况下&#xff0c;如果我们想新建一个要素图层&#xff0c;常规方法是&#xff1a; 在目录框中&#xff0c;找一个gdb数据库&#xff0c;右键——新建——要素类&#xff1a; 设置好各种属性&#xff1a; 创建结果如下&#xff1a; 最后将要素类拖入地图中即…

Android 音频通道切换HDMI,蓝牙,喇叭

Android 音频通道切换HDMI,蓝牙,喇叭 private void speakerSound() {if (soundOutput.equals("speaker")) {return;}soundOutput "speaker";audoManager (AudioManager) mContext.getSystemService(Context.AUDIO_SERVICE);audoManager.setMode(AudioMa…

GPU租赁教程/云主机使用教程/在线GPU环境部署/免费GPU/免费算力||运用云服务器,跑自己的深度学习模型(保姆级教程)

一、环境准备 pycharm professional&#xff08;需要pycharm专业版&#xff0c;社区版不行&#xff09;潞晨云账号访问链接&#xff0c;目前应该是最便宜的GPU租赁平台了&#xff0c;不知道之后会不会涨价&#xff0c;点我链接注册送10元代金券&#xff0c;能跑6个小时的4090w…