异常值检测

#设定异常值比例
outliers_fraction = 0.01# 初始化 LSCP 探测集
detector_list = [LOF(n_neighbors=5), LOF(n_neighbors=10), LOF(n_neighbors=15),LOF(n_neighbors=20), LOF(n_neighbors=25), LOF(n_neighbors=30),LOF(n_neighbors=35), LOF(n_neighbors=40), LOF(n_neighbors=45),LOF(n_neighbors=50)]
classifiers = {'Angle-based Outlier Detector (ABOD)':ABOD(contamination=outliers_fraction),'Cluster-based Local Outlier Factor (CBLOF)':CBLOF(contamination=outliers_fraction,check_estimator=False, random_state=0),'Feature Bagging':FeatureBagging(LOF(n_neighbors=35),contamination=outliers_fraction,random_state=0),'Histogram-base Outlier Detection (HBOS)': HBOS(contamination=outliers_fraction),'Isolation Forest': IForest(contamination=outliers_fraction,random_state=0),'K Nearest Neighbors (KNN)': KNN(contamination=outliers_fraction),'Average KNN': KNN(method='mean',contamination=outliers_fraction),'Local Outlier Factor (LOF)':LOF(n_neighbors=35, contamination=outliers_fraction),'Minimum Covariance Determinant (MCD)': MCD(contamination=outliers_fraction, random_state=0),'One-class SVM (OCSVM)': OCSVM(contamination=outliers_fraction),'Principal Component Analysis (PCA)': PCA(contamination=outliers_fraction, random_state=0),'Locally Selective Combination (LSCP)': LSCP(detector_list, contamination=outliers_fraction,random_state=0)
}for i, clf in enumerate(classifiers.keys()):print('Model', i + 1, clf)
#将num_people和num_order合并成一个两列的numpy数组
X1= df['num_people'].values.reshape(-1,1)
X2 = df['num_order'].values.reshape(-1,1)
X = np.concatenate((X1,X2),axis=1)xx , yy = np.meshgrid(np.linspace(0, 1, 100), np.linspace(0, 1, 100))
plt.figure(figsize=(20, 15))
for i, (clf_name, clf) in enumerate(classifiers.items()):#训练数据clf.fit(X)# 预测异常值分数scores_pred = clf.decision_function(X) * -1# 预测异常值和正常值的数据y_pred = clf.predict(X)n_inliers = len(y_pred) - np.count_nonzero(y_pred)n_outliers = np.count_nonzero(y_pred == 1)df1 = dfdf1['outlier'] = y_pred.tolist()#过滤出num_people和num_order的正常值inliers_people = np.array(df1['num_people'][df1['outlier'] == 0]).reshape(-1,1)inliers_order = np.array(df1['num_order'][df1['outlier'] == 0]).reshape(-1,1)#过滤出num_people和num_order的异常值outliers_people = df1['num_people'][df1['outlier'] == 1].values.reshape(-1,1)outliers_order = df1['num_order'][df1['outlier'] == 1].values.reshape(-1,1)# 设定一个阈值用以识别正常值和异常值的标准threshold = np.percentile(scores_pred, 100 * outliers_fraction)#决策函数为每一个数据点计算异常值分数Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()]) * -1Z = Z.reshape(xx.shape)plt.subplot(3,4,i+1)#在图上对从最小的异常值分数到阈值的范围内进行分层着色plt.contourf(xx, yy, Z, levels=np.linspace(Z.min(), threshold, 7),cmap=plt.cm.Blues_r)#在异常值分数等于阈值处画红色线条a = plt.contour(xx, yy, Z, levels=[threshold],linewidths=2, colors='red')#填充橙色轮廓线，其中异常分数的范围是从阈值到最大异常分数plt.contourf(xx, yy, Z, levels=[threshold, Z.max()],colors='orange')b = plt.scatter(x=inliers_people, y=inliers_order, c='white',s=20, edgecolor='k')    c = plt.scatter(x=outliers_people, y=outliers_order, c='black',s=20, edgecolor='k')plt.axis('tight')   plt.legend([a.collections[0], b,c], ['决策函数', '正常值','异常值'],prop=matplotlib.font_manager.FontProperties(size=12),loc='upper right')plt.xlim((0, 1))plt.ylim((0, 1))ss = '异常值数量: '+str(n_outliers)+' 正常值数量: '+str(n_inliers)plt.title(clf_name)plt.xlabel(ss)
plt.show();

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/477978.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

异常值检测

相关文章

谷歌 | 多任务学习，如何挑选有效的辅助任务？只需一个公式！

LeetCode 888. 公平的糖果交换（哈希set）

剑指offer-python代码解释-习题解答-空白请点击阅读更多

OpenKG开源系列 | 面向知识的推理问答编程语言KoPL（清华大学）

前端组件化开发实践

LeetCode 937. 重新排列日志文件（自定义排序）

预训练时代微调新范式，高性能加速2800%，NLPer赶紧看过来！

论文浅尝 | GaussianPath: 用于知识图谱推理的贝叶斯多跳推理框架

老子【道德经】全文翻译（全81章）

RACSignal的Subscription深入分析

AllenAI 发布万能问答系统 MACAW！各类题型样样精通，性能大幅超越 GPT-3！

论文浅尝 | SMBOP: Semi-autoregressive Bottom-up Semantic Parsing

美团酒店Node全栈开发实践

统计学习方法总结

LeetCode 997. 找到小镇的法官（图的出度和入度）

哈工大｜NLP数据增强方法？我有15种

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

美团Android DEX自动拆包及动态加载简介

LeetCode 83. 删除排序链表中的重复元素（链表）

用多模态信息做 prompt，解锁 GPT 新玩法