月熊志网站wordpress当下载站
news/
2025/10/6 19:00:31/
文章来源:
月熊志网站,wordpress当下载站,做网站知识大全,制作网页一般需要兼容哪些网站1-线性回归#xff08;Linear Regression#xff09;
场景#xff1a;预测商品销售额
优点#xff1a;简单易用#xff0c;结果易于解释缺点#xff1a;假设线性关系#xff0c;容易受到异常值影响概念#xff1a;建立自变量和因变量之间线性关系的模型。公式#x…1-线性回归Linear Regression
场景预测商品销售额
优点简单易用结果易于解释缺点假设线性关系容易受到异常值影响概念建立自变量和因变量之间线性关系的模型。公式[ y b_0 b_1x_1 b_2x_2 ... b_nx_n ]
代码示例
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error# 假设我们有一个包含商品销售数据的DataFrame
data pd.DataFrame({item_sku_id: [100000350860, 100000350861, 100000350862, 100000350863],before_prefr_unit_price: [1499.0, 1599.0, 1399.0, 1299.0],after_prefr_unit_price: [1099.0, 1199.0, 999.0, 899.0],sale_qtty: [50, 60, 55, 65]
})# 特征和目标变量
X data[[before_prefr_unit_price, after_prefr_unit_price]]
y data[sale_qtty]# 分割数据集
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 训练模型
model LinearRegression()
model.fit(X_train, y_train)# 预测
y_pred model.predict(X_test)# 评估模型
mse mean_squared_error(y_test, y_pred)
print(fMean Squared Error: {mse})
结果与判断
通过模型预测销售量评估误差可以帮助改进定价策略。
2-逻辑回归Logistic Regression
场景预测订单是否有效
优点适用于二分类问题解释性强缺点不适用于多分类或连续型结果预测概念用于处理二分类问题输出值在0到1之间。公式[ P(Y1|X) \frac{1}{1 e^{-(b_0 b_1x_1 b_2x_2 ... b_nx_n)}} ]
代码示例
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix# 数据
data pd.DataFrame({user_actual_pay_amount: [976.0, 978.99, 979.0, 800.0, 850.0],total_offer_amount: [400.0, 400.0, 400.0, 200.0, 250.0],sale_ord_valid_flag: [1, 1, 1, 0, 0]
})X data[[user_actual_pay_amount, total_offer_amount]]
y data[sale_ord_valid_flag]# 分割数据集
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 训练模型
model LogisticRegression()
model.fit(X_train, y_train)# 预测
y_pred model.predict(X_test)# 评估模型
accuracy accuracy_score(y_test, y_pred)
cm confusion_matrix(y_test, y_pred)
print(fAccuracy: {accuracy})
print(fConfusion Matrix: \\n{cm})
结果与判断
通过预测订单有效性可以优化订单审核流程减少无效订单的产生。
3-决策树Decision Tree
场景根据用户行为特征分类用户等级
优点易于理解和解释可以处理非线性关系缺点容易过拟合概念通过一系列规则对数据进行分类或预测。公式决策树根据特征值进行分裂并构建一棵树状结构来表示决策过程。
代码示例
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report# 数据
data pd.DataFrame({user_actual_pay_amount: [976.0, 978.99, 979.0, 800.0, 850.0, 900.0],total_offer_amount: [400.0, 400.0, 400.0, 200.0, 250.0, 300.0],user_lv_cd: [10, 10, 10, 0, 0, 1]
})X data[[user_actual_pay_amount, total_offer_amount]]
y data[user_lv_cd]# 分割数据集
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 训练模型
model DecisionTreeClassifier()
model.fit(X_train, y_train)# 预测
y_pred model.predict(X_test)# 评估模型
report classification_report(y_test, y_pred)
print(fClassification Report: \\n{report})
结果与判断
分类用户等级帮助精准营销和个性化推荐。
4-随机森林Random Forest
场景预测用户实际支付金额
优点降低过拟合处理高维数据缺点训练时间长结果不易解释概念由多个决策树组成的集成学习模型。公式通过投票方式聚合多个决策树的预测结果来提高预测准确度。
代码示例
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score# 数据
data pd.DataFrame({item_sku_id: [100000350860, 100000350861, 100000350862, 100000350863],before_prefr_unit_price: [1499.0, 1599.0, 1399.0, 1299.0],after_prefr_unit_price: [1099.0, 1199.0, 999.0, 899.0],user_actual_pay_amount: [976.0, 978.99, 979.0, 875.0]
})X data[[before_prefr_unit_price, after_prefr_unit_price]]
y data[user_actual_pay_amount]# 分割数据集
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 训练模型
model RandomForestRegressor(n_estimators100)
model.fit(X_train, y_train)# 预测
y_pred model.predict(X_test)# 评估模型
r2 r2_score(y_test, y_pred)
print(fR2 Score: {r2})
结果与判断
预测用户支付金额优化促销策略和定价。
5-支持向量机SVM
场景分类订单是否取消
优点有效处理高维数据适合小样本缺点训练时间长参数调优复杂概念用于分类和回归的监督学习模型。公式通过找到最大边距超平面来划分不同类别数据点
代码示例
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score# 数据
data pd.DataFrame({user_actual_pay_amount: [976.0, 978.99, 979.0, 800.0, 850.0, 900.0],total_offer_amount: [400.0, 400.0, 400.0, 200.0, 250.0, 300.0],cancel_flag: [0, 0, 0, 1, 1, 1]
})X data[[user_actual_pay_amount, total_offer_amount]]
y data[cancel_flag]# 分割数据集
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 训练模型
model SVC()
model.fit(X_train, y_train)# 预测
y_pred model.predict(X_test)# 评估模型
accuracy accuracy_score(y_test, y_pred)
print(fAccuracy: {accuracy})
结果与判断
预测订单是否取消优化库存管理。
6-K-均值聚类K-Means Clustering
场景用户行为数据聚类分析
优点易于实现和解释缺点需要预先定义聚类数不适用于非球形数据概念将数据点划分为K个类别的无监督学习算法。公式最小化每个聚类中数据点与该聚类中心的距离的平方和。
代码示例
from sklearn.cluster import KMeans# 数据
data pd.DataFrame({user_actual_pay_amount: [976.0, 978.99, 979.0, 800.0, 850.0, 900.0],total_offer_amount: [400.0, 400.0, 400.0, 200.0, 250.0, 300.0]
})X data[[user_actual_pay_amount, total_offer_amount]]# 训练模型
kmeans KMeans(n_clusters2)
kmeans.fit(X)# 聚类结果
data[cluster] kmeans.labels_
print(data)结果与判断
聚类用户行为数据识别用户群体制定个性化营销策略。
7-主成分分析PCA
场景降维处理用户行为数据
优点降低数据维度去除冗余信息缺点解释性差可能丢失有用信息概念降维技术用于发现数据中的主要特征。公式通过线性变换将原始数据映射到低维空间使得数据在新空间中的方差最大化。
代码示例
from sklearn.decomposition import PCA# 数据
data pd.DataFrame({user_actual_pay_amount: [976.0, 978.99, 979.0, 800.0, 850.0, 900.0],total_offer_amount: [400.0, 400.0, 400.0, 200.0, 250.0, 300.0]
})X data[[user_actual_pay_amount, total_offer_amount]]# 降维处理
pca PCA(n_components1)
principalComponents pca.fit_transform(X)
data[principal_component] principalComponents
print(data)
结果与判断
降维处理后数据可视化更容易识别主成分简化模型。
8-时间序列分析Time Series Analysis
场景销售数据时间序列预测
优点适用于时间相关数据预测未来趋势缺点需要时间顺序数据复杂性高概念研究时间序列数据的模式、趋势和周期性并用于预测未来值。公式时间序列模型可以包括自回归模型AR、移动平均模型MA、自回归移动平均模型ARMA、自回归积分移动平均模型ARIMA等。
代码示例
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA# 数据
data pd.Series([976, 978.99, 979, 800, 850, 900], indexpd.date_range(start2020-01-01, periods6, freqM))# 训练模型
model ARIMA(data, order(1, 1, 1))
model_fit model.fit()# 预测
forecast model_fit.forecast(steps3)[0]
print(fForecast: {forecast})
结果与判断
预测未来销售趋势帮助库存管理和销售计划。
9-关联规则分析Association Rule Learning
场景购物篮分析
优点发现项间关联规则适合市场篮子分析缺点计算复杂度高规则解释性差概念用于发现数据集中的物品之间的关联关系常用于购物篮分析和市场篮分析。公式关联规则通常表示为“A ➞ B”的形式其中A和B是物品集合相关性通过支持度和置信度来衡量。
代码示例
from mlxtend.frequent_patterns import apriori, association_rules# 数据
data pd.DataFrame({milk: [1, 1, 0, 0, 1],bread: [1, 1, 1, 0, 1],butter: [0, 1, 1, 0, 1]
})# 频繁项集
frequent_itemsets apriori(data, min_support0.6, use_colnamesTrue)
# 关联规则
rules association_rules(frequent_itemsets, metriclift, min_threshold1)
print(rules)结果与判断
发现商品间的关联规则优化商品组合销售和促销策略。
10-XGBoost
场景提升模型的预测精度
优点处理大规模数据预测精度高缺点模型复杂计算资源消耗大概念集成学习方法通过训练多个弱分类器并加权组合得到一个强分类器。公式使用加权投票来提高分类准确率弱分类器的误差率会影响其权重。
代码示例
import xgboost as xgb
from sklearn.metrics import mean_squared_error# 数据
data pd.DataFrame({item_sku_id: [100000350860, 100000350861, 100000350862, 100000350863],before_prefr_unit_price: [1499.0, 1599.0, 1399.0, 1299.0],after_prefr_unit_price: [1099.0, 1199.0, 999.0, 899.0],user_actual_pay_amount: [976.0, 978.99, 979.0, 875.0]
})X data[[before_prefr_unit_price, after_prefr_unit_price]]
y data[user_actual_pay_amount]# 分割数据集
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 训练模型
model xgb.XGBRegressor(objective reg:squarederror)
model.fit(X_train, y_train)# 预测
y_pred model.predict(X_test)# 评估模型
mse mean_squared_error(y_test, y_pred)
print(fMean Squared Error: {mse})结果与判断
通过提升模型的预测精度优化业务决策和营销策略。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929614.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!