线性关系
x和y呈一条直线
优点
简单易懂
线性模型具有一定的稳定性。从技术角度,我们在评价模型的优劣好坏时,通常从两个维度去评判,一是模型预测的准确性,二是模型预测的稳健性,两者相辅相成、缺一不可。关于模型预测的准确性,如果模型能够尽可能的拟合了历史数据信息,拟合优度很高,损失的信息量很小,而且对于未来的预测都很接近真实的实际发生值,那么模型一般是被认为是质量较高的。而关于模型的稳健性,我们期望的是模型在对训练样本以外的样本进行预测时,模型的预测精度不应该有较大幅度的下降。一般来说,神经网络、决策树的预测准确性要优于判别分析和Logistic回归分析等线性分析,但是其稳健性弱于线性分析。
缺点
对于非线性数据或者数据特征间具有相关性多项式回归难以建模,难以很好地表达高度复杂的数据。比如针对商业银行信贷客户违约量化评估与预测问题,如果我们能够较为合理的判定信用风险和各个特征变量是一种线性关系,那么我们完全可以选择线性回归算法。但是如果我们无法较为合理的判定信用风险和各个特征变量之间的关系,那么使用神经网络、决策树建模技术可能就是更好的选择,这些相对更加复杂的建模技术对模型结构和假设施加最小需求,应用到响应变量和特征变量之间关系不明确的情形中。
技术
pandas、numpy、matplotlib、seaborn、statsmodels、sklearn等模块。其中pandas、numpy用于数据读取、数据处理、数据计算;matplotlib.pyplot、seaborn、probplot用于绘制图形,实现分析过程及结果的可视化;stats