🔰 开始第 1 章:AI、机器学习、数据科学(中英文对照)
(内容来自 PDF、录播1、课前预习全部相关段落)
第 1 章:AI、机器学习与数据科学
Chapter 1: AI, Machine Learning, and Data Science
1.1 什么是数据科学?
1.1 What is Data Science?
中文总结:
数据科学是一门跨学科领域,目标是 使用数据创造价值与洞察。
它结合统计、计算、机器学习、商业理解等知识,用数据解决真实问题。
PDF 与课堂强调:
-
数据科学旨在从数据中创造价值与洞察。
-
数据科学与 AI、机器学习、深度学习有大量重叠。
-
数据科学强调领域知识(Domain Knowledge),例如金融、医疗、营销等。
-
数据科学的成果可能是:
- 使用机器学习建立预测模型
- 使用仪表板(Dashboard)报告生成洞察
课堂补充(录播1):
- 数据科学是利用数据创造价值,例如预测模型或洞察报告。
- 广泛应用于医疗、金融、市场营销等行业。
English Summary:
Data Science is an interdisciplinary field aimed at creating value and insights from data.
It combines statistics, computing, machine learning, and domain knowledge.
Key points from lecture & PDF:
-
Data Science overlaps heavily with AI, ML, and Deep Learning.
-
Domain knowledge is essential (e.g., finance, healthcare).
-
Outputs of data science may be:
- predictive models using ML
- dashboards or reports showing insights
-
Its goal is to use data to solve real-world problems.
1.2 什么是人工智能(AI)?
1.2 What is Artificial Intelligence (AI)?
中文总结:
AI 是一种程序或系统,能够像人类一样学习与推理。
录播1说明:
- AI 是“具备像人类一样学习与推理能力的程序”。
- AI 是一个大集合。
English Summary:
AI refers to programs with the ability to learn and reason like humans.
It is the broad umbrella that includes machine learning and deep learning.
1.3 什么是机器学习(ML)?
1.3 What is Machine Learning (ML)?
中文总结:
机器学习是 AI 的子领域,其特点是:
机器学习使用算法从数据中学习,而不需要明确写出规则。
— 来自录播1
机器学习 ≠ 显式编写规则,而是让模型从示例中学习。
PDF 强调:
- ML 是 AI 的子集。
- 深度学习(Deep Learning)是 ML 的更小子集,需要大量数据。
English Summary:
Machine Learning is a subset of AI.
It refers to algorithms that learn patterns from data without being explicitly programmed.
Deep Learning is a subset of ML using neural networks trained on large datasets.
1.4 AI、ML、Deep Learning、Data Science 关系图(课堂口述版)
1.4 Relationship between AI, ML, Deep Learning, and Data Science
中文描述(根据课堂录播整理):
- AI 是最大圆
- 机器学习在 AI 内部
- 深度学习在 ML 内部(需要大量数据)
- 数据科学与 AI/ML 交叠,但强调使用数据创造价值与洞察,而不仅仅是建模
- 数据科学既用 ML,也用 Dashboard、统计、商业理解
(来自录播讲解)
English Description:
- AI is the largest umbrella
- ML is inside AI
- Deep Learning is inside ML (requires large datasets)
- Data Science overlaps with AI/ML but focuses on generating value from data, sometimes without ML
1.5 为什么要学习监督与非监督学习?
1.5 Why Learn Supervised & Unsupervised Learning?
中文总结(来自 PDF)
PDF 第 7 页列出了理由:
- 新数据科学家与工程师的必修基础
- 许多高级 AI 技术的基础(如深度学习、强化学习)
- 能解决广泛问题
- 与真实世界高度相关
- 能辅助商业与研究决策
- 跨行业通用(金融、医疗、营销…)
课堂补充:
- 这是数据科学职业的核心技能
- ChatGPT 多轮提问:“ChatGPT 是监督学习还是非监督?”(课堂讨论)
English Summary:
From the PDF:
- Foundational for new data scientists and AI engineers
- Basis for more advanced AI techniques
- Allows solving a wide range of problems
- Highly relevant in real-world applications
- Supports business and research decision-making
- Useful across industries such as finance, healthcare, marketing
Lecture highlights:
These form the core skill set for anyone entering data science or AI.
第 2 章:监督学习(Supervised Learning)
Chapter 2: Supervised Learning
2.1 监督学习是什么?
2.1 What is Supervised Learning?
中文总结(来自 PDF)
监督学习有两个核心要素:
- 特征 X(Features)
- 有标签的目标 Y(Labelled Target)
任务目标:
根据已有的“正确答案(标签)”训练模型,让模型学会从 X 预测 Y。
— PDF 第 8 页
监督学习特点:
- 数据中包含 地面真值 Ground Truth
- 模型通过大量带标签示例学习 X 与 Y 的关系
- 学习后可以预测新的 Y
- 模型训练过程实际是在寻找 最佳拟合(Best Fit) 的数学关系
录播补充:
- 监督学习本质是“用大量例子教电脑如果输入是 X,该给出什么输出 Y”。
- 训练的目的是 降低误差(Error),让预测尽量接近真实标签。
English Summary:
Supervised learning uses:
- Features X
- Labelled target Y
The goal is to learn a mathematical model that maps X → Y using labelled examples.
Key properties:
- Training data contains ground truth
- The model learns the relationship between X and Y
- After training, it predicts Y for unseen X
- It finds the “best fit” function that minimizes error
- Essentially: learn from examples with correct answers
2.2 监督学习的两大任务类型
2.2 Two Major Tasks in Supervised Learning
中文总结:
监督学习分两类:
| 任务类型 | 输出类型 | 示例 |
|---|---|---|
| 回归 Regression | 连续值 | 房价预测、温度预测 |
| 分类 Classification | 离散类别 | Spam vs Not spam |
(来自 PDF 第 19 页)
课堂补充(录播 1、录播 2):
- 分类可以是二分类(0/1)或多分类(0/1/2/3…)。
- 回归的典型任务是预测“多少”。
- 分类是预测“属于哪一类”。
English Summary:
| Task Type | Output | Examples |
|---|---|---|
| Regression | Continuous values | House prices, temperature |
| Classification | Categorical labels | Spam detection, fraud classification |
Regression predicts “how much”, classification predicts “which category”.
2.3 监督学习典型示例(PDF + 课堂)
2.3 Typical Examples of Supervised Learning
以下例子来自 PDF(房价、Spam、Fraud),课堂补充加入 Churn(客户流失)案例。
例子 1:房价预测(线性回归)
Example 1: House Price Prediction (Linear Regression)
来自 PDF:
- X:房屋面积(sqft)
- Y:房价
- 数据点是蓝点
- 回归线是红线(最佳拟合线)
课堂补充:
- 这是最经典的回归问题
- 一张散点图,线性关系很明显
- “房子越大,价格越高”,模型会学到这条规律
例子 2:垃圾邮件分类(Logistic Regression)
Example 2: Spam Classification (Logistic Regression)
PDF 图示:
- X1:email 单词数量
- X2:spam 关键字数量
- 蓝色点:Not spam
- 红色点:Spam
- 模型找出红蓝之间的 决策边界(Decision Boundary)
课堂补充:
- 不一定只有两个特征
- 实际 Spam 分类可能有数千个特征(TF-IDF、embedding 等)
例子 3:金融欺诈检测(Fraud Detection)
Example 3: Financial Fraud Detection
PDF 重点:
- 欺诈案例极少,因此监督学习难度大
- 但领域专家会提供规则(如可疑交易模式)
- 这些规则可生成“伪标签”(synthetic labels)供模型初训
- 体现了领域知识的重要性
课堂补充:
- 真实世界中的 Fraud 数据非常不平衡
- 可能 0.01% 是 fraud
- 模型不能只追求 Accuracy
- 更重要的是 Recall(能抓到尽可能多 fraud)
例子 4:客户流失预测(Churn Prediction)
Example 4: Customer Churn Prediction
(来源:录播 2)
课堂讲解流程:
-
输入特征(X):
- 性别、年纪、信用分数、余额、是否有信用卡等
-
标签(Y):
- 1 = 会流失
- 0 = 不会流失
-
目标:
- 找到哪些因素最影响流失
-
输出可用于商业:
- 哪些人容易流失
- 应该给他们什么优惠策略
课堂补充:
-
这类任务常用模型:
- Logistic Regression
- Decision Tree
- Random Forest
- XGBoost
-
也强调 EDA:分布图、箱线图、相关性矩阵等。
2.4 监督学习的数学结构(总体概念)
2.4 Mathematical Structure of Supervised Learning
数学基础来自 PDF:
监督学习要找一个函数:
[
f_{w,b}(X) = Y
]
我们要找最好的参数(w, b)。
PDF 说明:
- 最佳参数通过最小化 损失函数(Loss Function) 获得
- 回归使用 Mean Squared Error
- 分类使用 Log Loss(交叉熵)
(详细数学推导将在下一章节展开)
English Summary:
Supervised learning aims to approximate a function:
[
f_{w,b}(X) \to Y
]
Parameters ( w ) and ( b ) are optimized by minimizing a loss function:
- MSE for regression
- Cross-entropy for classification
2.5 监督学习工作流程(完整管线)
2.5 Supervised Learning Workflow (Full Pipeline)
课堂录播 1 + 录播 2 综合总结:
中文版:
- 数据清洗
- EDA(统计、分布图、箱线图)
- 特征工程(编码、标准化)
- 划分训练集 / 测试集
- 模型选择(LR / RF / XGBoost 等)
- 训练(Fit)
- 评估:Accuracy、Recall、F1、AUC
- 避免过拟合:CV、正则化、更多数据
- 部署与业务解释
English Version:
- Data cleaning
- Exploratory Data Analysis (EDA)
- Feature engineering
- Train–test split
- Model selection
- Fit / train the model
- Metrics: Accuracy, Recall, F1, AUC
- Avoid overfitting via cross-validation
- Deployment and business interpretation
2.6 本章要点总结(中英双语)
中文总结:
- 监督学习需要 X 和 Y(有标签)
- 包含回归与分类
- 房价预测 → 回归
- Spam、欺诈检测、Churn → 分类
- 模型学习 X 与 Y 的关系
- 训练的目标是“最小化误差”
- 常见模型:线性回归、逻辑回归、树模型、SVM、NN
English Summary:
- Supervised learning uses labelled datasets
- Two major tasks: regression & classification
- House price → regression
- Spam, fraud, churn → classification
- Model learns the mapping between X and Y
- Training minimizes prediction error
- Popular models: LR, Logistic, Tree-based, SVM, NN
第 3 章:线性回归数学模型(Linear Regression)
Chapter 3: Mathematical Model of Linear Regression
3.1 线性回归的目标(PDF + 课堂)
3.1 Goal of Linear Regression
中文总结:
线性回归的目标是:
找到一条最佳拟合线(Best Fit Line)来描述 X 与 Y 的关系。
— PDF 第 11 页
如果有一个输入 (x),我们希望预测对应的输出 (y):
[
\hat{y} = f_{w,b}(x)
]
其中:
- ( w ):斜率
- ( b ):截距
课堂补充(录播 1):
- 你可以把线性回归理解为“找一条最合理的直线,使误差最小”。
- 这条直线表示“随着 X 增加,Y 如何变化”。
English Summary:
Linear Regression aims to:
Find the best-fit straight line that represents the relationship between X and Y.
The prediction function:
[
\hat{y} = f_{w,b}(x)
]
where:
- ( w ) = slope
- ( b ) = intercept
The goal is to choose (w) and (b) such that the prediction error is minimized.
3.2 线性回归模型公式(核心)
3.2 Linear Regression Model Formula
来自 PDF:
[
f_{w,b}(x) = wx + b
]
中文解释:
- 如果 ( w > 0 ),直线向上倾斜 → 正相关
- 如果 ( w < 0 ),直线向下倾斜 → 负相关
- ( b ) 表示直线与 y 轴的交点
直观意义(课堂讲述):
w 决定趋势,b 决定起点。
比如预测房价:
- w 是 “每增加 1 sqft,价格增加多少”
- b 是基础价格
English Explanation:
The function:
[
f_{w,b}(x) = wx + b
]
Interpretation:
- ( w ): determines how y changes as x increases
- ( b ): the base value when x = 0
In house pricing:
- ( w ): how much price goes up with each square foot
- ( b ): minimum base price of a property
3.3 如何衡量模型是否拟合得好?(损失函数 Loss)
3.3 How Do We Measure Model Error? (Loss Function)
来自 PDF:
线性回归使用 均方误差 MSE:
[
J(w,b) = \frac{1}{m} \sum_{i=1}^{m} (f_{w,b}(x^{(i)}) - y{(i)})2
]
中文解释:
- ((\hat{y} - y)^2):预测与真实值差距
- 全部样本求平均
- 目标:让 J 越小越好
录播补充:
-
为什么要平方?
- 避免正负抵消
- 惩罚大误差(outlier)
-
为什么取平均?
- 与样本量无关,便于不同任务比较
English Explanation:
Mean Squared Error (MSE):
- Squares punish larger errors
- Averaging makes the loss independent of dataset size
- The objective is to minimize ( J(w,b) )
3.4 如何找到最佳的 w 和 b?(梯度下降 Gradient Descent)
3.4 How Do We Find the Best w and b? (Gradient Descent)
课堂内容(录播 1、录播 2)讲得非常清晰:
梯度下降是不断沿着让 Loss 下降最快的方向移动。
梯度下降更新公式:
[
w := w - \alpha \frac{\partial J}{\partial w}
]
[
b := b - \alpha \frac{\partial J}{\partial b}
]
其中:
- ( \alpha ) = 学习率 Learning Rate
- ( \frac{\partial J}{\partial w} )、( \frac{\partial J}{\partial b} ) = 微分(斜率)
中文直观解释(课堂示例):
讲师比喻:
- 想像你在山上摸黑往下走
- 山底就是最小 Loss
- 斜率最大的方向,就是最快下降方向
- 一步步往下走,就到达最低点
学习率 α 的意义:
| α 太大 | α 太小 |
|---|---|
| 会直接跳过最低点、甚至发散 | 收敛非常慢 |
课堂特别强调:
GD 的目标不是找到完美直线,而是使 Loss 足够小。
English Explanation:
Gradient descent:
- Moves parameters in the opposite direction of the gradient
- Learning rate controls step size
- If α is too large → divergence
- If α is too small → slow convergence
Goal: reach the minimum of the loss function.
3.5 单变量 → 多变量(多特征的线性回归)
3.5 Single Variable → Multivariable Linear Regression
课堂补充:
-
不只可以用一个特征(如房屋面积)
-
实际模型会用很多特征,例如:
- 地段(location)
- 房龄(age)
- 卧室数量(#bedrooms)
- 学区评分(school score)
多变量形式:
[
\hat{y} = w_1x_1 + w_2x_2 + \dots + w_nx_n + b
]
English Version:
Real models use many features:
[
y = w_1x_1 + w_2x_2 + \dots + w_nx_n + b
]
Example:
House price depends on size, location, age, number of rooms, etc.
3.6 线性回归的假设(课堂补充重要)
课堂提到的关键假设:
-
线性关系(Linearity)
- X 与 Y 的关系大致线性
-
独立性(Independence)
-
同方差性(Homoscedasticity)
-
误差项符合正态分布(Normality)
课堂强调:
不是完全必须,但假设越接近,性能越好。
3.7 什么时候不能用线性回归?
课堂讲师举例说明:
| 不适合情况 | 原因 |
|---|---|
| 非线性关系(如曲线) | 直线无法拟合 |
| 分类任务 | 输出不是连续值 |
| 高多重共线性特征 | w 不稳定 |
| 大量 outliers | MSE 会被放大 |
3.8 本章总结(双语)
中文重点:
- 线性回归目标:找到最佳拟合线
- 模型公式:( y = wx + b )
- 使用 MSE 损失 衡量误差
- 使用 梯度下降 求 w 与 b
- 学习率影响收敛速度
- 现实中常用多特征线性回归
English Key Points:
- Goal: best-fit line for X and Y
- Model: ( y = wx + b )
- Loss: Mean Squared Error
- Optimization: Gradient Descent
- α controls speed & stability
- Multiple features used in practice
第 4 章:逻辑回归与分类模型(Classification Models)
Chapter 4: Logistic Regression and Classification
4.1 为什么需要分类模型?
4.1 Why Do We Need Classification Models?
中文总结:
当输出不是连续数值,而是类别(category)时,就需要分类模型。
典型任务:
- Email 是否 Spam(0/1)
- 客户是否流失(0/1)
- 交易是否欺诈(0/1)
- 图像属于哪种物体(0/1/k 类)
这些问题都无法用线性回归,因为线性回归输出是连续值,不限制在 0~1。
English Summary:
Classification models are needed when predicting categories, not continuous values.
Examples:
- Spam vs non-spam
- Churn prediction
- Fraud detection
- Image classification
Linear regression is not suitable because its output is unbounded and continuous.
4.2 逻辑回归模型是什么?
4.2 What Is Logistic Regression?
PDF 说明:
Logistic Regression 使用一个 Sigmoid 函数 将输出值压缩到 0–1 之间。
然后以 0.5 作为阈值,高于 0.5 → 1 类,低于 0.5 → 0 类。
4.2.1 Sigmoid(S 型函数)
[
\sigma(z) = \frac{1}{1 + e^{-z}}
]
其中:
[
z = w x + b
]
Sigmoid 输出范围:
- 趋近 0 → 属于 0 类
- 趋近 1 → 属于 1 类
中文直观解释(课堂)
讲师举例:
- “如果模型认为邮件很可能是 spam,则输出会接近 1。”
- “如果模型认为几乎不是 spam,则输出会接近 0。”
Sigmoid 的好处:
- 输出永远限制在 0~1
- 可以解释成“概率”
- 天然适合二分类问题
课堂强调:
Logistic Regression 本质上仍然是线性模型,它只是把线性结果通过 sigmoid 转成概率。
它不是“回归”,而是“分类”。
—(录播 1)
English Explanation:
Logistic Regression uses the sigmoid function to convert linear outputs into probabilities.
Advantages:
- Output always between 0 and 1
- Interpretable as probability
- Natural for binary classification
Despite its name, Logistic Regression is used for classification, not regression.
4.3 决策边界(Decision Boundary)
4.3 Decision Boundary
PDF 中的 Spam 示例(图示):
- 蓝色点 = Not Spam
- 红色点 = Spam
- 两者中间的一条曲线(或直线) = 决策边界
- 输入位于边界上方 → Spam
- 输入位于边界下方 → Not Spam
中文解释:
决策边界是模型学到的“分界线”。
逻辑回归的决策边界通常是:
- 一条直线(2D)
- 一个平面(3D)
- 一个超平面(更高维)
课堂补充:
- 如果特征关系是非线性的,可以通过加入高次项或使用 tree-based 模型改善效果。
English Explanation:
The decision boundary is the dividing line separating classes.
In logistic regression:
- It is linear in the original feature space
- Higher-dimensional boundaries are hyperplanes
If the relationship is nonlinear, more advanced models may be needed.
4.4 常见分类案例(PDF + 课堂)
4.4 Common Classification Examples
4.4.1 Email Spam Classification(PDF)
PDF 情境:
- X1 = email 单词数量
- X2 = spam 关键词数量
- 蓝色区域 = 非垃圾
- 红色区域 = 垃圾邮件
- 决策边界分隔两类
课堂补充:
实际 Spam 模型可能有:
- 数千维的 TF-IDF 特征
- 或者直接使用 embedding 特征
4.4.2 金融欺诈检测(PDF)
PDF 强调:
- 欺诈样本极少,不平衡严重
- 领域专家规则可以生成伪标签
- 用做模型初训的重要来源
课堂补充(录播 1):
- Fraud detection 的重点是 Recall
- 因为漏掉一个欺诈会造成巨大损失
- Accuracy 在此任务毫无意义(因为几乎所有都是 0)
4.4.3 客户流失预测(Churn Prediction,课堂)
来自录播 2:
- 输入:性别、信用分、是否有信用卡、地区、余额等
- 输出:是否流失(0/1)
- 常用 Logistic Regression + Random Forest
- 需要混淆矩阵评估模型
4.5 分类模型的评价指标(课堂重点)
4.5 Evaluation Metrics for Classification
这一部分是课堂最强调的内容之一。
4.5.1 混淆矩阵(Confusion Matrix)
矩阵形式:
| 预测 1 | 预测 0 | |
|---|---|---|
| 实际 1 | TP | FN |
| 实际 0 | FP | TN |
课堂公式:
- TP(True Positive):真实为 1,被预测为 1
- TN(True Negative):真实为 0,被预测为 0
- FP(假阳性):模型误报
- FN(假阴性):模型漏报(特别严重)
课程强调:
Fraud / Churn / 医疗诊断 → FN 比 FP 更致命。
4.5.2 Precision(精确率)
[
\text{Precision} = \frac{TP}{TP + FP}
]
“被预测为 1 中,有多少是真的 1”。
4.5.3 Recall(召回率)
[
\text{Recall} = \frac{TP}{TP + FN}
]
课堂强调:
Recall 越高,漏掉的 1 越少。
适用任务:
- 欺诈
- 癌症检测
- Churn
- 安全监控
4.5.4 F1-score(调和平均)
[
F1 = 2 \times \frac{Precision \cdot Recall}{Precision + Recall}
]
用于衡量模型在 Precision 与 Recall 之间的平衡。
4.5.5 AUC(Area Under ROC Curve)
PDF 第 24 页:
- AUC 越接近 1,模型越好
- 0.5 = 随机模型
- 曲线越往左上角贴近,效果越好
课堂补充:
AUC 的好处:
- 不依赖阈值
- 适合不平衡数据集
4.6 Logistic Regression 的局限
课堂讲师指出:
- 只能处理线性可分问题
- 对异常值敏感(需要标准化)
- 模型简单,无法捕捉复杂关系
- 当数据高度非线性 → Tree-based、XGBoost 更好
4.7 本章总结(中英双语)
中文总结:
- Logistic Regression 是分类模型(不是回归)
- 使用 Sigmoid 将线性结果压缩成概率
- 0/1 分类通过阈值实现
- 决策边界通常为直线/平面
- 分类模型的核心指标:Precision、Recall、F1、AUC
- Fraud/Churn 更关注 Recall
- 模型若要应对复杂关系,需要更强模型
English Summary:
- Logistic Regression is a classification algorithm
- Uses sigmoid to convert linear output into probability
- Decision boundary is linear
- Key evaluation metrics: Precision, Recall, F1, AUC
- For fraud & churn, Recall is crucial
- For nonlinear relationships, more advanced models are needed
第 5 章:非监督学习(Unsupervised Learning)
Chapter 5: Unsupervised Learning
5.1 什么是非监督学习?(PDF)
5.1 What Is Unsupervised Learning?
📌 PDF 第 17 页核心定义:
中文总结:
非监督学习的核心特点:
-
输入数据只有 特征 X
-
没有标签 Y(无地面真值 Ground Truth)
-
目标:
- 在数据中自动发现结构、分布、模式
- 识别相似样本
- 找到数据隐藏的群组
模型必须 自己推断 哪些数据属于同组。
因此它适合:
- 结构未知的数据
- 大规模数据探索
- 降维、聚类、特征发现、多模态数据分析
课堂补充(录播 1):
非监督学习的重点不是预测,而是“理解数据内部的结构”。
它用于回答:哪些数据点比较像?哪些群体天然存在?
English Summary:
Unsupervised learning uses:
- Input features X only
- No labelled target Y
Goals:
- Discover patterns in data
- Identify clusters
- Reveal hidden structures
- Group similar data points
It is ideal for exploratory analysis, dimensionality reduction, and pattern discovery.
5.2 非监督学习能做什么?(课堂 + PDF)
5.2 What Can Unsupervised Learning Do?
PDF 列举主要任务:
- 聚类(Clustering)
- 模式发现(Pattern Discovery)
- 关联规则(Association)
- 降维(Dimensionality Reduction)
课堂补充(录播 2):
- 可以帮助你了解数据分布是否自然分组
- 可以用来 先分群,再进行监督学习(例如客户分群 → 每组训练不同模型)
- 在缺乏标签的情况下非常有用
English Summary:
Unsupervised learning can:
- Cluster data
- Discover hidden patterns
- Find associations
- Reduce dimensionality
- Help pre-processing before supervised models
5.3 聚类(Clustering)——最重要的非监督任务
5.3 Clustering — The Core of Unsupervised Learning
核心思想:
将相似的数据点分到同一个群组(Cluster),不同组之间尽可能不同。
5.4 客户分群(Customer Segmentation)(PDF + 课堂重点)
5.4 Customer Segmentation (PDF + Lecture Focus)
这是 PDF 的重中之重。PDF 第 18 页提供完整说明:
中文总结:
客户分群的目的:
- 企业希望按客户属性分组
- 以便进行个性化营销与精准定价策略
- 不同群组有不同消费行为,需要不同策略
常用特征有 4 大类:
(1)地理特征 Geographic Features
例如:
- 国家
- 城市
- 邮编
- 区域
适用场景:
- 不同地区购买力不同
- 运费、物流策略不同
(2)人口统计特征 Demographic Features
例如:
- 年龄
- 性别
- 收入
- 职业
用来区分典型消费族群(年轻人 vs 高收入人群等)。
(3)行为特征 Behavioral Features
例如:
- 过去购买记录
- 消费频率
- 消费金额
- 购买时间(如黑五)
这是企业最关注的特征之一。
(4)心理特征 Psychological Features
例如:
- 个性
- 兴趣
- 信念
- 价值观
从用户态度角度分群。
English Summary:
Customer segmentation groups customers based on:
- Geographic: country, city, zip code
- Demographic: age, gender, income
- Behavioral: purchase history, spending habits
- Psychological: attitudes, interests, personality
Purpose:
- Better personalization
- Improved pricing strategy
- Targeted marketing
- Higher retention
5.5 主流聚类算法(课堂补充)
5.5 Major Clustering Algorithms (Lecture)
课堂补充了常见聚类算法(PDF 未列出,但讲师补充了实践内容):
(1)K-Means(最常见)
特点:
- 简单,可扩展
- 使用距离(欧氏距离)来分群
- 群心(centroid)不断更新
- 需要提前指定 k 值
课堂代码演示常用:
sklearn.cluster.KMeans
(2)层次聚类(Hierarchical Clustering)
特点:
- 不需要指定 k
- 通过合并 / 分裂形成树状图(Dendrogram)
- 更适合小数据集
(3)DBSCAN(Density-Based Clustering)
特点:
- 能发现任意形状的簇
- 擅长处理噪声
- 不需要 k
- 密度参数 eps 与 min_samples 控制结果
English Summary:
Popular clustering methods:
- K-Means: efficient, widely used, requires specifying k
- Hierarchical: builds a tree structure, good for small datasets
- DBSCAN: density-based, identifies arbitrary shapes, good with noise and outliers
5.6 聚类算法的直观理解(PDF 图示解释)
5.6 Intuitive View of Clustering (PDF Visualization)
PDF 提示:
- 未标注数据点呈多个自然簇(cluster)
- 模型目标是学习这些簇的边界
- 不用标签也能知道哪些数据属于同组
课堂补充:
聚类不是预测某个具体输出,而是“理解数据结构”。
例如:3 个 cluster → 3 类客户 → 3 种不同营销策略。
5.7 监督 vs 非监督:什么时候用哪个?(PDF)
5.7 When to Use Supervised vs Unsupervised?
PDF 第 19 页总结了区别:
| 类型 | 监督学习 Supervised | 非监督学习 Unsupervised |
|---|---|---|
| 是否需要标签 | 必须 | 不需要 |
| 输出 | 预测 Y | 发现结构 |
| 任务类型 | 分类、回归 | 聚类、关联 |
| 适用领域 | 金融、医疗、营销预测 | 市场分群、推荐系统、购物篮分析 |
课堂补充:
非监督学习常用于“预处理”或“探索数据”;监督学习常用于“预测业务指标”。
5.8 本章总结(双语)
中文总结:
- 非监督学习只依赖 X,不需要 Y
- 核心用途:发现模式、结构、群组
- 聚类(Clustering)是最重要任务
- 客户分群四大特征:地理、人口、行为、心理
- 常用算法:K-Means、Hierarchical、DBSCAN
- 非监督学习是业务策略制定的重要工具(营销、产品、定价)
English Summary:
- Unsupervised learning uses only X (no labels)
- Main goal: discover hidden patterns and groups
- Clustering is the core task
- Customer segmentation relies on geographic, demographic, behavioral, psychological features
- Key algorithms: K-Means, Hierarchical, DBSCAN
- Useful for marketing, personalization, recommendation, pricing
第 6 章:监督学习 vs 非监督学习对比(Comparison)
Chapter 6: Comparison Between Supervised and Unsupervised Learning
6.1 核心区别:是否有标签(Label)
中文 / Chinese:
| 项目 | 监督学习 Supervised Learning | 非监督学习 Unsupervised Learning |
|---|---|---|
| 是否需要标签 Y? | ✔ 需要标签(Ground Truth) | ✘ 不需要标签 |
| 输入 | X + Y | 只有 X |
| 输出 | 预测 Y | 发现数据结构(clusters、patterns) |
| 核心问题类型 | 分类(Classification) 回归(Regression) | 聚类(Clustering) 关联(Association) |
| 目标 | 找到 X → Y 的映射关系 | 发现隐藏模式、结构、群组 |
| 可解释性 | 预测结果可与真实值比较 | 没有“正确答案”,只能衡量群组结构 |
(来源:PDF 第 19 页)
English / 英文:
| Category | Supervised Learning | Unsupervised Learning |
|---|---|---|
| Label Required? | Yes (X + Y) | No (X only) |
| Output | Predict Y | Discover patterns |
| Tasks | Classification, Regression | Clustering, Association |
| Goal | Learn mapping X → Y | Reveal data structure |
| Evaluation | Compare to true labels | Based on cluster quality |
6.2 典型应用场景对比(PDF + 课堂)
监督学习使用场景:
(来自 PDF 及课堂例子)
- Email Spam 分类
- 房价预测(Regression)
- 客户流失(Churn)
- 金融欺诈检测(Fraud)
- 医疗诊断(癌症 / 疾病预测)
- 信用评分
特点:
- 必须有大量标签(Y)
- 标签质量直接影响模型质量
- 最终目标:预测未来事件
非监督学习使用场景:
- 客户分群(Customer Segmentation)
- 商品推荐(Recommender System)
- 购物篮分析(Market Basket Analysis)
- 异常检测(Anomaly Detection)
- 高维数据降维(PCA)
特点:
- 当没有标签时的第一选择
- 全用于探索性分析(EDA)
- 用来“发现结构”,不是预测
6.3 课堂补充:标签的价值与成本
录播重点内容:
标签非常昂贵(标注一张医疗图像、审核一个欺诈案例都需要专家)。
因此实际应用中,大量数据是“无标签”的。
课堂讲师举例:
- Fraud 数据只有极少量正样本
- 医疗影像需要专家手动标注
- NLP(如 ChatGPT)以前训练也需要大量标签(人工判断正确答案的过程就是监督)
因此公司常遇到以下情况:
有大量 X,但只有少量 Y → 需要结合监督 + 非监督。
6.4 课堂补充:当标签太少时怎么办?
1. 半监督学习(Semi-Supervised Learning)
流程:
- 用少量有标签数据训练初始模型
- 用模型预测无标签数据
- 把高置信度预测作为“伪标签”(Pseudo Labels)
- 再训练更强模型
在 Fraud、Churn、医学任务中非常常见。
2. 聚类辅助监督学习
流程:
- 先用 K-Means 做客户分群
- 对每个 cluster 分别做监督学习
- 得到更精准的模型
课堂案例(录播 2):
对所有用户做 churn 预测效果一般;如果先分群 → 不同群体有不同流失模式 → 每组训练不同模型 → 准确率大幅提高。
3. 主成分分析(PCA)帮助降维
- 高维数据难训练
- PCA 可减少复杂度
- 然后再用监督学习训练
6.5 模型评价方式对比
监督学习评估
- Accuracy
- Precision / Recall / F1
- AUC
- Loss(MSE、Cross-Entropy)
因为有标签,所以可以量化模型好坏。
非监督学习评估
无标签 → 评估更困难。
常用方法:
- Silhouette Score(轮廓系数)
- Cluster Separation(分群间距)
- Inertia(K-Means 聚合度)
- Visualization(t-SNE / PCA 降维可视化)
课堂补充:
非监督学习更像艺术与经验,需要根据任务理解群组是否“合理”。
6.6 从业务角度如何选择?(课堂重点)
讲师提供的选择逻辑:
如果你有标签(Y) → 直接用监督学习
例如:
- 要预测房价 → Regression
- 要预测客户是否流失 → Binary Classification
- 要预测欺诈 → Classification
如果你没有标签(Y) → 用非监督学习
例如:
- 想知道客户之间自然分群?
- 想了解购买行为模式?
- 想做商品关联分析?
如果标签少 → 结合两者
例如:
- Fraud detection
- 医疗图像诊断
- 大规模用户行为分析
6.7 最终对照总结(最简中英双语版本)
中文 / Chinese:
| 项目 | 监督学习 | 非监督学习 |
|---|---|---|
| 输入 | X + Y | X |
| 是否需要标签 | 是 | 否 |
| 目标 | 预测输出(Y) | 发现结构 |
| 常见任务 | 回归、分类 | 聚类、关联 |
| 应用 | 房价、Fraud、Churn | 分群、推荐、购物篮 |
| 模型评价 | Accuracy、AUC | Silhouette、Inertia |
| 适合场景 | 有标签、需预测 | 无标签、需探索 |
English / 英文:
| Category | Supervised Learning | Unsupervised Learning |
|---|---|---|
| Input | X + Y | X Only |
| Labels | Required | Not Required |
| Goal | Predict outcomes | Discover patterns |
| Tasks | Regression, Classification | Clustering, Association |
| Applications | Fraud, Churn, Price Prediction | Segmentation, Recommendation |
| Evaluation | Accuracy, F1, AUC | Cluster quality metrics |
| Best Use Case | When labels exist | When exploring unlabeled data |
第 7 章:欠拟合与过拟合(Underfitting & Overfitting)
Chapter 7: Underfitting and Overfitting
7.1 什么是欠拟合(Underfitting)?
7.1 What Is Underfitting?
中文解释:
欠拟合 = 模型太简单,无法捕捉数据的真实规律。
表现:
- 训练集准确率低
- 测试集准确率也低
- 模型基本“没学到东西”
PDF 图示中:左侧曲线(太直)代表欠拟合。
课堂补充:
-
欠拟合往往来自 模型过于简单,例如:
- 用线性模型拟合明显非线性数据
- 特征不够
- 训练时间不足
-
类似“用直线拟合一个弯曲的关系”
English Explanation:
Underfitting = the model is too simple and fails to learn the underlying structure.
Symptoms:
- Low training accuracy
- Low test accuracy
- Model does not generalize nor learn well
Common causes:
- Model too simple
- Not enough features
- Too few training iterations
7.2 什么是过拟合(Overfitting)?
7.2 What Is Overfitting?
中文解释:
过拟合 = 模型把噪声也当成规律学走了。
表现:
- 训练集准确率非常高
- 测试集准确率下降明显
- 模型记住训练集,但无法泛化
PDF 图示中:右侧曲线(很弯)代表过拟合。
课堂补充:
过拟合就是“死记硬背”。
模型记住每个样本,而不是学到真正规律。
直观例子:
- KNN k=1:训练集 100% 正确,测试很差
- 高阶多项式拟合:曲线乱扭,泛化极差
English Explanation:
Overfitting = the model fits noise and memorizes the training data rather than learning the real pattern.
Symptoms:
- Very high training accuracy
- Low test accuracy
- Poor generalization
Common causes:
- Model too complex
- Too many features
- No regularization
- Too many training iterations
7.3 偏差–方差权衡(Bias–Variance Tradeoff)
7.3 Bias–Variance Tradeoff
课堂讲解重点内容(PDF 未细讲,但课堂深入解释):
偏差(Bias)
- 来自模型过于简单
- 模型无法表示真实关系
- 高 Bias → 欠拟合
例子:
- 用一条直线拟合明显弯曲的关系
方差(Variance)
- 来自模型过于复杂
- 对训练数据非常敏感
- 高 Variance → 过拟合
例子:
- 高阶多项式把每个点都“穿过去”
权衡(Tradeoff)
你不能同时把 Bias 和 Variance 都降到很低。
需要找到一个最优的平衡点。
课堂图示(口述版):
欠拟合:High Bias, Low Variance
最佳模型:Balanced Bias & Variance
过拟合:Low Bias, High Variance
English Summary:
Bias:
- Error due to overly simplistic model → underfitting
Variance:
- Error due to overly complex model → overfitting
Tradeoff:
- Need a balance between the two for best generalization.
7.4 如何减少过拟合?(PDF + 课堂)
7.4 How to Reduce Overfitting?
来自 PDF 的常见手段:
- Train / Test / Validation Split(训练 / 验证 / 测试)
- Cross-Validation(交叉验证)
课堂更深入补充:
(1)更多数据(Most Effective)
- 训练数据越多,模型越难记住噪声
- 深度学习尤其依赖大数据
(2)正则化 Regularization
- L1(Lasso)
- L2(Ridge)
- 防止权重过大,减少模型复杂度
(3)减少模型复杂度
- 降低 Decision Tree 深度
- 减少特征数量
- 改用更简单模型(如 Logistic Regression)
(4)提升泛化能力(Dropout for NN)
- 对神经网络特别有效
- “随机丢掉”部分神经元,避免过度依赖某些路径
(5)提前停止 Early Stopping
- 当验证集 Loss 上升时立即停止训练
- 防止模型继续过拟合训练集
7.5 交叉验证(Cross-Validation)
7.5 Cross-Validation
PDF 中明确说明:
Cross-Validation 使用 k 折切分,训练和验证共进行 k 次,可有效防止过拟合,提高模型鲁棒性。
课堂补充:
k-Fold Cross Validation(最常用)
流程:
- 数据分成 k 份(如 5 份)
- 每次选择 1 份作为验证集,剩下 k-1 份作为训练集
- 做 k 次训练与验证
- 取平均分数作为模型性能
优点:
- 使用全部数据做训练 & 验证
- 减少偶然性
- 比单次 Train-Test Split 稳定很多
Stratified k-Fold(分层抽样)
用于分类任务:
- 确保每个子集中的类别比例一致
- 常用于不平衡数据集(Fraud/Churn)
7.6 AUC(Area Under Curve)补充
(PDF 第 24 页已讲,此处与过拟合联系说明)
课堂补充:
- AUC 不受分类阈值影响
- 对不平衡数据效果更稳定
- 过拟合模型通常训练集 AUC 高、测试集 AUC 低
评价过拟合时,AUC 比 Accuracy 更可靠。
7.7 欠拟合 vs 过拟合 对照(双语)
| 指标 | 欠拟合 Underfitting | 过拟合 Overfitting |
|---|---|---|
| 模型复杂度 | 太低 | 太高 |
| 训练误差 | 高 | 低 |
| 测试误差 | 高 | 高 |
| 原因 | 模型太简单 | 记住噪声 |
| 解决方案 | 加复杂度 | 加正则、简化模型、更多数据 |
7.8 本章总结(中英双语)
中文总结:
-
欠拟合 = 模型太简单(高 Bias)
-
过拟合 = 模型太复杂(高 Variance)
-
二者之间存在 Bias–Variance 权衡
-
避免过拟合的核心方法:
- 正则化
- 交叉验证
- 降低复杂度
- 提前停止
- 增加数据
-
评估模型泛化性能:AUC、Cross-Validation
English Summary:
- Underfitting → model too simple (high bias)
- Overfitting → model too complex (high variance)
- Bias–variance tradeoff determines optimal performance
- Methods to reduce overfitting: regularization, cross-validation, simpler models, early stopping, more data
- Evaluate generalization with AUC and k-fold CV
第 8 章:模型评估(Model Evaluation)与课程总结
Chapter 8: Model Evaluation & Course Summary
8.1 Train / Validation / Test Split(训练 / 验证 / 测试集切分)
(来自 PDF 第 22 页 + 课堂讲解)
中文解释:
为了确保模型有“泛化能力”,必须把数据分成三份:
| 数据集 | 作用 |
|---|---|
| 训练集(Train) | 用来训练模型 |
| 验证集(Validation) | 用来挑选最佳模型、调参(Hyperparameters) |
| 测试集(Test) | 最后评估模型性能,不能参与任何训练 |
课堂强调:
测试集要在最后一步才使用,否则会“信息泄漏(Data Leakage)”。
English Explanation:
Splitting into train, validation, and test ensures the model generalizes well.
- Train → learn parameters
- Validation → tune hyperparameters
- Test → final unbiased evaluation
Test data must never be used during training.
8.2 Cross-Validation(K 折交叉验证)
(PDF 第 22 页内容)
K-Fold Cross Validation 流程:
- 把数据分成 k 等份
- 轮流拿 1 份做验证,其余 k-1 份做训练
- 重复 k 次
- 取平均分数作为最终模型性能
课堂补充:
CV 可以减少“运气成分”,得到更稳定的评估结果。
适用场景:
- 样本较少
- 模型容易过拟合
- 需要更稳定的评分
8.3 混淆矩阵(Confusion Matrix)
(课堂最重点之一:录播 2)
混淆矩阵是分类任务的基础。
| 实际 / 预测 | 预测正(1) | 预测负(0) |
|---|---|---|
| 真实正 (1) | TP | FN |
| 真实负 (0) | FP | TN |
- TP(真正类):实际是 1,也预测为 1
- FP(假正类):预测成 1,实际上 0(误报)
- FN(假负类):预测成 0,实际上 1(漏报,危害最大)
- TN(真负类):实际 0,也预测为 0
课堂强调:
Fraud、医疗诊断、Churn → FN 比 FP 更致命
→ Recall 更重要
8.4 Precision / Recall / F1(精确率 / 召回率 / F1 分数)
Precision(查准率)
[
Precision = \frac{TP}{TP + FP}
]
含义:
被预测为 1 的样本中,有多少是真的 1?
适合看 “预测的质量”。
Recall(召回率)
[
Recall = \frac{TP}{TP + FN}
]
含义:
所有真实为 1 的样本中,有多少被模型找出来?
适合看 “漏掉多少”。
课堂特别强调:
- Fraud、医疗、Churn → 追求 Recall
- 因为漏掉的代价(FN)极高
F1 Score(调和平均)
[
F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}
]
当 Precision 与 Recall 想同时平衡时使用。
8.5 ROC 曲线(Receiver Operating Characteristic)与 AUC
(来自 PDF 第 24 页)
ROC 曲线解释:
横轴:False Positive Rate(FPR)
纵轴:True Positive Rate(TPR = Recall)
直观含义:
- 反映模型在各种阈值下的表现
- 越靠近左上角,模型越好
AUC(Area Under Curve)
- 1.0 = 完美模型
- 0.5 = 随机模型
- 越接近 1 越好
课堂补充:
AUC 对不平衡数据最友好,是 Fraud/Churn 常用的指标。
8.6 Loss Function(损失函数)补充
课堂与 PDF 强调:
回归 → MSE(均方误差)
[
MSE = \frac{1}{m}\sum(\hat{y} - y)^2
]
分类 → Cross-Entropy(交叉熵)
[
Loss = -[y\log(\hat{y}) + (1-y)\log(1-\hat{y})]
]
课堂解释:
Loss 用于训练过程中引导模型学习;
Precision / Recall / AUC 用于最终评价。
8.7 如何判断模型是否泛化良好?(Generalization)
课堂给出的判断标准:
| 指标 | 状态 | 解读 |
|---|---|---|
| Train Loss ↓ | Test Loss ↓ | 模型良好 |
| Train Loss ↓ | Test Loss ↑ | 过拟合 |
| Train Loss 高 | Test Loss 高 | 欠拟合 |
结论:
- 训练表现好 ≠ 模型一定好
- 关键是测试集上的表现
8.8 实际业务案例总结(来自课堂)
课堂例子贯穿整个课程:Fraud、Churn、Spam。
1)Fraud Detection(欺诈检测)
- 数据极度不平衡
- Precision 不重要
- Recall / AUC 才重要
- 需要专家规则辅助形成“伪标签”
2)Churn Prediction(客户流失)
- 各类特征(人口统计、行为、财务)
- 需要混淆矩阵判断 FN
- 模型常组合 Logistic Regression + Tree-based
3)Spam Classification(垃圾邮件)
- Logistic Regression + 文本特征(TF-IDF)
- 精确率重要(不要误判正常邮件)
- 决策边界直观可视化
8.9 全课程总结(中英对照)
以下内容覆盖 PDF Chapter 1 和课堂所有录播重点。
中文总结(面试 & 复习用最精华版)
-
监督学习(Supervised)
- 有标签
- 分类 / 回归
- 常见例子:房价、Churn、Fraud、Spam
-
非监督学习(Unsupervised)
- 无标签
- 聚类 / 降维
- 客户分群、推荐系统
-
核心模型:
- 线性回归(线性关系)
- 逻辑回归(分类,Sigmoid)
- Tree-based(现实中常用)
-
梯度下降(Gradient Descent)
- 找到 Loss 最低点
- 学习率 α 控制步长
-
模型问题:
- 欠拟合(模型太简单)
- 过拟合(模型太复杂)
- 解决:正则化、交叉验证、更多数据
-
模型评价:
- 回归:MSE
- 分类:Precision / Recall / F1 / AUC
- AUC 在不平衡数据中特别重要
English Summary (Interview-Ready)
-
Supervised Learning
- Labeled data
- Classification and regression
-
Unsupervised Learning
- No labels
- Clustering and dimensionality reduction
-
Key Algorithms
- Linear Regression
- Logistic Regression
- Decision Trees / Random Forest / XGBoost
-
Optimization
- Gradient Descent minimizes loss
- Learning rate controls convergence
-
Model Issues
- Underfitting (high bias)
- Overfitting (high variance)
-
Evaluation Metrics
- Accuracy, Precision, Recall, F1, AUC
- AUC is crucial for imbalanced datasets