一…AI(人工智能)
 二.机器学习–是人工智能实现的途径
 三.深度学习–是机器学习的一个方法
 1.机器学习能做什么:
 1.1 传统预测
 1.2 图像识别
 1.3 自然语言处理(nlp)
2.数据集包含:特征值 + 目标值
 3.机器学习分为:监督学习 、非监督学习、半监督学习
 4.机器学习开发流程:
 4.1 获取数据
 4.2 处理数据
 4.3 特征工程
 4.4 算法模型-- 模型
 4.5 模型评估
 4.6 应用
基础书籍:机器学习 -”西瓜书”- 周志华 统计学习方法 - 李航 深度学习 - “花书”
5.数据集:
 5.1.sklearn
 sklearn.datasets
 load_* 获取小规模的数据集 sklearn.datasets.load_iris()
 fetch_* 获取大规模的数据集
 sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
 数据集的返回值
 datasets.base.Bunch(继承自字典)
 dict[“key”] = values
 bunch.key = values
 5.2.kaggle
 5.3.UCI
5.4数据集的划分:
 训练集:用于训练,构建模型
 测试集:在模型检验时使用,用于评估模型是否有效,20%~30%
 sklearn.model_selection.triain_test_split(arrays, *options)
 训练集特征值,训练集目标值,测试集特征值,测试集目标值
 x_train,x_test,y_train,y_test
6.特征的提取
 sklearn.feature_extraction
 6.1 字典特征提取- 类别–》one-hot 编码
 sklearn.feature_extraction.DictVectorizer(sparse=True,…)
 矩阵 matrix 二维数组
 向量 vector 一维数组
6.2 文本特征提取
 单词 作为 特征
 句子、短语、单词、字母
 特征:特征词
 方法1:CountVectorizer
 统计每个样本特征词出现的个数
 stop_words停用的
 停用词表
 关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少
 方法2:TfidfVectorizer
 TF-IDF - 重要程度
 TF - 词频(term frequency,tf)
 IDF - 逆向文档频率
6.3 特征预处理
 无量纲化
 归一化:会有异常值影响大小
 标准化:(x - mean) / std
 标准差:集中程度
 应用场景:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。
- 特征降维
 7.1降低维度
 维数:嵌套的层数
 0维 标量
 1维 向量
 2维 矩阵
 3维
 n维
 二维数组:
 此处的降维:降低特征个数
 效果:消除特征与特征之间的相关性
主成分分析(PCA)
 sklearn.decomposition.PCA(n_components=None)
 n_components
 小数 表示保留百分之多少的信息
 整数 减少到多少特征