scikit-learn 是基于 Python 语言的机器学习工具。
优势:
- 简单高效的数据挖掘和数据分析工具
- 可供大家在各种环境中重复使用
- 建立在 NumPy ,SciPy 和 matplotlib 上
- 开源,可商业使用 - BSD许可证
scikit-learn常用数据集获取方法
- sklearn.datasets.load_XX():获取小规模数据集
- sklearn.datasets.fetch_XX():加载大规模数据集
- 返回值load和fetch返回的数据类型是sklearn.utils.Bunch(字典格式)
- data:特征数据,[样本 * 特征值]的二维ndarray数组
- target:标签数组,一维ndarray数组
- DESCR:数据描述
- feature_names:特征名称
- target_names:标签名称
数据集划分
机器学习一般将数据集划分为两个部分:
- 训练数据:用于训练、构建模型,划分比例:70% 80%
- 测试数据:在模型评估时使用, 划分比例:30% 20%
- sklearn.model_selection.train_test_split(arrays, *options)
- x数据集的特征值
- y数据集的目标值
- test_size测试集的大小,float类型
- 返回 训练集特征值、测试集特征值、训练集目标值、测试集目标值