sklearn 强大数据库
切换视频源:

sklearn 强大数据库

作者: Alice 编辑: 莫烦 发布于: 2016-01-01

学习资料:

今天来看 Sklearn 中的 data sets,很多而且有用,可以用来学习算法模型。

要点

eg: boston 房价, 糖尿病, 数字, Iris 花。

也可以生成虚拟的数据,例如用来训练线性回归模型的数据,可以用函数来生成。

2_3_1.png

例如,点击进入 boston 房价的数据,可以看到 sample 的总数,属性,以及 label 等信息。

2_3_2.png

如果是自己生成数据,按照函数的形式,输入 sample,feature,target 的个数等等。

接下来用代码练习一下。

导入模块

导入 datasets 包,本文以 Linear Regression 为例。

导入数据-训练模型

datasets.load_boston() 的形式加载数据,并给 Xy 赋值,这种形式在 Sklearn 中都是高度统一的。

定义模型。

可以直接用默认值去建立 model,默认值也不错,也可以自己改变参数使模型更好。 然后用 training data 去训练模型。

再打印出预测值,这里用 X 的前 4 个来预测,同时打印真实值,作为对比,可以看到是有些误差的。

为了提高准确度,可以通过尝试不同的 model,不同的参数,不同的预处理等方法,入门的话可以直接用默认值。

创建虚拟数据-可视化

下面是创造数据的例子。

用函数来建立 100 个 sample,有一个 feature,和一个 target,这样比较方便可视化。

scatter 的形式来输出结果。

2_3_3.png

可以看到用函数生成的 Linear Regression 用的数据。

noise 越大的话,点就会越来越离散,例如 noise 由 10 变为 50.

2_3_4.png


降低知识传递的门槛

莫烦经常从互联网上学习知识,开源分享的人是我学习的榜样。 他们的行为也改变了我对教育的态度: 降低知识传递的门槛免费 奉献我的所学正是受这种态度的影响。 【支持莫烦】 能让我感到认同,我也更有理由坚持下去。

我组建了微信群,欢迎大家加入,交流经验,提出问题,互相帮持。 扫码后,请一定备注"莫烦",否则我不会同意你的入群申请。

wechat