溧阳建设集团有限公司网站,内容类网站如何 流量,网站制作cms,网站开发综合课程设计文章目录
机器学习专栏
介绍
基本思想
使用代码
深度探索
优点
估计概率
训练算法
CART成本函数
实例数与不纯度
正则化
在鸢尾花数据集上训练决策树 机器学习专栏 机器学习_Nowl的博客-CSDN博客 介绍 作用#xff1a;分类 原理#xff1a;构建一个二叉树#…文章目录
机器学习专栏
介绍
基本思想
使用代码
深度探索
优点
估计概率
训练算法
CART成本函数
实例数与不纯度
正则化
在鸢尾花数据集上训练决策树 机器学习专栏 机器学习_Nowl的博客-CSDN博客 介绍 作用分类 原理构建一个二叉树逐级条件判断筛选 基本思想
假如有小明小红和小张三个人我们知道他们的身高体重要通过身高体重来判断是哪个人决策树算法会构建一个二叉树逐级判断如下 使用代码
from sklearn.tree import DecisionTreeClassifiertree_clf DecisionTreeClassifier(max_depth2)
tree_clf.fit(X, y)
max_depth参数设置的是决策树的深度上图的深度是2它代表决策的次数 深度探索
优点
我们来看决策树的过程每到一个节点进行一次询问然后将数据集分向其他的节点这样的特性决定了数据不需要经过特征缩放的处理 估计概率
决策树模型可以输出每个类的概率
这意味着我们可以使用predict_proba方法这将输出每个类的概率
model DecisionTreeClassifier(max_depth2)
model.fit(x, y)model.predict_proba(x) 训练算法
决策树的训练算法被称为CART算法它的目标是选择一个特征k和阈值(t)在最开始的例子中身高体重是特征170和60kg是阈值CART算法会通过成本函数不断优化选择每个节点合适的特征和阈值
CART成本函数 m为实例数
G为不纯度
下标left和right分别代表该节点的左右子树 实例数与不纯度
实例数就是被分到某节点实例数量在最开始的例子中根节点的左实例数会这样记录1个小明0个小红0个小张右实例数会记为0个小明1个小红1个小张
不纯度代表着节点中类的混合程度在最开始的例子中左节点只有一类不纯度就为0而右节点有两类不纯度就较高决策树算法中往往采用基尼不纯度来判定
它的公式为 为第k类的实例数
为总实例数 正则化
为了防止过拟合我们当然要进行正则化决策树的正则化通过控制参数max_depth来决定越大则越可能过拟合 在鸢尾花数据集上训练决策树
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifieriris load_iris()
X iris.data[:, 2:] # petal length and width
y iris.targettree_clf DecisionTreeClassifier(max_depth3)
tree_clf.fit(X, y)
当我们用上面代码训练模型时使用花瓣长和宽做特征决策树深度设为3可能得到如下模型图