网站建设合同要注意什么,班级优化大师免费下载学生版,wordpress 带分页的主题,泰国男女做那个视频网站C4.5算法
C4.5算法
C4.5 算法是 Ross 对ID3 算法的改进用信息增益率来选择属性。ID3选择属性用的是子树的信息增益而C4.5用的是信息增益率在决策树构造过程中进行剪枝对非离散数据也能处理能够对不完整数据进行处理
信息增益比#xff08;C4.5#xff09; g R ( D , A ) …C4.5算法
C4.5算法
C4.5 算法是 Ross 对ID3 算法的改进用信息增益率来选择属性。ID3选择属性用的是子树的信息增益而C4.5用的是信息增益率在决策树构造过程中进行剪枝对非离散数据也能处理能够对不完整数据进行处理
信息增益比C4.5 g R ( D , A ) g ( D , A ) H ( D ) g_{R}(D, A)\frac{g(D, A)}{H(D)} gR(D,A)H(D)g(D,A)
其中 g ( D , A ) g(D,A) g(D,A)是信息增益 H ( D ) H(D) H(D)是数据集 D D D的熵。
C4.5剪枝
预剪枝 (prepruning)
防止过拟合剪枝策略在节点划分前来确定是否继续增长及早停止增长,主要方法: 节点内数据样本低于某一闽值所有节点特征都已分裂节点划分前准确率比划分后准确率高
后剪枝
在已经生成的决策树上进行剪枝从而得到简化版的剪枝决策树.
C4.5 采用的悲观剪枝方法用递归的方式从低往上针对每一个非叶子节点评估用一个最佳叶子节点去代替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降则这棵子树就可以被替换掉。C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率后剪枝决策树的欠拟合风险很小泛化性能往往优于预剪枝决策树
C4.5算法的缺点
C4.5 用的是多又树用二又树效率更高C4.5 只能用于分类C4.5 使用的焰模型拥有大量耗时的对数运算连续值还有排序运算C4.5 在构造树的过程中对数值属性值需要按照其大小进行排序从中选择一个分割点所以只适合于能够驻留于内存的数据集当训练集大得无法在内存容纳时程序无法运行。