当前位置: 首页 > news >正文

曲靖市网站建设_网站建设公司_搜索功能_seo优化

企业网站如何seo,广告设计公司的成本票项目有哪些,制作企业官网,天元建设集团有限公司审计项目什么是数据特征选定? 数据特征选定#xff08;Feature Selection#xff09;是指从原始数据中选择最相关、最有用的特征#xff0c;用于构建机器学习模型。特征选定是机器学习流程中非常重要的一步#xff0c;它直接影响模型的性能和泛化能力。通过选择最重要的特征#…什么是数据特征选定? 数据特征选定Feature Selection是指从原始数据中选择最相关、最有用的特征用于构建机器学习模型。特征选定是机器学习流程中非常重要的一步它直接影响模型的性能和泛化能力。通过选择最重要的特征可以减少模型的复杂性降低过拟合的风险并提高模型的训练和预测效率。 特征选定的过程可以采用以下一些常见的方法 相关性分析通过计算特征与目标变量之间的相关性选择与目标变量高度相关的特征。可以使用相关系数、互信息等指标进行相关性分析。 特征重要性评估对于一些机器学习模型如决策树、随机森林、梯度提升树等可以通过模型训练过程中特征的重要性评估来选择重要的特征。 方差选择选择方差大于某个阈值的特征过滤掉方差较小的特征认为方差较小的特征对目标变量的影响较小。 正则化方法使用正则化方法如L1正则化、L2正则化进行特征选择通过加入正则化项来惩罚特征的权重从而使得部分特征的权重变为零实现特征选择。 基于模型的特征选择使用某些机器学习模型如递归特征消除、稳定性选择等来评估特征的重要性并选择最重要的特征。 基于特征工程的选择通过领域知识和数据理解来选择最相关的特征例如选择与问题背景相关的特征、选择对目标变量具有影响的特征等。 特征选定需要结合具体的数据和任务来进行没有一种通用的方法适用于所有情况。选择合适的特征是一个迭代的过程通常需要尝试不同的方法和参数来找到最佳的特征子集。重要的是要保持合理的特征维度确保所选特征能够充分表达数据的信息并且对于给定的机器学习任务是有效的。 在做数据挖掘和数据分析时数据是所有问题的基础并且会影响整个项目的进程。相较于使用一些复杂的算法灵活地处理数据经常会取到意想不到的效果。 而处理数据不可避免地会使用到特征工程。那么特征工程是什么呢有这么一句话在业界广为流传数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限而已。 因此特征过程的本质就是一项工程活动目的是最大限度地从原始数据中提取合适的特征以供算法和模型使用。特征处理是特征工程的核心部分scikit-learn 提供了较为完整的特征处理方法包括数据预处理、特征选择、降维等。 通过 scikit-learn来自动选择用于建立机器学习模型的数据特征的方法。接下来将会介绍以下四个数据特征选择的方法 · 单变量特征选定。 · 递归特征消除。 · 主要成分分析。 · 特征的重要性。 特征选定 特征选定是一个流程能够选择有助于提高预测结果准确度的特征数据或者有助于发现我们感兴趣的输出结果的特征数据。如果数据中包含无关的特征属性会降低算法的准确度对预测新数据造成干扰尤其是线性相关算法如线性回归算法和逻辑回归算法。 因此在开始建立模型之前执行特征选定有助于 降低数据的拟合度较少的冗余数据会使算法得出结论的机会更大。提高算法精度较少的误导数据能够提高算法的准确度。减少训练时间越少的数据训练模型所需要的时间越少。 可以在 scikit-learn 的特征选定文档中查看更多的信息http//scikitlearn.org/stable/modules/feature_selection.html。下面我们会继续使用PimaIndians的数据集来进行演示。 代码如下 import pandas as pd from numpy import set_printoptions from sklearn.feature_selection import chi2, SelectKBest#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path) #将数据转成数组 array data.values #分割数据 X array[:, 0:8] Yarray[:,8]#选择K个最好的特征返回选择特征后的数据 test SelectKBest(score_funcchi2, k4) #fit()方法计算X中各个特征的相关性 fit test.fit(X, Y) #设置数据打印格式 set_printoptions(precision3)print(fit.scores_) #得分越高特征越重要 features fit.transform(X) #显示特征 print(features) 执行结束后我们得到了卡方检验对每一个数据特征的评分以及得 分最高的四个数据特征。执行结果如下 [ 111.52 1411.887 17.605 53.108 2175.565 127.669 5.393 181.304] [[148. 0. 33.6 50. ][ 85. 0. 26.6 31. ][183. 0. 23.3 32. ]...[121. 112. 26.2 30. ][126. 0. 30.1 47. ][ 93. 0. 30.4 23. ]] 从这组数据中我们可以分析出得分最高 的分别是血糖胰岛素含量身体质量指数BMI,年龄 通过设置SelectKBest的score_func参数SelectKBest不仅可以执行卡方检验来选择数据特征还可以通过相关系数、互信息法等统计方法来选定数据特征 递归特征消除 递归特征消除RFE使用一个基模型来进行多轮训练每轮训练后消除若干权值系数的特征再基于新的特征集进行下一轮训练。通过每一个基模型的精度找到对最终的预测结果影响最大的数据特征。 在 scikitlearn 文档中有更多的关于递归特征消除RFE的描述。下面的例子是以逻辑回归算法为基模型通过递归特征消除来选定对预测结果影响最大的三个数据特征。 代码如下 import pandas as pd from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)#打印标签名称 print(data.columns)#将数据转成数组 array data.values #分割数据去掉最后一个标签 X array[:, 0:8]Y array[:, 8] #特征选择 model LogisticRegression() #递归特征消除法返回特征选择后的数据 rfe RFE(model) #拟合数据 fit rfe.fit(X, Y)print(特征个数, fit.n_features_) print(被选特征, fit.support_)print(特征排名, fit.ranking_) 运行结果 特征个数 4 被选特征 [ True True False False False True True False] 特征排名 [1 1 3 4 5 1 1 2]主要成分分析 主要成分分析PCA是使用线性代数来转换压缩数据通常被称作数据降维。 常见的降维方法除了主要成分分析PCA还有线性判别分析LDA它本身也是一个分类模型。PCA 和 LDA 有很多的相似之处其本质是将原始的样本映射到维度更低的样本空间中但是PCA和LDA的映射目标不一样PCA是为了让映射后的样本具有最大的发散性而 LDA 是为了让映射后的样本有最好的分类性能。 所以说PCA 是一种无监督的降维方法而LDA是一种有监督的降维方法。在聚类算法中通常会利用PCA对数据进行降维处理以利于对数据的简化分析和可视化。 详细内容请参考 scikit-learn的API文档。代码如下 import pandas as pd from sklearn.decomposition import PCA from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)#打印标签名称 print(data.columns)#将数据转成数组 array data.values #分割数据去掉最后一个标签 X array[:, 0:8]Y array[:, 8]pca PCA(n_components4)fit pca.fit(X)print(方差, fit.explained_variance_ratio_)print(fit.components_) 方差 [0.88854663 0.06159078 0.02579012 0.01308614] [[-2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-029.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03][-2.26488861e-02 -9.72210040e-01 -1.41909330e-01 5.78614699e-029.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01][-2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-012.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01][-4.90459604e-02 1.19830016e-01 -2.62742788e-01 8.84369380e-01-6.55503615e-02 1.92801728e-01 2.69908637e-03 -3.01024330e-01]] 没感觉看不懂这个结果数据是怎么去进行分析的先知道有这么个东西后面再来补充 特征重要性 袋装决策树算法Bagged Decision Tress、随机森林算法和极端随机 树算法都可以用来计算数据特征的重要性。 这三个算法都是集成算法中的袋装算法在后面的集成算法章节会有详细的介绍。下面给出一个使用ExtraTreesClassifier类进行特征的重要性计算的例子。 代码如下 import pandas as pdfrom sklearn.ensemble import ExtraTreesClassifier#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)#打印标签名称 print(data.columns[0:8])#将数据转成数组 array data.values #分割数据去掉最后一个标签 X array[:, 0:8]Y array[:, 8]model ExtraTreesClassifier()fit model.fit(X, Y)print(fit.feature_importances_)运行结果 Index([Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin,BMI, DiabetesPedigreeFunction, Age],dtypeobject) [0.10886677 0.22739778 0.10066603 0.07878746 0.07515111 0.146191220.11598885 0.14695078]执行后我们可以看见算法给出了每一个数据特征的得分从得分中我们可以分析 得分高的也是跟前面特征 血糖BMI,年龄等
http://www.ihoyoo.com/news/132956.html

相关文章:

  • 怎么样上传网站资料网站活动推广方案
  • 建电影网站教程衡水网站建设衡水网站建设
  • 武义做网站php可以做视频网站有哪些
  • 怎么开通网站网站展示 包括什么
  • 心力建网站seo教学培训
  • 不得不知道网站百度wap网站建设
  • 无做a视频网站wordpress加载视频
  • 广西城乡建设厅网站首什么是前端开发技术
  • 企业做网站的好处千秋网络连锁餐厅vi设计公司
  • 网站建设与维护案列h5app开发
  • 营销型网站建设的步骤网站备案程序
  • 谷歌网站建设建设部网站在哪里看受理
  • 自定义网站模板国内比较好的wordpress主题
  • 淄博网站设建筑设计专业的网站
  • 丰台区网站建设桂林在线交流
  • 珠海网站建设科速app开发的价格清单
  • 中山网站搭建软件开发分为哪几类
  • 网站开发排期表模板网站设计培训哪里好
  • 下载php做站的官方网站怎么做业务网站
  • 专业建网站 成都常州网站外包
  • 网页制作与网站建设完全学习手册下载wordpress 首页调用文章
  • 行唐县网站建设早教网站模板
  • 地方门户网站系统网站顶部公告代码
  • 太原网站建设的公司潍坊哪里做网站好
  • 做门图网站安卓软件开发工程师
  • jquery 开发网站org.wordpress utils
  • 找网络公司做的网站到期后 备案的域名属于备案企业还是网络公司网站技术
  • 网站置顶jq中小学网站建设探讨
  • 现在什么网站做基础销量好特价手机网站建设
  • 广州那家做网站最好网站中的二级菜单怎么做23