网站的建设的含义,中核工建设集团OA网站,泰州企业自助建站系统,长尾词优化外包又到一年的年末了#xff0c;到了进行总结并展望来年的时候了#xff0c;在这里预祝各位新的一年顺利。闲话少叙#xff0c;本文将对有监督学习方法进行总结。
机器学习领域在过去几十年中经历了巨大的变化#xff0c;不可否认的是#xff0c;虽然有些方法已经存在了很长…又到一年的年末了到了进行总结并展望来年的时候了在这里预祝各位新的一年顺利。闲话少叙本文将对有监督学习方法进行总结。
机器学习领域在过去几十年中经历了巨大的变化不可否认的是虽然有些方法已经存在了很长时间但仍然是该领域的主要内容。例如最小二乘法 least squares的概念在19世纪早期由勒让德和高斯提出最基本的形式的神经网络 neural networks早在1958年就引入的并在过去的几十年中大幅提升、支持向量机SVM等方法则更是较新的方法这些方法仍然占据了机器学习领域应用中的半壁江山。
随着科研的进行有大量可用的监督学习方法被发明。使用者通常会提出以下问题什么是最好的模型众所周知这个问题没有标准答案因为模型的有用性取决于手头的数据以及具体处理的问题合适的就是最好的。那么可以转换下思路换成这个问题最受欢迎的模型是什么这将是本文的关注点。
衡量机器学习模型的流行程度
出于本文的目的使用频率论方法定义流行度。更确切地说将使用提及个人监督学习模型的科学出版物的数量表示受欢迎的程度。当然这种方法有一些限制
可能有比出版物数量更准确的表示方法分析受所使用的搜索术语的影响文献数据库并不完美
因此对于这篇文章进行了两次分析。第一个分析是对出版频率的纵向分析而第二个分析则比较了不同领域与机器学习模型相关的出版物总数。
在第一次分析中通过从谷歌学术搜索中搜索数据来确定出版物的数量该数据考虑出版物的标题和摘要。为了确定与个人监督学习方法相关的出版物数量统计1950年至2017年期间谷歌学术搜索的点击次数。由于抓取谷歌学术的数据非常困难所以本文参考ScrapeHero提供的有用建议来收集数据。
在分析中包含了13种监督方法神经网络、深度学习、SVM、随机森林、决策树、线性回归、逻辑回归、泊松回归、岭回归、套索回归 lasso regression、k-最近邻、线性判别分析、以及对数线性模型。其中对于套索回归搜索时考虑了 lasso regression和套lasso model 对于最近邻方法搜索时术语有k-nearest neighbor和k-nearest neighbour得到的数据集表示从1950年到现在每个监督模型相关的出版物的数量。
从1950年到现在使用的监督模型
为了分析纵向数据将时间段划分为两个时期机器学习的早期阶段1950年至1980年几乎没有可用模型以及形成时期1980年至今开发了许多新模型。
早期线性回归占优势 从图1中可以看出线性回归是1950年至1980年间的主导方法。相比之下科学文献中极少提及其他机器学习模型。然而从20世纪60年代开始可以看到神经网络和决策树的普及开始增长。此外还可以看到逻辑回归尚未广泛应用在20世纪70年代末的数量仅略有增加。 形成年代神经网络的多样化和兴起
图2表明从20世纪80年代后期开始出版物中提到的监督模型变得更加多样化。重要的是文献中提到的机器学习模型的比率一直稳步增加直到2013年。该图具体显示了线性回归、逻辑回归和神经网络的普及。正如之前所见线性回归在1980年之前已经流行。然而从1980年开始神经网络和逻辑回归的普及开始迅速增长。虽然逻辑回归的流行度在2010年达到顶峰该方法几乎变得像线性回归一样受欢迎但近年来神经网络和深度学习的流行程度甚至超过了2015年线性回归的流行程度。
神经网络已经变得非常受欢迎因为它们已经在机器学习应用方面取得了突破例如图像识别ImageNet2012、人脸识别DeepFace2014和游戏AlphaGo2016等。来自谷歌学术的数据表明文章中提到神经网络的频率在过去几年中略有下降图2中未显示。这可能是因为术语深度学习多层神经网络在某种程度上取代了术语神经网络的使用。
另外可以看到稍微不那么受欢迎的监督方法是决策树和SVM。与前三种方法相比提到这些方法的频率明显较小。另一方面文献中提到这些方法的频率似乎也有较小的波动。值得注意的是决策树和SVM的流行度都没有下降。在决策树和SVM之间SVM似乎表现出更有利的增长趋势因为SVM在发明后仅仅15年就成功超越了决策树。
不同领域的监督学习模型的受欢迎程度
在第二个分析中想调查不同的领域是否依赖于不同的机器学习技术。为此查询了三个科学出版物库谷歌学术出版物、计算机科学出版物的dblp和生物医学科学出版物的PubMed。在三个库中统计了13个机器学习模型的命中频率。结果如图3所示。 图3表明许多方法对各个领域都非常具体下面分析每个领域中最流行的模型。
整体使用监督学习模型
根据谷歌学术搜索表明最常用的五种监督模型如下所示
线性回归 3,580,00034.3篇论文逻辑回归2,330,00022.3篇论文神经网络 1,750,00016.8篇论文决策树 875,0008.4份论文支持向量机684,0006.6篇论文
总体而言线性模型显然占主导地位占监督模型的统计率的50以上。单非线性方法并不落后神经网络占所有论文的16.8其次是决策树8.4的论文和SVM6.6的论文。
在生物医学科学中使用模型
根据PubMed在生物医学科学中最受欢迎的五种机器学习模型如下所示
逻辑回归 229,95654.5篇论文线性回归 84,85020.1篇论文Cox回归 38,8019.2篇论文神经网络 23,8835.7篇论文泊松回归 12,9783.1篇论文
在生物医学科学中可以看到与线性模型相关的提及次数偏多五种最流行的方法中有四种是线性的这可能是由于两个原因造成的。首先在医疗环境中样本数量通常太小无法拟合复杂的非线性模型。其次模型解释结果的能力对医疗应用至关重要。由于非线性方法通常难以解释因此它们不太适合医疗应用。
逻辑回归在PubMed数据库中的流行可能是由于大量出版物的临床研究。在这些研究中通常使用逻辑回归分析分类结果即治疗成功因为它非常适合于解释特征对结果的影响。Cox回归在PubMed数据库中也非常流行因为它常用于分析Kaplan-Meier生存数据。
在计算机科学中使用的模型
从dblp中检索到计算机科学书目中最受欢迎的五个模型是
神经网络 63,69568.3篇论文深度学习 10,15710.9篇论文支持向量机 7,7508.1篇论文决策树 4,0744.4篇论文最近邻居 3,8392.1篇论文
计算机科学出版物中提到的机器学习模型的分布是截然不同的大多数出版物似乎都涉及最近的非线性方法例如神经网络、深度学习和支持向量机如果将深度学习算作神经网络的一种则超过四分之三的检索计算机科学出版物都涉及神经网络。
行业之间的差别 图4总结了文献中提到的参数和非参数模型的百分比。柱形图表明在机器学习研究中调查的模型计算机科学出版物和应用的模型类型生物医学和整体出版物之间存在很大差异。虽然超过90的计算机科学出版物涉及非参数模型但大约90的生物医学出版物涉及参数模型这表明机器学习研究主要集中在最先进的方法如深度神经网络而机器学习的用户往往依赖于更多可解释的参数模型如逻辑回归等。
总结
对科学文献中有监督学习模型的流行度分析表明了人工神经网络的受欢迎程度。但是也看到不同的领域使用不同类型的机器学习模型。特别是生物医学科学的研究人员仍然严重依赖参数模型但这种情况逐渐在发生改变随着可解释模型的研究更加深入更复杂的模型一定会在生物医学领域得到广泛应用。 原文链接 本文为云栖社区原创内容未经允许不得转载。