想从事数据挖掘,这十大经典算法你都了解吗

靖凯开源

  想要从事数据挖掘,有些东西是一定需要了解的,比如经典的数据挖掘算法,下面为大家总结了10个经典的数据挖掘算法,一起来看看吧。

       (1)C4.5:算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

  1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

  2) 在树构造过程中进行剪枝;

  3) 能够完成对连续属性的离散化处理;

  4) 能够对不完整数据进行处理。

  C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

  (2)朴素贝叶斯(naive bayes): 朴素贝叶斯是给予概率论的原理,它的思想是对于给出的未知无题要进行分类,需要求解在这个未知物体出现的条件下各个类别出现的概率,找最大概率那个分类,数据更新影响思想。

  (3)SVM:中文叫支持向量机:Support Vector Machine,SVM 在训练中简历了一个超平面的分类模型。

  (4)KNN: K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。

  该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

  (5)Adaboost: 在悬链中简历一个联合分类模型,boost 提升的意思,所以adaboost是个构建分类模型器的提升算法,它可以让多个弱的分类器组成一个强的分类器。

  (6)CART: CART戴表分类和回归树,Classification and Regression Trees. 构建了两棵树,一颗分类树,一个回归树,是一个决策树学习算法。

  (7)Apriori是一个挖掘关联规则(association rules)的算法,通过挖掘频繁顶集(frequent item sets)来解释物品之间的关联关系,被广泛应用于商业挖掘和网络安全领域中,频繁项集是一个指经常出现在一起的物品集合,关联规则按时着两种物品之间可能存在很强的关系。

  (8)K-Means:k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。

  (9)EM: EM算法也叫最大期望算法,是求参数的最大似然估计的一种算法,原理是这样的:假设我们想要评估参数A和参数B,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B的也就得到A的,可以考虑首先赋予A某个初值,以此得到B的估值,然后从B的估值出发,重新估计A的取值,这个过程一直持续到收敛未知。推荐了解,黑马程序员大数据培训课程。

  (10)PageRank: 起源于论文的影响力的计算方式,如果一篇论文被引入次数越多,就代表这篇论文的影响力越强,PageRank被Google创造性地应用到了网页权重的计算中,当一个页面链接的页面越多,说明这个页面的‘参考文献’越多,当这个页面被链入的频率越高,说明这个页面的引用次数越高,基于这个原理,我们可以得到网站的权重划分。

      想从事数据挖掘,这十大经典算法你都了解吗就和大家分享到这里,希望可以给大家带来一些帮助,想要了解更多java学习知识,可以关注靖凯开源。

明星学员

曾*浩 就职于广东众望通科技股份有限公司

转正7000

谭* 就职于GEA国际集团(锆德教育资讯(深圳)有限公司广州分公司

转正8000

刘* 就职于睿盟计算机科技有限公司

转正8000

林*勇 就职于南方人才市场

转正6000

李*达 就职于云景科技

8000

吴* 就职于北京易诚互动网络技术有限公司

转正6000