Algorithms for Machine Learning

借用与数据相关的算法的常见分类方式,介绍几种典型的数据挖掘与机器学习算法。

1. 预测算法

预测算法,顾名思义就是对某个问题做出预测,通常说来预测的目标是数字形式的连续值,例如房价、GDP等等。根据预测方法的不同,又可以分为外生预测和内生预测。例如预测房价,外生预测是根据会影响房价的外部因素,例如位置、居民收入等对房价进行估计,典型的例子是线性回归,将希望预测的房价作为因变量,位置和居民收入作为自变量,用一个算式将二者之间的关系表示出来,房价=a*位置+b*收入,求a和b的过程就是线性回归算法的过程。很多监督类算法都具有数值预测能力,例如:神经网络、决策树、贝叶斯网络、KNN、SVM等。

而内生预测,主要是指时间序列分析,则是通过房价自身的历史变化估计其未来趋势,通过分解历史变化中的总体趋势、周期性、季节性、波动性等要素,预测未来值。例如ARIMA,移动平均、指数平滑等。

备注:还有一种是主观预测法,例如德尔菲法,层次分析法AHP等

2. 分类算法

分类算法,也被称作有监督算法,在某些方面与预测算法类似,都是对一个预先存在的目标变量进行估计。但是,预测算法的目标通常是数字形态的值,而分类算法则是一个类别。一个典型的例子是电子商务网站预测他们的用户是否会流失。这时候,目标是用户“是/否”流失,也就是说是一个类别。我们可以利用网站已有的用户行为建立一个分类模型,这部分已有的用户中包含那些已经流失的用户,然后就可以用这个分类模型判断新的用户是否会流失。用来建立模型的那部分数据叫做“训练数据”。

分类算法是数据挖掘和机器学习中应用最广的一类算法,它包含经典的决策树算法、逻辑回归、判别式,也包含支持向量机、神经网络这些较新的方法。分类算法的模型在实际应用中经常表现为一个“黑箱”,只要能得到满意的分类结果,模型内部的细节可能是不可见的。

3. 细分算法

与监督算法相对应的是也被称为无监督算法的一类细分算法,它和分类算法相类似的地方是,它们的目的都是把数据分成几个不同的类别。但是,分类算法的类别是已经存在的,就像前面提到的用户流失,我们能够对网站已有的客户标记“流失”或“未流失”。但细分算法不同,它没有这样一个预先分好的类别,而是根据数据本身的分布特点,“自然而然”地划分出类。细分算法最常见的应用是客户细分,购物中心根据会员的消费金额、消费频次和最近一次消费时间将会员划分为不同价值的群体。在实施细分算法之前,我们并不知道这些会员可能被分为几类,每个类别是什么,只有建立细分模型之后,才能根据划分出类别在这三个方面表现出的特点归纳出每一类具体是什么。

细分算法中最主要的就是聚类,主要有基于距离的层次聚类和k-means聚类,基于密度的DBSCAN聚类,以及模糊聚类和核聚类等方法。

4. 关联规则算法

关联规则的主要目标在于发现数据中所存在的关系,这种关系会以规则的形式表现出来。例如购物篮分析就是最典型的关联规则算法的应用场景。它的目标是发现消费者在超市购买商品时哪些商品同时购买的机会比较高,或者购买某一项商品时,同时购买哪个商品的几率比较高。通过这样的分析,我们就可以发现购买商品之间的关联关系,从而实现优化货架摆放、提升销售额的目的。

关联规则最常用的是Apriori算法,此外还有一些考虑了时间先后因素在内的序列关联规则算法。

5. 个性化推荐算法

推荐算法主要应用在互联网中,用于向受众推荐他们可能感兴趣的内容。目前最常用的推荐多是基于一种叫做协同过滤的技术,它通常的做法是对一大群人进行搜素,从中找出与推荐对象品味相近的一小群人,然后对这些人偏爱的其他内容进行考察,并组合起来构造一个经过排名的推荐列表。

6. 其他算法

6.1. PageRank算法

一个网页的价值是由链接这个网页的网页价值决定的,这是google的基本算法。由此推演出一个人的价值是由链接这个人的人的价值决定的,PersonRank微博微信的互粉关系呈现了整个算法;由此推演一篇文章的价值是由关键词的相互引用决定的价值TextRank

6.2. 电子围栏算法

通过空间位置的经纬度落在某个区域内的匹配算法,由此可以实现地理空间的算法,由此导航、打车软件、共享单车和无人机禁飞区域可以实现,当然还包括需要位置信息的各种APP提供地域性限制或个性化内容。

6.3. 社会网络算法

今天的微博微信都是社会网络或社会化媒体,都呈现了影响力、传播力和效果研究的一些算法需求,表现在网络结构和传播路径等算法。

6.4. 时间序列算法

包括股票预测、经济走势、舆情走势等时间演化过程的规律和预测。

6.5. 综合评测算法

加法原则是互有补充取长补短,乘法原则是一损俱损不可或缺,主要用于网站的综合评价,多指标综合方法等。

6.6. 多变量统计算法

统计上最基本的两个算法是回归分析或logistics回归和主成分分析或因子分析。

7. Reference


CategoryAlgorithm CategoryMachineLearning

MainWiki: Algorithms_for_Machine_Learning (last edited 2018-11-08 17:31:29 by twotwo)