时间:2022-09-29 10:25:43来源:网络整理
下面介绍十种数据挖掘(Data Mining)的分析方法,让大家对模型有个初步的了解。以上就是日常挖矿中经常遇到的算法,希望对大家有用!(甚至有数据挖掘公司使用其中一种算法统治世界)
1、基于记忆的推理(MBR)
基于历史的MBR分析方法的主要概念是利用已知案例(cases)来预测未来案例(attributes)的一些属性,通常寻找最相似的案例进行比较。
基于记忆的推理有两个主要元素,距离函数和组合函数。距离函数的目的是找到最相似的情况;组合函数将相似案例的属性组合起来进行预测。基于记忆的推理的优点是它允许不受某些假设约束的各种类型的数据。另一个优点是它的学习能力,它可以通过从旧案例中学习来获取有关新案例的知识。更被诟病的是,它需要大量的历史数据,而且有足够的历史数据才能做出好的预测。此外,基于记忆的推理方法处理耗时,难以找到最佳距离函数和组合函数。
2、市场篮子分析
购物篮分析的主要目的是找出应该放在一起的东西?商业应用就是通过客户的购买行为,了解这些客户是什么类型的客户以及这些客户购买这些产品的原因,并找出相关的关联规则。企业通过挖掘这些规则获得利益并建立竞争优势。例如,零售店可以利用这种分析来改变货架上的产品排列或设计商业包装来吸引顾客。
购物篮分析的基本操作流程包括以下三点:
(1)选择正确的项目:这里的正确性是指企业主体,必须从成百上千个真正有用的项目中选出。
(2)通过共现矩阵的讨论挖掘了关联规则。
(3)克服实际限制:选择的项目越多,计算所花费的资源和时间就越长(呈指数增长),必须使用一些技巧来减少资源和时间的消耗。
购物篮分析技术可以应用于以下问题:
(1)对于信用卡购买,可以预测未来客户可能会购买什么。
(2)对于电信和金融服务行业,篮子分析可以设计不同的服务组合以实现利润最大化。
(3)保险业可以使用购物篮分析来检测和预防潜在的异常保单组合。
(4)对于患者来说,在治疗组合方面,购物篮分析可以作为判断这些治疗组合是否会导致并发症的依据。
3、决策树
决策树具有很强的解决分类和预测的能力。它以规则的形式表达,而这些规则被表达为一系列的问题,通过不断的提问,最终可以得出想要的结果。一个典型的决策树,顶部有一个根空间数据挖掘的神经网络技术研究,底部有许多叶子,它将记录分解为不同的子集,每个子集可能包含一个简单的字段规则。此外,决策树可能有不同的外观,例如二叉树、三叉树或混合决策树类型。
4、遗传算法
遗传算法学习细胞进化的过程,细胞可以通过不断的选择、复制、交配和突变产生更好的新细胞。遗传算法以类似的方式工作。它必须提前建立一个模式,然后经过一系列类似于生成新细胞过程的操作,使用适应度函数来判断生成的后代是否符合这个模式。最后,只有最匹配的结果存活下来,程序运行直到函数收敛到最优解。遗传算法在聚类问题上具有良好的性能,通常可用于辅助基于记忆的推理和类似神经网络的应用。
5、集群检测
这项技术涵盖范围很广,包括遗传算法、神经网络和统计学中的聚类分析。它的目标是在数据中找到以前未知的相似组,聚类检测技术最初用于许多分析作为研究的起点。
6、链接分析
连通性分析是基于数学中的图论,通过记录人与人之间的关系来开发模型。已经开发了相当多的应用程序。例如,电信服务行业可以通过链路分析收集客户电话使用的时间和频率,进而推断客户的使用偏好并提出对公司有利的解决方案。除了电信行业,越来越多的营销人员也在使用链接分析来进行商业友好型研究。
7、OLAP 分析(在线分析处理;OLAP)
严格来说,OLAP分析并不是一种特殊的数据挖掘技术,但通过在线分析处理工具,用户可以更清楚地了解隐藏在数据中的潜在意义。和一些视觉处理技术一样空间数据挖掘的神经网络技术研究,通过图表或图形的方式展示对普通人来说更加友好。这些工具还可以帮助实现将数据转化为信息的目标。
8、神经网络
神经网络是一种重复学习的方法,通过一系列的例子来传递和学习,这样它就可以总结出一个足够可区分的模式。当面对新的例子时,神经网络可以根据其过去的学习结果推导出新的结果,这是机器学习的一种。数据挖掘的相关问题也可以采用神经学习的方法,其学习效果非常正确,可以用于预测函数。
9、判别分析
当遇到的问题的因变量是定性的而自变量(预测变量)是定量的时,判别分析是一种非常合适的技术。它通常用于解决分类问题。如果因变量由两组组成,则称为两组判别分析;如果它由多个组组成,则称为多重判别分析(MDA)。
(1) 查找使组间变异与组内变异的比率最大化的预测变量的线性组合,并且每个线性组合与先前获得的线性组合不相关。
(2) 测试看各组重心是否有差异。
(3) 找出哪些预测变量最具辨别力。
(4) 根据预测变量的值将新受试者分配给总体。
10、后勤分析
当判别分析中的总体不满足正态分布假设时,Logis 回归分析是一个很好的选择。Logis 回归分析不预测事件是否发生,而是预测该事件发生的概率。它假设自变量和因变量之间的关系呈S线形状。当自变量非常小时,概率值接近于零;当自变量值缓慢增大时,概率值沿曲线增大,当增大到一定程度时,曲线协概率开始减小,所以概率值在0到1之间。
声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。
图文推荐
2022-09-29 10:25:43
2022-09-29 08:10:05
2022-09-28 13:03:36
2022-09-28 12:10:02
2022-09-28 12:02:31
2022-09-28 11:10:03
热点排行
精彩文章
2022-09-27 15:10:29
2022-09-26 15:10:17
2022-09-26 14:10:27
2022-09-26 12:01:29
2022-09-25 12:02:25
2022-09-25 10:03:28
热门推荐