数据挖掘9大定律

数据挖掘通用流程CRISP-DM的缔造者之一Tom Khabaza曾总结了在数据挖掘上的九大定律,分布是Business Goals Law (目标律)、Business Knowledge Law (知识律)、Data Preparation Law (准备律)、NFL Law (没有免费午餐,No Free Lunch)、Watkins’ Law (大卫律,沃特金斯定律)、Insight Law(洞察律)、Prediction Law (预测律)、Value Law (价值律)、Law of Change (变化律)。

目录

1. Business Goals Law (目标律)

每个数据挖掘解决方案的根源都是有商业目的的。数据挖掘是一个业务过程,必须得有业务目标。无目的,无过程。 业务目标是所有数据挖掘解决方案的本源。我们探索数据,发掘信息,来帮助我们更好的处理业务。 这难道不是所有业务分析的圣歌吗?很明确,这就该是第一律。每个人都该理解数据挖掘是一个有目标的流程。真的挖掘人员不会在泥沼里打滚,他们有条不紊的按照流程来将有价值的东西暴露出来。数据挖掘人员也是要有条不紊地寻找对他们有价值的信息。引用Tom Khabaza的话:“数据挖掘,首先它不是技术,而是流程,其中有着一个或多个业务目标。没有业务目标的话,就没有数据挖掘。”

2. Business Knowledge Law (知识律)

数据挖掘过程的每一步都需要以商业信息为中心。业务知识贯穿在挖掘这个业务过程的各环节。 业务知识是数据挖掘每一步的核心。我们周围有着一个普遍且严重的误解——数据挖掘不需要 研究人员了解任何事。这是对真正的数据挖掘理论的误读,即从数据中发掘有用的模式,能够也应该交由没有经过正规统计学训练的业务人员。数据挖掘是要让人 ——应用业务知识、经验和洞察力,并依靠数据挖掘方法的业务人员——变得强大,来找到隐含于数据中的意义。

3. Data Preparation Law (准备律)

数据挖掘过程前期的数据准备工作要超过整个过程的一半。 数据准备能让数据挖掘流程事半功倍。这一点对于那些和数据打过交道的人来说毫无意外,无论你是数据挖掘专家,分析人员或者其他职位。然而,还有其他的神话围绕着数据挖掘,说数据挖掘会克服数据质量和完整性的问题。这一神话被那些长期被遗忘的数据挖掘产品供应商所传播,但数据挖掘社区依然努力让数据记录更加正常,数据挖掘需要良好的数据。当然,仅仅有良好的数据是不够的。对数据的操作是挖掘过程的重要环节,Tom Khabaza解释道:“原理要比数据的状态更深入:随着数据的准备,数据挖掘人员要定义问题空间。有两个关于“问题空间”的观点。第一个是数据挖掘人员将数据转换成适合于算法应用的形式就够了——对于绝大多数算法来说,这意味着一个样本一行记录。第二个是数据挖掘人员要通过利用有用的信息来优化数据或者将信息转化为更有效的形式,从而易于让算法找到解决方案。如样本包含了计算项,分级,和计算日期时间差。”

4. NFL Law (没有免费午餐,No Free Lunch)

对于数据挖掘者来说没有免费的午餐,数据挖掘的任何一个过程都是来之不易的。 没有一个固定的算法适用所有的业务问题,特定应用适合的模型只能通过经验发现。只有通过实验才能发现给定应用的正确模型(NFL-DM = “There is No Free Lunch for the Data Miner”)。现在我们可以开始些有趣的讨论。在本文的最后,我将指导你到那些可以读到、参与到的相关讨论中。现在,最重要的是,你要认识到实验是数据挖掘理论和实践的核心。

5. Watkins’ Law (大卫律,沃特金斯定律)

要相信,数中必有业务规律。 此定律以此命名是因为David Watkins首次提出这个概念。这个定律说的是在数据的世界里,总是有模式可循的。您找不到规律不是因为规律不存在,而是因为您还没有发现它。 数据挖掘人员的实践经验就是,当探索数据的时候,总能发现有用的模式。(沃特金斯,Watkins,即David Watkins,也是克莱门汀的知名数据挖掘开发者。)

6. Insight Law(洞察律)

数据挖掘本质上是增强对业务领域的认知。数据挖掘可以把商业领域的信息放大。 数据挖掘将业务领域的感知放大。这一条的意思是,得益于数据挖掘算法和流程——是它们照亮了数据中的那些可能会被埋没的模式。

7. Prediction Law (预测律)

数据挖掘基于过去得出模式,并泛化到类似新事物上,这就是预测,但这是统计概念的。 预测可以为我们增加信息。预测将信息从局部扩散到整体。这是我最难在脑海中理清的一条,但它意味着:数据挖掘提供给我们一种途径,来看到那些未知的结果,并找到那些已知的相似情况(原文:Data mining offers us ways to look at a case whose outcome is unknown, and find similarities to past cases where the outcome is known)。通过理解这些相似性,我们获得了推测未来的信息。

8. Value Law (价值律)

挖掘模型的最终价值并非模型精度或稳定性,而是驱动业务行动或通过新洞察导致策略改善。 数据挖掘模式的精准和稳定并不决定数据挖掘过程的价值,换句话说技术手段再精妙,没有商业意义和合适的商业应用是没有价值的。 数据挖掘的结果的价值并不取决于预测模型的精度和稳定性。流程的真正价值在于满足了业务需要,当然,模型的精度和稳定是好的,但较之于业务预测的价值,有意义的洞察力之价值,或者应用预测于实际的价值来讲要小得多。

9. Law of Change (变化律)

人不会两次踏入同一条河流。业务在变,目标在变,认识也在变,甚至规律本身也在变, 挖掘模型也得与时俱进。所有的模式都会变化。 今天还能带来业务价值的模型,可能明天就过时了。 上面这九条其实归根到底就是一条,商业决定数据挖掘。数据挖掘各类技术和算法的飞速发展不能让我们偏离以商业行为为核心的方向,只是纯粹为了追求高深的技术而忽略或损害到商业目的就本末倒置了。

全文如下: Nine Laws of Data Mining by Tom Khabaza

本文总阅读量