3.9 KiB
1.1 大数据与数据挖掘
大数据没那么神秘
最近几年不管大小企业、国企、私企、民企到处都在说大数据,各种的以大数据为名头的会议、活动也比比皆是,你方唱罢我登台,非常热闹。例如在网上搜“大数据会议”这个关键词,能看到今年已经举办了 1000 多场次关于大数据的会议和活动,可见热度非比寻常。
虽然很多公司宣称自己是大数据公司,但实际上呢?什么样的数据叫大,是 G 级还是 T 级、 P 级、 E级、Z级,还是 B 级?这个真的不太好定义,既然无法定义,那么反复强调自己的大数据,未免滑稽。其实,在国内,除了一些一二线互联网企业,许多宣称自己是大数据公司的数据量连 T 级都不到。在业界也有这样一种调侃的说法,一块硬盘可以打包公司所有数据的公司叫硬盘公司,一个皮包可以装载公司一切的叫皮包公司。
那么所谓的大数据是什么呢?其实就是数据仓库与数据挖掘。而且早在美国的 90 年代就已经有了这两个概念,现在只不过把它们两合在一起变得更加新潮了而已。
很多人都在宣传,大数据给相关公司带来业绩上翻天覆地的变化,而实际情况呢?如果不能很好地对数据做数据挖掘的话,大数据不但不能能给相关公司带来业绩上的任何变化,反而还会因为大量冗余数据给公司运维带来麻烦。数据只是死的,如果你不能从中找出有价值的内容,再“大”也没意义。其实数据量无论大小,如果能够很好地从数据中挖掘出一些有用的知识,那么就是非常有意义的。
所以说,大数据并没有那么神秘。
什么是数据挖掘
接下来,来介绍一下什么是数据挖掘。什么是数据挖掘?为了回答这个问题,有很多数据挖掘书籍都会提到一个经典案例:"尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有 30%~40% 的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
相信你也看出来了,这就是数据挖掘,从常人的知识外找到线索,或者从五花八门的数据中找出一些潜在规律。通俗说,数据挖掘可以做到以下几点:
- 找到没有意识到的问题
- 找到未来发展的趋势
- 找到过去存在的问题
- 把定性的问题定量化
- 数据对象关联的规则问题
- 找到一些隐藏的资料
可想而知,这几点的威力是十分巨大的。而且在我们的日常生活中无时无刻都在享受着数据挖掘为我们带来的便利。