You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
# 1.2 无处不在的数据挖掘
“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘的知识,你或许会有柳暗花明的感觉。
的确,数据挖掘无处不在。它和生活密不可分,就像空气一样,弥漫在你的周围。但是,很多时候,你并不能意识到它。因此,它是陌生的,也是熟悉的。而且,随着信息科技的进步,数据的收集变得十分便利。各式各样(手机、信用卡、浏览网页及部落格等)的信息,从不同的数据源,涌入我们预先设计好的数据仓储。这些信息透过数据挖掘的技术组合在一起,就可快速地勾勒出每个人对生活的品味、特征,并进一步影响我们的生活。
在不久的将来,我们不难想象出这样一个场景。

```python
客服 :「 xx披萨店您好 ! 请问有什么需要我为您服务 ?」
顾客 :「 妳好 , 我想要 .... 」
客服 :「 x先生 , 请先告诉我您的会员卡号码 !」
顾客 :「 我的会员卡号码是xxxxxxxx 」
客服 :「 x先生您好 , 您是住在康庄路xxx , 您家电话是xxxxxxxx , 您的移动电话是xxxxxxxxxx 。 请问这些信息是否有需要更新 ?」
顾客 :「 为什么妳知道我所有的电话号码 ?」
客服 :「 这是因为我们公司的顾客关系管理系统从海量数据中挖掘出了您的信息 。」
顾客 :「 我想要一个海鲜披萨 」
客服 :「 x先生 , 海鲜披萨不适合您 !」
顾客 :「 为什么 ?」
客服 :「 根据您的医疗纪录 , 您有高血压和胆固醇偏高的问题 」
顾客 :「 那 .... 妳们有什么可以推荐的 ?」
客服 :「 您可以试试我们的低脂健康披萨 !」
顾客 :「 妳怎么知道我会喜欢吃这种的 ?」
客服 :「 喔 ! 因为您上星期一在中央图书馆借了一本 《 低脂健康食谱 》」
顾客 :「 好 ... 我要一个家庭号特大披萨 , 要多少钱 ?」
客服 :「 嗯 ? 这个足够您一家十口吃 , 六百九十九元 !」
顾客 :「 可以刷卡吗 ?」
客服 :「 林先生 , 对不起 , 请您付现 ! 因为您的信用卡已经刷爆了 。 您现在还欠银行十万四千八百零七元 , 而且还不包括房贷利息 !」
顾客 :「 喔 ! 那我先去附近的提款机领钱 !」
客服 :「 林先生 , 根据您的记录 , 您已经超过今日提款机提款限额 !」
顾客 :「 算了 ! 妳们直接把披萨送来吧 ! 我这里有现金 。 妳们多久会送到 ?」
客服 :「 大约三十分钟 , 如果您不想等 , 可以自己骑车来 !」
顾客 :「 什么 ?」
客服 :「 根据我们公司顾客关系管理系统的记录 , 您有一辆摩托车 , 车号是x - xxxxx . 」
顾客 :「# @ $ %^& $ %^& ※!」
客服 :「 林先生 , 请您说话小心一点 。 您在20xx年x月x日用脏话侮辱警察 , 被判了十日拘役 !」
顾客 :「 ...... 」
客服 :「 请问还需要什么吗 ?」
顾客 :「 没有了 ! 是不是有三罐可乐免费赠送 ?」
客服 : 「 是的 ! 不过根据记录 , 您有糖尿病 .... 」
```
由以上的例子可以看到,数据挖掘所带给我们思考上的冲击。同时,这样的场景并非遥不可及,而是逐渐、逐渐的在发生。例如大超市的手推车。

传统我们到大超市(如大润发、家乐福等)购物时,因为要买的东西很多,免不了要推一辆手推车。目前手推车的运作方式是你必需先投 1 元硬币,才能取出一辆手推车。当你将手推车推至定点归还时,就会退还你原先投的那个 1 元硬币。这样的方式方便手推车的管理,不会到处都有手推车。但手推车除了装载货物外,不能有其他的用途?新一代智能型手推车的出现,改变了我们的想法?
新一代的智能型手推车结合了无线射频识别技术、室内定位及数据挖掘技术,将手推车的功能除了购物外,还能准确地预测你对产品的喜好,适时提供相关的优惠信息给你,以提高产品的交叉销售率,并提升顾客的价值。
当你要使用智能型手推车时,首先你需要先插入会员卡,以便辨认你的身份。利用无线射频识别技术,当你从货架上取得产品并放入手推车后,你购物的信息便已储存在大超市的数据库中。大超市的管理人员,也可随时并轻松地掌握整个超市货物的销售量及库存量,并适时订购即将缺货的商品。当你完成购物时,仅需直接至柜台缴款,并索取购物明细,即可完成交易,大大地简化整个管理及购物的流程。
利用室内定位技术,大超市的管理者可随时掌握每个顾客,以及手推车的购物动向。可了解大多数顾客的购物路径,在每个区域的停留时间。哪些区域是热门区,哪些乏人问津,哪些货品摆设的位置不对,都可透过这项技术发掘出来,大大地改善整个购物体验。
从上面的例子可以看出,在我们的日常生活中,数据挖掘技术是无处不在的,而且随着技术的进步,会使得我们的生活越来越便利。