You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

2.8 KiB

1.1:数据挖掘简介

人类正被数据淹没,却饥渴于知识。随着数据库技术的应用越来越普及,人们正逐步陷入“数据丰富,知识贫乏”的尴尬境地。知识信息的“爆炸”给人类带来莫大益处,但也带来不少弊端,造成知识信息的“污染”。面临浩瀚无际而被污染的数据,人们呼唤从数据汪洋中来一个去粗取精、去伪存真的技术。在这种形势下,数据挖掘应运而生。数据挖掘就是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的,目标明确、 针对性强、精炼准确的信息和知识的过程。 数据与知识贫乏导致了知识发现和数据挖掘的出现,当人们进入 21 世纪以后,可以预计知识发现与数据挖掘的研究又将形成一个新的高潮。

数据挖掘是一门多学科交叉的领域。一方面,数据挖掘以计算技术的发展为首要条件,没有数据的有效组织,从一堆数据垃圾中发现有用的知识是痴人说梦;没有大量计算算法的支持,即使是简单的查询也会耗时巨大,更不用说发现有用的模式。另一方面,即使数据得到有效的组织,计算算法足够先进,要想发现数据中隐藏的有用信息,还必须综合利用统计学、模式识别、人工智能、机器学习、神经网络等学科的专业知识。比如数据挖掘使用的分析方法,有相当大比重是靠统计学中的多元分析来支撑的,由统计理论衍生出来的。当然,所有这些学科的发展必然会从不同的角度关 注数据分析技术的进展,数据挖掘也为这些学科的发展提供了新的机遇和挑战。

数据挖掘是用于数据处理的一种新的思维方法和技术手段,它是在现实生活中各种数据量不断增长,以及以数据库技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现隐藏在数据库中的规律和模式,它融合了人工智能、统计、机器学习、模式识别和数据库等多种学科的理论、方法与技术,通过对数据的归纳、分析和推理,从中发掘出潜在的模式,帮助决策者调整策略,进行正确的决策。

但是,我们也必须看到,要研究数据挖掘,必须强调所用方法的概念和属性,而不是机械的应用不同的数据挖掘工具。对方法、模型以及它们怎样运转及运转原理的 深入理解是有效和成功运用数据挖掘技术的先决条件。任何在数据挖掘领域的研究者和实践者都要意识到这些问题,以便成功地应用一种特定的方法,理解一种方法的 局限性,或者开发新技术。