You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
pt5jvslni/Chapter1/数据挖掘所用到的技术.md

4.1 KiB

1.2 数据挖掘所用到的技术

想要实现数据挖掘,就需要用到许多技术比如:统计学、机器学习等。

1.2.1 统计学

统计学研究数据的收集、分析、解释和表示。其实,数据挖掘与统计学具有天然联系。统计模型是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。统计模型广泛用于对数据建模。例如,在像数据特征化和分类这样的数据挖掘任务中,可以建立目标类的统计模型。换言之,这种统计模型可以是数据挖掘任务的结果。反过来,数据挖掘任务也可以建立在统计模型之上。例如,我们可以使用统计模型对噪声和缺失的数据值建模。于是,在大数据集中挖掘模式时,数据挖掘过程可以使用该模型来帮助识别数据中的噪声和缺失值。

统计学研究开发一些使用数据和统计模型进行预测和预报的工具。统计学方法可以用来汇总或描述数据集。对于从数据中挖掘各种模式,以及理解产生和影响这些模式的潜在机制,统计学是有用的。推理统计学用某种方式对数据建模,解释观测中的随机性和确定性,并用来提取关于所考察的过程或总体的结论。

统计学方法也可以用来验证数据挖掘结果。例如分类或者预测模型之后,应该使用统计假设检验来验证模型。

在数据挖掘中使用统计学方法并不简单。通常,一个巨大的挑战是如何把统计学方法用于大型数据集。许多统计学方法都具有很高的计算复杂度。当这些方法应用于分布在多个逻辑或物理站点熵的大型数据集时,应该小心地设计和调整算法,以降低计算开销。

1.2.2 机器学习

某些方面上来说,数据挖掘与机器学习在之间存在着许多相同之处。在这里我们介绍一些与数据挖掘高度相关的,经典的机器学习问题。

  • 监督学习:即在机器学习模型的训练过程中所使用的训练集是有标签,即标准答案的。也可以理解成告诉哪些数据的答案是 A哪些数据的答案是 B然后让机器学习程序来自己学习其中的规律。

  • 无监督学习:本质上是聚类的同义词。学习过程是无监督的,因为输入样本是没有标签的。典型地,我们可以使用聚类发现数据中的类。例如一个无监督学习方法可以取一个手写数字图像集合作为输入。假设它找出了 10 个数据簇,这些簇可以分别对应 0-9 这 10 个不同的数字。然而,由于训练数据并无标记,因此学习到的模型并不能告诉我们发现的簇的语义。

  • 半监督学习:是一类机器学习技术,在学习模型时,它使用标记和未标记的样本。其中标记的样本用来学习模型,未标记的样本用来进一步改进模型。

你可能已经看出,数据挖掘与机器学习有许多相似之处。对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率之外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性,以及处理复杂数据类型的方法。

1.2.3 信息检索

信息检索是搜索文档或文档中信息的科学。文档可以是文本或多媒体,并且可能驻留在 Web 上。传统的信息检索与数据库系统之间的差别有两点:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没有复杂的结构。

信息检索的典型方法是使用概率模型。例如,文本文档可以看作词的包,即出现在文档中的词的多重集合。文档的语言模型是生成文档中词的包的概率密度函数。两个文档之间的相似度可以用对应的语言模型之间的相似性度量。

此外,一个文本文档集的主题可以用词汇表上的概率分布建模,即主题模型。一个文本文档可以涉及多个主题,可以看作多个主题混合的模型。通过集成信息检索模型和数据挖掘技术,我们可以找出文档集中的主要问题,对集合中的每个文档,找出所涉及的主要主题。