数据挖掘评估模型(数据分析挖掘建模)

虚拟屋 2022-12-23 06:53 编辑:admin 146阅读

1. 数据分析挖掘建模

数据挖掘建模的标准流程,同时亦称为跨产业数据挖掘标准作业程序,数据挖掘主要分为商业定义、数据理解、数据预处理、建立模型、实施六步,各步骤的叙述说明如下:

2. 数据挖掘模型评估方法

数据分析师作为一个越来越炙手可热的行业,主要职责包括:

1、负责项目的需求调研、数据分析、商业分析和数据挖掘模型等,通过对用户的行为进行分析了解用户的需求;

2、参与业务部门临时数据分析需求的调研、分析及实现;

3、参与数据挖掘模型的构建、维护、部署和评估;

4、整理编写商业数据分析报告,及时发现和分析其中隐含的变化和问题,为业务发展提供决策支持;

5、对产品部门下的运营,产品,研发,市场销售等各方面的数据分析,处理和研究的工作需求。

3. 数据分析 数据挖掘 数据建模

大数据建模是一个数据挖掘的过程,就是从数据之中发现问题,解释这些问题,建立相应的数据模型。

大数据建模不只是一个技术,而是一个为了解决业务流程的问题的过程,如果没有目标或者说不是以解决业务方面的问题作为目标,那么就没有大数据建模。

大数据建模要基于了解业务知识的商业理解的基础上,知道这些相关的数据与业务问题有什么的关系,是怎么相关起来的,到最后的塑造阶段,也是要利用业务知识来进行模型塑造,建立起来的大数据模型要通过业务问题的提问和解答。

做大数据建模,不仅仅是建模这一个动作,整个过程的多个环节都是很重要的,在大数据建模的过程中,找到合适的数据源才是重点,对于数据源进行预处理则是难点,数据预处理是困难,虽然说现在已经有很多的自动化的数据处理工具可以被使用,但是这些分析工具以及各种分析方法也是通过了很长的一段探索时间。做大数据建模的时候,在数据预处理阶段不能着急,要找到合适数据预处理的分析方法。

在进行大数据建模的时候应注重一些数据原有的模式,例如在进行客户购买行为分析过程中,可客户之后的购买预测可能和之前的购买行为有关系,当然这个过程和操作者的经验有很大的相关性,特别是在了解一开始的业务知识之后,可能对于这种原有的模式会有更好的理解。

一个模型建立起来了,很多人会依照这个模型进行各种预测,如果预测的准确,就说明模型是好的模型,是有价值的,实际上这个不能作为判断价值的标准,一个好的大数据模型是为了改变企业的行为以及以预测的结果来改善企业的行为,传递新的知识和见解,以及会不会适应业务的发展的需要才是它的衡量尺标。

4. 数据挖掘模型的评价标准

数据挖掘的基本步骤是:1、定义问题;2、建立数据挖掘库;3、分析数据;4、准备数据;5、建立模型;6、评价模型;7、实施。

具体步骤如下:

1、定义问题

在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。

2、建立数据挖掘库

建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。

3、分析数据

分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。

4、准备数据

这是建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。

5、建立模型

建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。

6、评价模型

模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证明,有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定,因此,直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。

7、实施

模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。

5. 数据挖掘评估模型包括

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘对象

1.数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

2.数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。

3.发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

数据挖掘步骤

在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步地进行数据挖掘工作。比如,SPSS公司的5A和SAS公司的SEMMA。

数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。下面让我们来具体看一下每个步骤的具体内容:

(1)定义问题。在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。

(2)建立数据挖掘库。建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。

(3)分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。

(4)准备数据。这是建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。

(5)建立模型。建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。

(6)评价模型。模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证明,有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定,因此,直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。

(7)实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。