数据挖掘数据标准化(数据挖掘数据标准化方法)

虚拟屋 2022-12-23 08:56 编辑:admin 98阅读

1. 数据挖掘数据标准化方法

数据标准化处理是 数据挖掘 的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标即处于同一数量级,适合进行综合对比评价。

极差法

极差法是对原始数据的线性变换,首先计算指标值得最小值、最大值,计算极差,通过极差法将指标值映射到[0-1]之间。公式为:

新数据=(原数据-极小值)/(极大值-极小值)

Z-score标准化法

SPSS默认的数据标准化方法即是Z得分法,这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。公式为:

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

数据标准化的另外一个实用之处

在实际应用中,数据标准化不只是用于指标的可比性处理,还有一些非常实用的用处,利用标准化方法将指标归到最适于我们观测的范围,更加直观。且看案例:

有一组数据,是学生参加某次社会公益活动的数据,其中有一指标为:在校综合评价指数,反映学生在校综合表现水平。

可以看出这个指标的范围为[0-140],但这个范围不太符合我们在学校里的习惯,在学校里经常用[0-100]的百分制,60分以上基本认可为及格,现在这个范围不能直观的反映学生在校表现水平。此时,极差法是一个非常好的选择,我们可以将[0-140]数值,映射到[0-100],便于直观对比学生的表现。

公式为:(原数据-极小值)/(极大值-极小值)*100

我们再来看看结果:

此时,[0-100]的范围非常符合我们日常的比较标准,能直观的反映学生的在校综合表现,已经达到目的。

2. 数据挖掘的标准过程

知识发现过程的多种描述.它们只是在组织和表达方式上有所不同,在内容上并没有非常本质的区别。知识发现过程包括以下步骤:

1.问题的理解和定义:数据挖掘人员与领域专家合作.对问题进行深入的分析.以确定可能的解决途径和对学习结果的评测方法。

2.相关数据收集和提取:根据问题的定义收集有关的数据。在数据提取过程中,可以利用数据库的查询功能以加快数据的提取速度。

3.数据探索和清理:了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。

4.数据工程:对数据进行再加工.主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习算法等。为了使数据与任务达到最佳的匹配.这个步骤可能反复多次。

5.算法选择:根据数据和所要解决的问题选择合适的数据挖掘算法.并决定如何在这些数据上使用该算法。

6.运行数据挖掘算法:根据选定的数据挖掘算法对经过处理后的数据进行模式提取。

7.结果的评价:对学习结果的评价依赖于需要解决的问题.由领域专家对发现的模式的新颖性和有效性进行评价。数据挖掘是KDD 过程的一个基本步骤.它包括特定的从数据库中发现模式的挖掘算法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。

3. 数据标准化技术

标准化值(standardized value)通常也称为z-score。就是一个正态分布的模型里,某一个数值离中间值或者平均值有几个标准差的距离。公式是z-score=(x-μ)/σ。x是要计算的目标数值,μ是平均值,σ是模型的标准差。excel里面有直接的公式 “=STANDARDIZE(x,mean,standard deviation)”。中间的三个数值可以公式套公式用,平均值就是“=mean(x1,x2......)”,std是“=stdev(x1,x2,.....)”

4. 数据挖掘标准流程

大数据处理的基本流程有几个步骤

1.

大数据处理的第一个步骤就是数据抽取与集成。 这是因为大数据处理的数据来源类型丰富,大数据处理的第一步是对数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储。现有的数据抽取和集成方法有三种,分别是基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎。这些引擎都是很重要的。

2.

大数据处理的第二个步骤就是数据分析。 数据分析师大数据处理流程的核心步骤,通过数据抽取和集成环节,我们已经从异构的数据源中获得了用于大数据处理的原始数据,用户可以根据自己的需求对这些数据进行分析处理,比如数据挖掘、机器学习、数据统计等,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。通过数据分析我们能够掌握数据中的信息。

3.

大数据处理的第三个步骤就是数据解释。

5. 数据挖掘数据标准化方法有哪些

8D是解决问题的8条基本准则或称8个工作步骤,但在实际应用中却有9个步骤:

D0:征兆紧急反应措施

D1:小组成立

D2:问题说明

D3:实施并验证临时措施

D4:确定并验证根本原因

D5:选择和验证永久纠正措施

D6:实施永久纠正措施

D7:预防再发生

D8:小组祝贺

8D优缺点:

1.优点

发现真正肇因的有效方法,并能够采取针对性措施消除真正肇因,执行永久性矫正措施。

能够帮助探索允许问题逃逸的控制系统。 逃逸点的研究有助于提高控制系统在问题再次出现时的监测能力。

预防机制的研究有助于帮助系统将问题控制在初级阶段。

2.缺点

8D培训费时,且本身具有难度。

除了对8D问题解决流程进行培训外,还需要数据挖掘的培训,以及对所需用到的分析工具(如帕累托图、鱼骨图和流程图,等等)进行培训。

6. 数据挖掘规范化方法

数据预处理(datapreprocessing)是指在主要的处理以前对数据进行的一些处理。

如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。

另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。 数据预处理的方法:

1、数据清理 数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。

主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

2、数据集成 数据集成例程将多个数据源中的数据结合起来并 统一存储,建立数据仓库的过程实际上就是数据集成。

3、数据变换 通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

4、数据归约 数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

7. 数据标准化的几种方法

SPSS实现数据标准化步骤如下:

【1】分析——描述统计——描述

【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。

【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。基于此字段可以做其他分析。

8. 数据挖掘数据标准化方法包括

大数据分析的五个基本方面

PredictiveAnalyticCapabilities(预测性分析能力)

数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

DataQualityandMasterDataManagement(数据质量和数据管理)

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

AnalyticVisualizations(可视化分析)

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

SemanticEngines(语义引擎)

我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

DataMiningAlgorithms(数据挖掘算法)

可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

9. 数据分析标准化

各评价指标由于各自量纲的不同,并且指标间数值差异较大,要使指标间能够直接进行比较,要对各类指标进行标准化处理,消除量纲差别,最后将得到值域为(0,1),而且极性一致的数值。对于单因素定性指标按照质量等级赋予离散代数值;对于连续性变化的定量指标,采用相应质量等级的指标范围中值作为标准化指数的基数。

选择合适的标准化方法应坚持标准化方法的比较原则,即同一指标内部相对差距不变原则、不同指标间的相对差距不确定原则、标准化后极大值相等原则。按照上述原则,指标数据的标准化处理方法可划分为线性标准化和非线性标准化两大类,具体方法有:初值化变换、均值化变换、极值化变换、标准差变换等,本书采用线性标准化极值化变换方法,分析调整了标准化计算公式,将原始数据计算处理后得到新的均一化数列。设现状原始数据为Y,标准化后的现状值为X,对指标体系中的每一项评价指标数据划出最大值(Y)和最小值(Y),按照质量等级由优等到差等,标准化指数升高的原则,设定差等级标准化指数最高X=1.00,则标准化计算公式:

正向指标:

基坑降水工程的环境效应与评价方法

反向指标:

基坑降水工程的环境效应与评价方法

经验证符合指标标准化的三大原则。表3.1所示为指标量化分级及标准化指数。

表3.1 基坑降水环境评价指标量化分级及标准化指数