1. 数据分析特征工程
SPSS作为一款成熟的数据分析工具,其主要特点就是将各种各样的统计分析方法流程化模块化。
一、SPSS常用多变量分析技术比较汇总表
20151110spss01注:
卡方分析:定量两个定性变量的关联程度
简单相关分析:计量两个计量变量的相关程度
独立样本T检验:比较两组平均数是否相等
ONEWAY ANOVA:可以比较三组以上的平均数是否相等,并进行多重比较检验
TWOWAY ANOVA:可以比较两因素的平均数是否相等,并检验主效应和交互效应
判别分析与logistic回归:应用于检验一组计量的自变量(可含虚拟变量)是否可以正确区别一个定性的因变量
多维量表法(MDS):试图将个体中的变异数据,经过转为为一个多维度的空间图,且转化的个体在空间中的相对关系仍与原始数据尽量配合一致。
二、SPSS常用统计技术(变量个数与测量量表)比较汇总表
20151110spss02
注:理论模型中变量通常很难测量,这类变量称为潜变量,如绩效、满意度、忠诚度等。
三、SPSS学习的大致框架
20151110spss03
2. 数据的特征分析
1.
集中趋势:反映数据向其中心靠拢或 聚集程度;
2.
离中趋势;数据远离中心的趋势(又称 离散程度);
3.
偏态和峰态;偏态是对数据分布对称 性的度量;峰度是指数据分布的平峰或 尖峰程度(形状)。
3. 大数据特征工程
你好!数据、信息和知识这三者都是社会生产活动中的一种基础性资源,都可以采用数宇、文宇、符号、图形、声音、影视等多媒体来表示。而且,它们都同时具有客观性、真实性、正确性、价值性、共享性,结构性等特点。例如:现在我给你回答问题,必须要有文化知识,网站需要有一定的数据支撑才可以做出来,使得人们看见,也需要一定的知识去开发。实际上我们这种也算是一种联系,就是利用互联网信息。
4. 数据特征分析方法
数据分布特征可以从集中趋势、离中趋势及分布形态三个方面进行描述。
平均指标是在反映总体的一般水平或分布的集中趋势的指标。 测定集中趋势的平均指标有两类:位置平均数和数值平均数。 位置平均数是根据变量值位置来确定的代表值,常用的有:众数、中位数。 数值平均数就是均值,它是对总体中的所有数据计算的平均值,用以反映所有数据的一般水平,常用的有算术平均数、调和平均数、几何平均数和幂平均数。
变异指标是用来刻画总体分布的变异状况或离散程度的指标。 测定离中趋势的指标有极差、平均差、四分位差、方差和标准差、以及离散系数等。 标准差是方差的平方根,即总体中各变量值与算术平均数的离差平方的算术平方根。 离散系数是根据各离散程度指标与其相应的算术平均数的比值。
矩、偏度和峰度是反映总体分布形态的指标。 矩是用来反映数据分布的形态特征,也称为动差。 偏度反映指数据分布不对称的方向和程度。 峰度反映是指数据分布图形的尖峭程度或峰凸程度。
5. 数据挖掘特征工程
1:数据量大(volume)
非结构化数据的超大规模增长导致数据集合的规模不断扩大,数据单位已经从GB级到TB级再到PB级,甚至开始以EB和ZB来计数。
2:类型繁多(variety)
大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据,还包括半结构化数据甚至是非结构化数据,具有异构性和多样性的特点。
3:价值密度低(value)
大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式作可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。
4:速度快时效高(velocity)
处理速度快,时效性要求高。需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。