1. 数据挖掘的形式有?
数据挖掘起源于多种学科,其中最重要的是统计学和机器学习。统计学起源于数学其强调的是数学的精确性;机器学习主要起源于计算机实践其更倾向于实践,主动检测某个东西,来确定它的表现形式。
2. 简述什么是数据挖掘
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。 大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质
的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。 物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式 著云台
例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。
大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。
斯隆数字巡天收集在其最初的几个星期,比在天文学的历史,早在2000年的整个数据收集更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上和将获得的数据,每5天沃尔玛处理超过100万客户的交易每隔一小时,反过来进口量数据库估计超过2.5 PB的是相当于167次,在美国国会图书馆的书籍 。
FACEBOOK处理400亿张照片,从它的用户群。解码最初的人类基因组花了10年来处理时,现在可以在一个星期内实现。
“大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。 大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。
基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”
事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。
“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
3. 数据挖掘的形式有哪些
流数据是指由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送,规模较小(约几千字节)。流数据包括多种数据,例如客户使用您的移动或 Web 应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或仪器的遥测数据。此类数据需要按记录或根据滑动时间窗口按顺序进行递增式处理,可用于多种分析,包括关联、聚合、筛选和取样。借助此类分析得出的信息,公司得以深入了解其业务和客户活动的方方面面,例如服务使用情况(用于计量/计费)、服务器活动、网站点击量以及设备、人员和实物的地理位置,从而迅速对新情况做出响应。
4. 简述数据挖掘的特点
在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特点:
1大量
大数据的特征首先就体现为“大”,强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。
2高速
就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同.
3多样
广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析.
4价值
这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。你如果有1PB以上的全国所有20-35年轻人的上网数据的时候,那么它自然就有了商业价值.
与其说是大数据,不如说是大数据时代,
一是人类处理数据的能力显著增强。过去也有数据,但数据散乱,没有强大的处理能力,所以发挥不了作用。现在之所以说已经进入了大数据时代,就是因为人类的处理数据能力大大增强了。云计算和大数据是两个方面,如果没有云计算,也就无所谓大数据,云计算能够把海量的、零散的、有价值的数据进行快速处理并释放出价值。
二是数据整合的形式愈发明显。一般来讲,政府掌控了大约80%的公共数据。而在企业数据方面,像阿里巴巴、百度、腾讯等互联网巨头掌握了海量数据。 不管是政府数据,还是企业数据,抑或是社会数据,整合的趋势愈发明显。打通政务流、企业流、社会流,技术整合趋势是必然的。由于老百姓的消费行为可以影响政府决策,所以政府希望老百姓刷卡消费,让数据归集到政府这边。
三是大数据应用领域不断扩散。大数据在政治、经济、社会、文化、生态等几乎每一个领域都有着广阔的应用前景。
四是围绕大数据应用的创新持续活跃。我们看到新业态、新模式、新体制不断出现,市场的活力也在得到不断地释放,个人的创造性也被大大地激活,这是一个前所未有的时代。
上述大数据时代的四大特征,在中国似乎得到了很清晰的验证:网络规模全球第一 、网民数量全球第一 、智能手机用户全球第一 、网络社交参与人数全球第一、网购人数全球第一、电子商务交易额全球第一、移动支付全球第一;无处不在的网络 、无处不在的软件、 无处不在的计算 、无处不在的数据 、无处不在的互联网+。
5. 数据挖掘的形式有哪几种
将客户在电商平台的购物数据进行处理和挖掘,能够得知不同地区的人的生活习惯,例如衣服的尺寸大小,饮食的喜好等,都可以通过数据挖掘,数据化的方式推测出不同地区人的饮食习惯以及身高和体重等数据,这一系列的方式将有助于销售的进行以及相关资源的调配。
6. 数据挖掘的主要方法有
FineBI数据挖掘的结果将以字段和记录的形式添加到多维数据库中,并可以在新建分析时从一个专门的数据挖掘业务包中被使用,使用的方式与拖拽任何普通的字段没有任何区别。
配合FineBI新建分析中的各种控件和图表,使用OLAP的分析人员可以轻松的查看他们想要的特定的某个与结果,或是各种各样结果的汇总。 分类、回归、时间序列分析、预测、聚类、汇总、关联规则、序列发现。
7. 数据挖掘可用于的最基本的数据形式有
1、是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
2、是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
3、是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
4、是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
8. 数据挖掘的形式有几种
高维数据的解答如下:
平时经常接触的是一维数据或者可以写成表形式的二维数据。
高维数据也可以类推,不过维数较高的时候,直观表示很难。
高维数据挖掘是基于高维度的一种数据挖掘,它和传统的数据挖掘最主要的区别在于它的高维度。高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web 文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。