1. 数据挖掘常用的工具有?
SPSS,全称是Statistical Product and Service Solutions,即“统计产品与服
第1页/
务解决方案”软件,是IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,也是世界上公认的三大数据分析软件之一。SPSS具有统计分析功能强大、操作界面友好、与其他软件交互性好等特点,被广泛应用于经济管理、医疗卫生、自然科学等各个领域。具体到管理方面,SPSS也是一个进行数据分析和预测的强大工具。这门课中也会用到AMOS软件。一
2. 当前主流的数据挖掘工具有哪些?
学统计电脑是必不可少的工具,一般而言可以运行常用的统计软件就可以了。其中SAS是对系统环境要求比较高的软件,要求512M内存,所以现在的主流配置就可以满足。
其他的常用的软件excel spss eviews之类的,都对系统要求比较低的。
如果以后你致力于信息方向的研究,比如做一些数据挖掘的东西,则对电脑的要求更高一些,最好有1G吧,这样就够了。当然配置方面是多多益善啦。
3. 常用的开源数据挖掘工具有
获得数据分析师认证证书,取得行业敲门金砖,并进而成功拿到心仪企业的Offer,是不少求职者的梦想。市场中的证书较多,有些是含金量高的,而有些是价值低的,大家一定要选择到好的认证。在这里给大家比较下目前市场中的数据分析类证书。
一般认证机构是两种类型,一种是国家部门认证,一种是行业性质认证。
l 国家部门认证
目前国家部门关于数据分析的认证还没有一个权威的机构。大数据属于新兴科技,一般前沿技术会先实践于企业之中,而相关部门的了解会有滞后性,所以关于大数据和数据分析的专业化技能、知识体系等主要是流行于高科技企业之中,在这个行业成熟之前,国家部门是无法颁发具备专业性兼具认可度和权威性的证书。目前有发证的机构是工信部、教育部、人社部,这几个部门发的证书更多是一个技能的证明,因为在他们管理的上千个认证中,根本无法做到专业,这些证书可能会在国有企事业单位中有一定的参考作用,但并不具有评职称作用,在大数据行业内也无人问津。
l 行业性质认证
1. SAS认证
SAS全球专业认证是由SAS公司颁发的、国际上公认的数据挖掘和商业智能领域的权威认证,随着我国DT环境和应用的日渐进步,以上两个领域将有极大的行业发展空间。获取SAS全球专业认证,会让您在数据挖掘、数据分析领域积累丰富经验奠定良好的基础。但是SAS面临的问题在于,越来越多的竞争性开源软件进入市场,如R语言,PYTHON,Spark等等,由于SAS昂贵的费用,导致自身软件的使用率下降,市场占有率低,在中国一般是大型银行有用到SAS,而其他单位的使用逐年减少。因此SAS证书对于大多数的数据分析人士来讲,如果你是倾向于找国有大型银行的工作,可以考虑;如果你是希望去北美发展,也可以考虑;但如果没有这种机会,最好还是考个其他的认证。by the way, Oracle的认证也类似,不过Oracle的认证没有SAS的好使
2. Coursera
Coursera是免费大型公开在线课程项目,由美国斯坦福大学两名计算机科学教授创办。旨在同世界顶尖大学合作,在线提供免费的网络公开课程。Coursera的首批合作院校包括斯坦福大学、密歇根大学、普林斯顿大学、宾夕法尼亚大学等美国名校。
Coursera证书是每门课程的结业证书,代表修过这门课程并具备相关技能,在美国来讲一些学校是认可的,对申报留学也许有一些作用,但是在国内来讲也更多是一个技能参考作用。by the way, edx也类似
3. CDA数据分析师认证
CDA认证是由CDA Institute发起,在国内由经管之家承办的数据分析师专业证书。是一套专业化,科学化,国际化,系统化的人才考核标准,分为LEVELⅠ ,LEVEL Ⅱ,LEVEL Ⅲ,涉及金融、电商、医疗、互联网、电信等行业大数据及数据分析从业者所需要具备的技能,符合当今全球大数据及数据分析技术潮流。每年6月与12月底在全国范围举办线下数据分析师考试,通过考试者可获得CDA数据分析师认证证书。CDA认证目前已被德勤(Deloitte)、苏宁、中国电信、重庆统计局等企业单位纳入到了内部员工的考核之中,并且来自百度、阿里、京东、惠普、中国银行、IBM、联想、移动、华为、尼尔森宝马、奔驰及政府部门等企业单位的员工有考取CDA认证,并获得了不错的薪资和职位。由于CDA数据分析师专注于数据分析和大数据领域,每年投入大量的资金和人力用于研发,目前CDA认证算是国内最具认可度、含金量最高的证书。
4. BDA认证
BDA是由中国商业统计学会设立的数据分析师培训与考试项目,为提高数据分析工作人员的业务素质。分为初、中、高三个级别,该认证近两年才出来,属于一个新的证书,目前还没有一定的知名度。相关的宣传网站建设还不完善,知识体系还不够强,不推荐大家考取。
5. CPDA认证
CPDA是中国商业联合会下面的二级分会颁发的证书,CPDA的实际意思是项目数据分析师,之前的培训重点在财务方向,自大数据火起来后,逐步往统计和软件方向靠,从品牌定位来讲不明确统一,并且这是培训绑定证书,必须缴纳高额的培训费用才能参加考试,并且多年来一直是只有一门几天的课程内容,不具有完整的知识体系,加上中国商业联合会也是一个非数据科学技术的协会,从专业角度来讲有一些水分。因其在宣传上推广力度大,知道其品牌的新人小白人士较多,但是从企业的认可来讲,参考意义不大。
其他的一些机构认证大多是自己公司的培训证书,就更没有参考价值了。
4. 数据挖掘常用的工具有什么
因为查的内容不同,不好说哪个更好。
天眼查和企查查这两款软件都是非常专业的企业信息查询APP,各有特色。
1、天眼查
天眼查能直接查询,不需要登录,节省了查询时间、减少了操作步骤,相比之下查询效率更高。
天眼查的核心亮点是在关系发现,这更有一点大数据挖掘的意思,它利用去重名技术解决了做关系关联时遇到的重名问题,这是企查查所不具备的。毕竟天眼查自身起家就是做关系发现,企业信息查询是实现关系发现的一个基础。
2、企查查
企查查是一款企业信用查询工具,而天眼查是服务于个人的企业工商数据信息查询系统。
企查查上线时间早,面向开发者开放了API;天眼查则是全免费的、开放式的企业信息查询,没有任何验证码、注册、登录限制,其特色功能是关系发现。
5. 数据挖掘常用的工具有哪些
登山袋:
功用:用来装一些考古中需要的工具。
地图:
功用:它用来寻找挖掘考古的地点在哪里。
皮卷尺:
功用:测量挖掘坑深度还有长度。以及物品的位置。
记录纸笔:
功用:在考古中用来记录的工具。
封口塑料袋:
功用:如果在挖掘中,挖到较小的物品,考古人员就会拿封口塑料带来装。
小平铲(手铲):
功用:一般在挖掘时,都是用它来挖掘,因为如果挖到东西时,才比较不容易损伤物品表面。
毛刷:
功用:当古物上有细小的土时,为了不损伤古物,则选用毛刷来清洁表面。
小卷尺:
功用:她的功用跟皮卷尺差不多,但是它是量长度较短的。
指北针:
功用:挖掘时,用来测量方位的机器。
照相机:
功用:考古人员在挖掘中,是需要详细纪录的,但是纪录不只是文字,也以照片观看,所以照相机是一个非常好用的工具。
洛阳铲(探铲):
功用:物如其名是寻找墓址的工具。使用者握住它将它旋转,锋利的铲头会一点点进入土中,分析它带出来的土,就能知道脚下有没有墓,有多深。
探针:
功用:跟探铲的作用是一样,是一个针状头扎到地底,如果碰到砖就扎不下去了,可能此处有墓,没有洛阳铲准确,属于辅助工具吧。
这些都是基本工具,具体要看是进行何种勘探,辅助工具有很多钟选择。
6. 数据挖掘应用的具体工具
相比较来说爱企查比较好用,主要还是看各自需求了。
爱企查是百度旗下企业信息垂直搜索引擎与展示平台。作为中国知名的企业大数据平台,依托百度先进的AI和大数据技术,为网民提供真实快速的企业信息免费查询服务。通过对企业监管、经营行为、市场反馈、关系网络等信息的全面及时的专业解读,降低数据流通壁垒,提升商业安全,促进经济社会健康持续发展。
7. 数据挖掘工具主要有
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式。在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等。
数据挖掘涉及的学科领域和技术很多,有多种分类法。
(1)根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。
(2)根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法等等。
8. 数据挖掘常用的方法有
分析数据有两种,
1列表法
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
2作图法
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR为纵轴,以1/T为横轴画图,则为一条直线。
这个要看你分析什么数据。
分析大数据,R语言和Linux系统比较有帮助,运用到的方法原理可以翻翻大学的统计学,不需要完全理解,重在应用。
分析简单数据,Excel就可以了。Excel本意就是智能,功能很强,容易上手。我没有见过有人说自己精通Excel的,最多是熟悉Excel。Excel的函数可以帮助你处理大部分数据。
一、掌握基础、更新知识。
基本技术怎么强调都不过分。这里的术更多是(计算机、统计知识),多年做数据分析、数据挖掘的经历来看、以及业界朋友的交流来看,这点大家深有感触的。
数据库查询—sql
数据分析师在计算机的层面的技能要求较低,主要是会sql,因为这里解决一个数据提取的问题。有机会可以去逛逛一些专业的数据论坛,学习一些sql技巧、新的函数,对你工作效率的提高是很有帮助的。
统计知识与数据挖掘
你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如:多元统计:回归分析、因子分析、离散等,数据挖掘中的:决策树、聚类、关联规则、神经网络等。但是还是应该关注一些博客、论坛中大家对于最新方法的介绍,或者是对老方法的新运用,不断更新自己知识,才能跟上时代,也许你工作中根本不会用到,但是未来呢?
行业知识
如果数据不结合具体的行业、业务知识,数据就是一堆数字,不代表任何东西。是冷冰冰,是不会产生任何价值的,数据驱动营销、提高科学决策一切都是空的。
一名数据分析师,一定要对所在行业知识、业务知识有深入的了解。例如:看到某个数据,你首先必须要知道,这个数据的统计口径是什么?是如何取出来的?这个数据在这个行业,在相应的业务是在哪个环节是产生的?数值的代表业务发生了什么(背景是什么)?对于a部门来说,本月新会员有10万,10万好还是不好呢?先问问上面的这个问题:
对于a部门,
1、新会员的统计口径是什么。第一次在使用a部门的产品的会员?还是在站在公司角度上说,第一次在公司发展业务接触的会员?
2、是如何统计出来的。a:时间;是通过创建时间,还是业务完成时间。b:业务场景。是只要与业务发接触,例如下了单,还是要业务完成后,到成功支付。
3、这个数据是在哪个环节统计出来。在注册环节,在下单环节,在成功支付环节。
4、这个数据代表着什么。10万高吗?与历史相同比较?是否做了营销活动?这个行业处理行业生命同期哪个阶段?
在前面二点,更多要求你能按业务逻辑,来进行数据的提取(更多是写sql代码从数据库取出数据)。后面二点,更重要是对业务了解,更行业知识了解,你才能进行相应的数据解读,才能让数据产生真正的价值,不是吗?
对于新进入数据行业或者刚进入数据行业的朋友来说:
行业知识都重要,也许你看到很多的数据行业的同仁,在微博或者写文章说,数据分析思想、行业知识、业务知识很重要。我非常同意。因为作为数据分析师,在发表任何观点的时候,都不要忘记你居于的背景是什么?
但大家一定不要忘记了一些基本的技术,不要把基础去忘记了,如果一名数据分析师不会写sql,那麻烦就大了。哈哈。。你只有把数据先取对了,才能正确的分析,否则一切都是错误了,甚至会导致致命的结论。新同学,还是好好花时间把基础技能学好。因为基础技能你可以在短期内快速提高,但是在行业、业务知识的是一点一滴的积累起来的,有时候是急不来的,这更需要花时间慢慢去沉淀下来。
不要过于追求很高级、高深的统计方法,我提倡有空还是要多去学习基本的统计学知识,从而提高工作效率,达到事半功倍。以我经验来说,我负责任告诉新进的同学,永远不要忘记基本知识、基本技能的学习。
二、要有三心。
1、细心。
2、耐心。
3、静心。
数据分析师其实是一个细活,特别是在前文提到的例子中的前面二点。而且在数据分析过程中,是一个不断循环迭代的过程,所以一定在耐心,不怕麻烦,能静下心来不断去修改自己的分析思路。
三、形成自己结构化的思维。
数据分析师一定要严谨。而严谨一定要很强的结构化思维,如何提高结构化思维,也许只需要工作队中不断的实践。但是我推荐你用mindmanagement,首先把你的整个思路整理出来,然后根据分析不断深入、得到的信息不断增加的情况下去完善你的结构,慢慢你会形成一套自己的思想。当然有空的时候去看看《麦肯锡思维》、结构化逻辑思维训练的书也不错。在我以为多看看你身边更资深同事的报告,多问问他们是怎么去考虑这个问题的,别人的思想是怎么样的?他是怎么构建整个分析体系的。
四、业务、行业、商业知识。
当你掌握好前面的基本知识和一些技巧性东西的时候,你应该在业务、行业、商业知识的学习与积累上了。
这个放在最后,不是不重要,而且非常重要,如果前面三点是决定你能否进入这个行业,那么这则是你进入这个行业后,能否成功的最根本的因素。数据与具体行业知识的关系,比作池塘中鱼与水的关系一点都不过分,数据(鱼)离开了行业、业务背景(水)是死的,是不可能是“活”。而没有“鱼”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。
如何提高业务知识,特别是没有相关背景的同学。很简单,我总结了几点:
1、多向业务部门的同事请教,多沟通。多向他们请教,数据分析师与业务部门没有利益冲突,而更向是共生体,所以如果你态度好,相信业务部门的同事也很愿意把他们知道的告诉你。
2、永远不要忘记了google大神,定制一些行业的关键字,每天都先看看定制的邮件。
3、每天有空去浏览行业相关的网站。看看行业都发生了什么,主要竞争对手或者相关行业都发展什么大事,把这些大事与你公司的业务,数据结合起来。
4、有机会走向一线,多向一线的客户沟通,这才是最根本的。
标题写着告诫,其实谈不上,更多我自己的一些心得的总结。希望对新进的朋友有帮助,数据分析行业绝对是一个朝阳行业,特别是互联网的不断发展,一个不谈数据的公司根本不叫互联网公司,数据分析师已经成为一个互联网公司必备的职位了。