1. 基于hadoop平台的数据分析和应用研究
Hadoop开发工程师
职责:
a. 基于hadoop、hive等构建数据分析平台,进行数据平台架构设计、开发分布式计算业务;
b. 应用大数据、数据挖掘、分析建模等技术,对海量数据进行挖掘,发现其潜在的关联规则;
c. 对hadoop、hive、hbase、Map/Reduce相关产品进行预研、开发;
d. 通过Hadoop相关技术解决海量数据处理问题、大数据量的分析。
e. Hadoop相关业务脚本的性能优化与提升,不断提高系统运行效率;
数据工程师
职责:
a. 分析各类用户不断变化的行为;
b. 预测各类营销对用户的影响,定位精准市场投放;
c. 帮助实现自动化监控平台。
Hadoop运维工程师
职责:
a. 平台大数据环境的部署维护和技术支持;
b. 应用故障的处理跟踪及统计汇总分析;
c. 应用安全,数据的日常备份和应急恢复;
业务数据分析师
职责:
a. 与关键投资者的业务分析师和高级管理人员紧密合作,了解他们的经营策略和问题,确定研究需求,帮助设计实验,并根据结果提出建议。
b. 通过客户细分,从多个来源的定量和定性派生的发展和应用进行影响的决定。
c. 调整利益相关者和分析师对如何使用研究和分析的想法,以支持业务计划和战略的优先试图(分析路线图)。
d.传动复杂的分析项目,需要分析或利益相关者从开始到结束之间的多团队协作。
e.有效地管理多个在建设的项目,确保目标和时间获得满足。确定在短期和长期间的权衡和平衡所有投资者的需求。
f.关键指标与解释器的讨论,推测并提出行动。
g.与业务伙伴的投资者在制定和优先的业务问题上考虑短期和长期的潜在影响,解释结果,量化的机遇,并提出了一个观点合作
数据挖掘分析师
职责:
a.对优先考虑的账户进行统计分析,从而最大限度的成功化。
b.与主管或客户端沟通行动计划,并找出需要改进的地方。
c.执行战略数据分析和研究,以支持业务需求。
d.找准机会从而通过复杂的统计建模提高生产率
e.浏览数据来认准机会并提高业务成效
f.指定业务流程,目标和战略的理解,以提供分析和解释。
g.通过内部讨论的理解,在适当情况下获得业务需求和必要的分析。
2. 基于hadoop平台的数据分析和应用研究方法
Hive 是基于 Hadoop 的数据仓库软件,可以查询和管理 PB 级别的分布式数据。数据仓库已用多种方式定义,很难给出一种严格的定义。宽泛来讲,数据仓库是一种数据库,他与单位的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。
3. Hadoop大数据开发技术
学的专业课程主要有:计算机科学与技术、软件工程、数学分析、高等代数、普通物理数学与信息科学概论、数据结构、数据科学导论、程序设计导论、程序设计实践、离散数学、概率与统计、算法分析与设计、数据计算智能、数据库系统概论、计算机系统基础、并行体系结构与编程、非结构化大数据分析、数据科学算法导论、数据科学专题、数据科学实践、互联网实用开发技术、抽样技术、统计学习、回归分析、随机过程。
4. 基于hadoop的大数据
1、Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 2、HDFS Hadoop的分布式文件系统。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。 3、MapReduce(分布式计算框架) MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。 4、Hive(基于Hadoop的数据仓库)Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。
5. 基于hadoop平台的数据分析和应用研究论文
大数据开源平台hadoop的作者,doug cutting ,他是借鉴了当时google的三篇公开论文(GFS/mapreduce/bigtable),然后他自己开发了一套java的大数据处理系统hadoop(hdfs,mapreduce),hbase