1. 数据仓库与挖掘
大数据应用开发工程师
此类人才负责搭建大数据应用平台以及开发分析应用程序,他们必须熟悉工具或算法、编程、优化以及部署不同的MapReduce,他们研发各种基于大数据技术的应用程序及行业解决方案。其中,ETL开发者是很抢手的人才,他们所做的是从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要,将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,末后加载到数据仓库,成为联机分析处理、数据挖掘的基础,为提取各类型的需要数据创造条件。
大数据分析师
此类人才主要从事数据挖掘工作,运用算法来解决和分析问题,让数据显露出真相,同时,他们还推动数据解决方案的不断更新。随着数据集规模不断增大,企业对Hadoop及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长,具备Hadoop框架经验的技术人员是很抢手的大数据人才,他们所从事的是热门的分析师工作。
2. 数据仓库与挖掘期末大作业
第一点:仓库人员责任心不大,收发货验数不准
我们可以询问和实地查验他们的验收程序。有可能在仓管员太忙时,对供应商送来的物品送货单上写多少他们就收多少。对于那些盘点差异大的材料供应商则更要重点验收。
第二点:账目本身数据计算错误
得出论点较为容易。我们可以重新计算,如果企业运用的ERP则可能性不大,但是EXCEL则很有可能计算出现错误,有的企业因设置的数据表设计不好,上月期末数与下月期初数对不准,此时设计一套实用的数据表是非常有必要的。
第三点:盘点不准
月未盘点时通常财务会监盘,很多财务人员对仓库物品不太熟悉,都是仓库人员在点货,财务人员只是记记数,对这种情况即使有财务监盘的也不准。必要时审计部在月底对其进行抽盘。
第四点:货物丢失
对于货物丢失或盗窃,我们就要对仓库的安全环境进行检查了,我们对盘点的差异可能按存货的特性进行分类,还可以再按保管员分类等,通过分析比较显示是较为珍贵的或者体积较小的容易携带的货物差异较多,则丢失可能性更大。
当然此是假设,是否真的是丢失或是盗窃一定要再进行慎重验证。
每五点:出入库未办手续。
抽查单据,从表格抽查到单据,再从单据来检查表格的对应都不失为一种方法。
第六点:单据未入账。
3. 数据仓库与挖掘技术
数据挖掘又称为数据库中的知识发现,是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有用知识的过程。近年来为了推动数据挖掘在实际中的应用,许多研究者对数据挖掘系统的体系结构做了大量的研究工作。
一个结构合理的数据挖掘系统应该具有以下几个特点:
(1)系统功能和辅助工具的完备性;
(2)系统的可扩展性;
(3)支持多种数据源;
(4) 对大数据量的处理能力;
(5) 良好的用户界面和结果展示能力。
当前出现的数据挖掘系统主要包括集中式的和分布式的数据挖掘系统,而每种系统的具体结构及其各个组成部分却有多种不同的实现技术和实现方式。
4. 数据仓库与挖掘期末考答题
etl与系统化运作管理(信息孤岛、数据统计、数据分析、数据挖掘) ,为DSS(决策支持系统)、BI(商务智能)、经营分析系统技术紧密相关。
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
为了实现企业全局数据的系统化运作管理(信息孤岛、数据统计、数据分析、数据挖掘) ,为DSS(决策支持系统)、BI(商务智能)、经营分析系统等深度开发应用奠定基础,挖掘数据价值 ,企业会开始着手建立数据仓库,数据中台。将相互分离的业务系统的数据源整合在一起,建立一个统一的数据采集、处理、存储、分发、共享中心,从而使公司的成员能够从不同业务部门查看综合数据,而这个过程中使用的数据处理方法之一就是ETL。
5. 数据仓库与挖掘设计报告
仓库的库存数据非常重要,所以做分析表主要是对库存的多少进行分析,包括在一定时间段的库存变化,价格的变化,从而反映出经营的状况。
6. 数据仓库与挖掘实验总结
仓库统计员负责仓库产品出入的账务管理及统计,仓库进销存软件核对工作,仓库日常单据管理工作,时刻监测产品出入及账面变动情况,完成具体指定的品质/仓库数据统计分析工作;编制并上报统计表,建立和健全品质/仓库统计台帐;协调管理统计信息系统,维护和更新统计数据平台;做好品质/仓库统计资料的保密和归档工作。做好仓库统计员需要做好以下几点1、负责货物入库数据的录入工作。准确核对入库货物的数量、品名;2、做好库存货物的安全管理。随时跟踪库存货物的安全状况,对处于警戒区域内的货物要及时报告;3、做好发货单、退货验收报告单的整理,并及时对帐处理,确保库存帐、物相符,发现问题及时向上级反馈;4、协助仓库员做好货物出库的配货及装、卸和入架整理等。5、做好办公室场所和仓库的卫生工作;6、完成上级交办的其它工作任务。7、管理好仓库对生产正常发料的统计调查资料,做好原始资料的保存和归档工作。8、做好仓库发往车间物料使用情况、使用数量分析,为车间主管、财务主管决策提供可靠依据。9、做好管辖区域物料使用、损耗,经济月报表。10、协同车间物料员完成上级交办的其它各项工作任务。仓库岗位职责1、每天按指定时间完成填写库存报表及采购申请工作,要求标明物品的名称、数量、单价、规格、库存量、申购量等内容2、严格检验入库货物,根据有效到货清单,核准物品的数量、质量等,方可办理入库手续3、根据使用部门需要量及物料性质,选择适当的摆放方式,轻拿轻放,分类明细,避免人为损坏及堆放杂乱带来的不便,科学安排库房物品布局,做到整齐、美观、方便。4、物品入库后要马上入账,准确登记5、物品出库时要按照有关规定办理,手续不全不得发货。有特殊情况,需有关领导签字批准。发货时按出库单办理出库手续。6、做好月盘点工作,做到账物相等,账账相符。7、主动与使用部门联系,了解物品的消耗情况,防止因缺少沟通造成的物品短缺8、库存管理办理正常入库手续后,按照物料性质种类分别存入库房,物品存放要合理科学,清洁整齐,防止积压损坏,防止造成不必要的损失9、库管在发放物品时,应按领料单所列品种、规格、数量逐项核准,逐项点发。如果缺货不得用替代品,不得更改单据上任何品名和数字。物品出库后要相应减掉账目数字,以保证账物相符10、仓库保管人员必需定员和指定专人专职负责。物品出入库管理工作和账物管理工作必需由两人共同负责,管物不管账,管账不管物,不能因工作量小而由一个人同时兼任11、仓库帐簿的记账原则是:简单、清楚、及时、准确。为便于记账和便于查找,应按总账、分类账的记账顺序,分别对不同种类、品名、规格、单价的所存物品按不同日期依次进行入库登记12、仓库应将所存物品、食品按不同种类、品名、规格、入库日期等分别进行码放。码放时应做到定位、定架、定号,一目了然,易于盘库,易于清点
7. 数据仓库与挖掘算法实验报告
(1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。
(2)预测/描述精度:估量了数据归纳和概括为模型的好坏。
(3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。
数据归约算法特征:
(1)可测性
(2)可识别性
(3)单调性
(4)一致性
(5)收益增减
(6)中断性
(7)优先权
二、数据归约方法:
1、特征归约:
用相应特征检索数据通常不只为数据挖掘目的而收集,单独处理相关特征可以更有效,我们希望选择与数据挖掘应用相关的数据,以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果:
(1)更少的数据,提高挖掘效率
(2)更高的数据挖掘处理精度
(3)简单的数据挖掘处理结果
(4)更少的特征。
和生成归约后的特征集有关的标准任务有两个:
(1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法
(2)特征构成:特征构成依赖于应用知识。
特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。最优方法的近似:
(1)只对有前景的特征子集进行检查
(2)用计算简单的距离度量替换误差度量
(3)只根据大量数据的子集选择特征。
8. 数据仓库与挖掘期末考大题
包括:
1、传感技术。 这是人的感觉器官的延伸与拓展,最明显的例子是条码阅读器;
2、通信技术。 这是人的神经系统的延伸与拓展,承担传递信息的功能;
3、计算机技术。 这是人的大脑功能延伸与拓展,承担对信息进行处理的功能;
互联网技术的范围:
第一层是硬件,主要指数据存储、处理和传输的主机和网络通信设备;
第二层是指软件,包括可用来搜集、存储、检索、分析、应用、评估信息的各种软件,它包括我们通常所指的ERP(企业资源计划)、CRM(客户关系管理)、SCM(供应链管理)等商用管理软件,也包括用来加强流程管理的WF(工作流)管理软件、辅助分析的DW/DM(数据仓库和数据挖掘)软件等;
第三层是指应用,指搜集、存储、检索、分析、应用、评估使用各种信息,包括应用ERP、CRM、SCM等软件直接辅助决策,也包括利用其它决策分析模型或借助DW/DM等技术手段来进一步提高分析的质量,辅助决策者作决策(强调一点,只是辅助而不是替代人决策)。