1. 数据挖掘模型评估
还不错,待遇也很好,负责项目的需求调研、数据分析、商业分析和数据挖掘模型等,通过对用户的行为进行分析了解用户的需求;2、参与业务部门临时数据分析需求的调研、分析及实现;3、参与数据挖掘模型的构建、维护、部署和评估;4、整理编写商业数据分析报告,及时发现和分析其中隐含的变化和问题,为业务发展提供决策支持;5、派驻或对口支持业务部门提供数据分析服务,与业务部门合作开展业务专题分析;6、支持微博事业部等产品部门下的运营,产品,研发,市场销售等各方面的数据分析,处理和研究的工作需求。
2. 数据挖掘建模与评估内容
数据挖掘建模的标准流程,同时亦称为跨产业数据挖掘标准作业程序,数据挖掘主要分为商业定义、数据理解、数据预处理、建立模型、实施六步,各步骤的叙述说明如下:
3. 数据分析挖掘模型
OLAP与数据挖掘DM具有本质区别
(1)功能不同
数据挖掘DM的功能在于知识发现KDD。如:数据挖掘DM中的“分类”包括:贝叶斯分类、粗糙集分类、决策树分类等,是从数据中发现知识规则,是“透过现象看本质”;
而联机分析OLAP的功能在于“统计”和统计结果的展示,是“现象”和“表象”,不能实现数据挖掘DM的知识发现KDD功能。
(2)数据组成不同
数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则;
而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。
(3)知识与数据的关系不同
数据挖掘DM是从数据中发现知识KDD;
而联机分析OLAP是利用人已知的知识来有意识地组织和使用数据。
(4)基本方法不同
数据挖掘的基础是数学模型和算法;
而OLAP不需要数学模型和算法支持,只与数据仓库和OLAP自身知识相关。
4. 数据挖掘模式评估
商业理解 - 理解需求,定义目标
数据理解 - 探索数据,认知数据
数据准备 - 收集数据,数据清洗、集成等
模型建立 - 选择和应用模型,并加以优化
模型评估 - 检查模型,确认模型符合目标
上线发布 - 将获取的知识转化成报告或者实现数据挖掘过程
商业智能BI、数据仓库DW、数据挖掘DM间的关系
商业智能(Business Intelligent,缩写BI)
是基于数据仓库,经过数据挖掘后,得到商业价值的过程。
数据仓库(Data Warehouse,缩写DW)
相当于BI的地基。是数据库的升级概念,逻辑上都是通过数据库技术来存储数据,不过数据仓库的量更庞大。数据仓库由原有的多个数据来源中的数据进行汇总、整理而得。
数据挖掘(Data Mining,缩写DM)
数据挖掘的核心包括分类、聚类、预测、关联分析等任务。
数据仓库是金矿,数据挖掘是炼金术,商业报告是黄金
5. 数据挖掘模型评估方法
我做数据挖掘相关的工作很多了。简单来谈一下个人对这个问题的看法。有说的不对的地方,欢迎各位同行批评指正:
数据挖掘大概可以分成四类问题,问题不一样,对应的处理方法也不同
1.预测问题:建模数据集合中有X和Y,Y是连续变量。通常用线性模型、随机森林、xgboost算法来解决。评估主要基于测试集上的均方误差或者相对误差。或者计算cross-validation的平均均方误差或者相对误差
2.分类为题:建模数据集合中有X和Y,Y是类别变量。通常用logistic回归、cart、随机森林、xgboost来解决。评估主要基于测试集合上的准确率和召回率或者计算cross-validation的平均准确率或召回率
3.聚类问题:建模数据集合只有X,没有Y。需要把X里面的样本分成多个群组。一般采用K-MEANS算法。不过业界没有统一的评估标准
4.异常检测问题:建模数据集合只有X,没有Y。需要把X数据里面的异常点找出来。这个相对而言比较麻烦。一般用Isolation Forest。业界似乎也没有统一的评价标注。
6. 数据分析 数据挖掘 数据建模
JMP统计发现软件一直是各个行业和政府部门的科学家、工程师及其他数据探索人员的首选工具。通过帮助全球客户发现数据背后的价值,JMP被广泛应用于业务可视化、探索性数据分析(EDA)、数据挖掘、建模预测、实验设计、产品研发、生物统计、医学统计、可靠性分析、市场调研、六西格玛质量管理等领域,裨益半导体和电子、医药、化工、食品、金融和服务、政府和教育等各行各业,并逐渐成为全球领先的数据分析方法及咨询供应商,致力于帮助客户从数据中获取价值,优化决策,驱动创新,成就未来。