数据挖掘基础知识(数据挖掘基础知识点)

虚拟屋 2022-12-22 11:24 编辑:admin 292阅读

1. 数据挖掘基础知识点

大家都知道,在进行数据分析的时候需要先挖掘数据和存取数据,这样才能够为数据分析工作打好基础。

但是在一般情况下,数据挖掘出来之后是有很多无用重复的数据的,如果将这些数据直接分析的时候会影响分析结果,这就需要对数据进行加工。如果加工得好,那么出来后的数据是一个简洁、规范、清晰的样本数据。

数据加工的步骤通常包括数据抽取、数据转换、数据计算。

2. 数据挖掘基础知识点总结

数据挖掘起源于多种学科,其中最重要的是统计学和机器学习。统计学起源于数学其强调的是数学的精确性;机器学习主要起源于计算机实践其更倾向于实践,主动检测某个东西,来确定它的表现形式。

3. 数据挖掘基础概念

商务智能指利用数据仓库、数据挖掘技术对客户数据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,如客户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等,为企业的各种经营活动提供决策信息。 “商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。”

数据挖掘是个技术概念,商务智能是商业领域综合利用数据的很宽泛的应用概念。狭义的说商务智能是数据挖掘技术在商业领域的应用。

4. 数据挖掘需了解的数据基础

大数据分析是指对规模巨大的数据进行分析。

大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、Value(价值)、真实性(Veracity)。

大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

随着大数据时代的来临,大数据分析也应运而生

5. 数据挖掘基本概念

1.定义不同,数据挖掘也称为数据库中的知识发现。数据提取是用运技术从在线资源中提取数据(有时是非结构化的或结构不良的)到集中存储位置以供使用进一步处理。

2.处理过程不同,数据挖掘的作用是在数据中发现和理解新的和看不见的知识,并从中确定一个价值。数据的抽取过程不包括处理或分析。这些是在数据存储之后完成的。

6. 数据挖掘基本知识

本科或硕士以上学历,数据挖掘、统计学、数据库相关专业。熟练掌握关系数据库技术,具有数据库系统开发经验;熟练掌握常用的数据挖掘算法;具备数理统计理论基础,并熟悉常用的统计工具软件。国内一批大学,211或者985最好。

7. 数据挖掘导论知识点

《人工智能导论》复习知识点

 

选择题知识点

1.人工智能、人工神经网络、机器学习等人工智能中常用词的英文及其英文缩写。

人工智能Artificial Intelligence,AI

人工神经网络Artificial Neural Network,ANN

机器学习Machine Learning,ML

深度学习Deep Learning,DL

2.什么是强人工智能?

强人工智能观点认为有可能制造出真正能推理(Reasoning)和解决问题(Problem_solving)的智能机器,并且,这样的机器将被认为是有知觉的,有自我意识的。可以独立思考问题并制定解决问题的最优方案,有自己的价值观和世界观体系。有和生物一样的各种本能,比如生存和安全需求。在某种意义上可以看作一种新的文明。

3.回溯算法的基本思想是什么?

能进则进。从一条路往前走,能进则进,不能进则退回来,换一条路再试。

4.面向对象、产生式系统、搜索树的定义?

面向对象(Object Oriented)是软件开发方法,一种编程范式。面向对象的概念和应用已超越了程序设计和软件开发,扩展到如数据库系统、交互式界面、应用结构、应用平台、分布式系统、网络管理结构、CAD技术、人工智能等领域。面向对象是一种对现实世界理解和抽象的方法,是计算机编程技术发展到一定阶段后的产物。面向对象是相对于面向过程来讲的,面向对象方法,把相关的数据和方法组织为一个整体来看待,从更高的层次来进行系统建模,更贴近事物的自然运行模式。

把一组产生式放在一起,让它们相互配合,协同工作,一个产生式生成的结论可以供另一个产生式作为前提使用,以这种方式求得问题的解决的系统就叫作产生式系统。

对于需要分析方法,诸如深度优先搜索和广度优先搜索(穷尽的方法)以及启发式搜索(例如最佳优先搜索和A*算法),这样的问题使用搜索树表示最合适。

5.机器学习的基本定义是什么?

机器学习是一门研究及其获取新知识和新技能,并识别现有知识的学问。

6.智慧地球的概念,智慧地球提出的背景是怎样的?

借助新一代信息技术(如传感技术、物联网技术、移动通信技术、大数据分析、3D打印等)的强力支持,让地球上所有东西实现被感知化、互联化和智能化。

背景为金融危机影响全球。

7.相关关系是怎么回事?

相关关系是客观现象存在的一种非确定的相互依存关系,即自变量的每一个取值,因变量由于受随机因素影响,与其所对应的数值是非确定性的。相关分析中的自变量和因变量没有严格的区别,可以互换。

8.盲目搜索是什么意思?

盲目搜索方法又叫非启发式搜索,是一种无信息搜索,一般只适用于求解比较简单的问题,盲目搜索通常是按预定的搜索策略进行搜索,而不会考虑到问题本身的特性。常用的盲目搜索有宽度优先搜索和深度优先搜索两种。

填空题知识点。

1. Wiener 在智能活动领域的理论贡献?

创立控制论,开创了一个全新的学科“控制科学”(Control Science),也开创了人工智能中的行为主义学派。

2.常见的盲目搜素算法有哪些?

常用的盲目搜索有宽度优先搜索和深度优先搜索两种。

3.最佳优先搜索算法?

最佳优先搜索(Best First Search),是一种启发式搜索算法(Heuristic Algorithm),我们也可以将它看做广度优先搜索算法的一种改进;最佳优先搜索算法在广度优先搜索的基础上,用启发估价函数对将要被遍历到的点进行估价,然后选择代价小的进行遍历,直到找到目标节点或者遍历完所有点,算法结束。

4.大类来分,主要有哪三类机器学习算法?

监督学习、无监督学习、强化学习

5.监督学习的主要类型?

分类和回归,详见书上127页

6.人工智能之父是指?图灵测试的含义?

图灵。它的意义在于推动了计算机科学和人工智能的发展。

7.大数据时代,相关性和因果性的异同?

异:因果关系很难被轻易证明,但证明相关关系实验耗资少,费时也少。

同:相关关系为研究因果关系奠定了基础。

8.产生式系统的形式规则集怎样表示的?

IF[条件]THEN[动作]

9.机器学习算法都是基于什么理论的?

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

3.简答题知识点

1.大数据时代的思维转变?

1.样本=总体

2.接受数据的混杂性

3.数据的相关关系

2.人工智能领域的主要应用有哪些?

深度学习、自然语言处理、计算机视觉、智能机器人、自动程序设计、数据挖掘

3.知识表示法有哪些?

叙述式表示法、过程式表示法

4.线性回归与逻辑回归的比较。

参考一:在线性回归模型中,输出一般是连续的, 对于每一个输入的x,都有一个对应的输出y。因此模型的定义域和值域都可以是无穷。

但是对于逻辑回归,输入可以是连续的[-∞, +∞],但输出一般是离散的,通常只有两个值{0, 1}。

参考二:逻辑回归的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。

只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

5.人工智能时代的重要工作岗位。

数据科学家、机器学习工程师、数据标签专业人员、AI硬件专家、数据保护专家

6.为什么在大数据时代更关注相关关系?

相关关系实验耗资少、费时也少。为我们提供新的视角,而且提供的视角都很清晰。

7.语义网络如何理解?

语义网络是知识表示中最重要的通用形式之一,是一种表达能力强而且灵活的知识表示方法。它通过概念及其语义关系来表达知识的一种网络图。

8.神经元与神经网络的关系?神经元的工作原理。

关系:神经网络从这种自然典范中汲取灵感,设计人工神经网络。

原理:神经元由一个细胞体和突两部分组成。突分两类,轴突和树突。 树突和轴突共同作用,实现神经元之间的信息传递。

轴突的末端与树突进行进行信号传递的界面成为突触,通过突触向其他神经元发送信息。学习发生在突触附近,而且突触把经过一个神经元轴突的脉冲转化为下一个神经元的兴奋信号或抑制信号。

对某些突触的刺激促使神经元触发,只有神经元所有输入的总效应达到阈值电平,它才开始工作。

综合应用题的知识点

1.常用的机器学习算法有哪些?各自的特点和适用领域是怎样的?

回归算法:是最快速的机器算法之一,分类,预测离散值。

KNN算法:最基础和简单的算法之一,用于分类,比较数据点的距离,并将每个点分配给它最接近的组。

决策树算法:将一组“弱”学习器集合在一起,形成一种强算法。主要用来分类,也有做回归,但更多的是作为弱分类器,用在model 

贝叶斯算法:通过找到样本所属于的联合分步,然后通过贝叶斯公式,计算样本的后验概率。用于文本分析、分类

聚类算法:发现元素之间的共性并对它们进行相应的分组。

神经网络算法:通过找到某种非线性模型拟合数据,主要用在图像处理等

2.专家系统的概念、结构、各模块的作用怎样?。

专家系统是一种模拟人类专家解决领域问题的计算机程序系统。

人机交互界面、知识库、推理机、解释器、综合数据库、知识获取

人机界面:系统和用户进行交流的界面

知识库:存放专家提供的知识

推理机:对当前问题的条件或已知消息,仿佛匹配知识库中的规则,获取新理论,以得到问题求解结果

解释器:能根据用户的提问,对结论、求解过程做出说明

综合数据库:专门用于存储推理过程中所需要的原始数据、中间结果和最终结论

8. 数据挖掘基础知识点汇总

有利于提高数据的运用能力,促进物联网的发展进步。

9. 数据挖掘基础知识点选择题

  数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式。在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等。

  数据挖掘涉及的学科领域和技术很多,有多种分类法。

  (1)根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。

  (2)根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法等等。