数据可视化概述
- 可视化的目的,是对数据进行可视化处理,以更明确地,有效的传递信息。
数据可视化意义
- 数据可视化是为了从数据中寻找三个方面的信息。
- 模式。指数据中的规律。
- 关系。指数据间的相关性。
- 数据间的比较
- 数据的构成
- 数据的分布或联系
- 异常。指有问题的数据。
数据可视化的作用
- 记录信息。用图形的方式描述各种具体或抽象的事物。
- 分析推理。有效的提升了信息认知的效率,从而有助于人们更快地分析和推理出有效信息。
- 信息传播和协同。
数据可视化的分类
- 科学可视化
- 信息可视化
- 可视分析学
数据可视化基础
数据类型
根据数据模型,可将数据分为
- 浮点数,整数,字符等
根据概念模型
类别型数据,有序型数据,区间型数据和比值型数据
类别型数据:用于区分物体
有序型数据:用来表示对象间的顺序关系
区间型数据:用于得到对象间的定量关系。
用于比较数值间的比列关系,可以精确地定义比例
数据预处理
- 数据的预处理的目的是提升数据质量
- 数据质量包含以下六方面
- 有效性:数据与实际情况对应时,是否违背约束条件
- 准确性:数据能否精确的反映现实。
- 完整性:采集数据集是否包含了数据源中 的所有数据点:且样本的属性都是完整的。
- 一致性:整个数据集中的数据的衡量标准要一致
- 时效性:数据适合当下时间区间内的分析任务
- 可行性:数据源中的数据是使用者可依赖的。
- 数据预处理步骤如下
- 数据清理:指修正数据中的错误,识别脏数据,更正不一致数据的过程。
- 数据集成:指把来自不同数据的同类数据进行合并,减少数据冲突,降低数据冗余程度等。
- 数据归约:指在保证数据挖掘结果准确性的前提下,最大限度地精简数据量,得到简化的数据集。
- 数据转换:指对数据进行规范化处理
数据组织与管理
- 大数据存储利用的是分布式存储与访问计数,它具有高效,容错性强等特点。
- 分布式文件系统
- 分布式文件系统是指文件在物理上可能被分散存储在不同地点的节点上,各节点通过计算机网络进行通信和数据传输,但仍然是一个完整的文件。常用的分布式系统有HDFS(hadoop分布式文件系统),GFS(Google分布式文件系统)等。
- 文档存储
- 文档存储支持对结构化数据的访问,一般以键值对的方式进行存储。
- 文档存储类型也支持数组和列值键
- 列式存储
- 列式存储是指以流的方式在列中存储所有的数据
- 键式存储
- 以Key-Value存储,简称KV存储
- 图形数据库
- 图形数据库是NOSQL数据库的一种,是一种非关系型的数据库,它应用图形理论存储实体间的关系信息。
- 关系型数据库
- 关系模型是最传统的数据存储模型,数据按行存储在有架构界定的表中。用户可使用基于关系代数演算的结构化查询语言提供相应的语法查找符合条件的记录。
- 内存数据库
- 内存数据库就是将数据放在内存中直接操作的数据库。特点速度快,能处理实时型业务
- 数据仓库
- 数据仓库是一种特殊的数据库,一般用于存储海量数据,并直接支持后续的分析和决策操作。
- 分布式文件系统
数据分析与数据挖掘
数据分析
- 统计分析
- 是指对数据进行统计描述和统计推断的过程
- 探索性数据分析
- 是对调查,观测所得到的一些初步的杂乱无章的数据,在尽量少的先验假设下进行处理,通过作图,制表等形式和方程拟合,计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。
- 验证性数据分析
- 是指在已经有事先假设的关系模型等情况下,通过数据分析来验证已提出的假设
- 在线分析和处理
- 是一种交互式探索大规模多维数据集的方法。
- 统计分析
数据挖掘
- 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。
常见的数据挖掘分析方法有分类与预测,聚类分析,关联性分析和异常分析等。
分类与预测
聚类分析
关联分析
异常分析
数据挖掘的步骤
- 确定业务对象
- 数据准备
- 数据挖掘
- 结果分析
- 知识的同化