
数据可视化
发布于 • 阅读量 456
数据可视化
数据可视化的主要任务是将数据转换为易于感知的图形。
一、可视化流程
很多人认为数据可视化无非就是数据几组数据,生成各自图表(或图形)等等。其实数据可视化大致可分为:
- 信息可视化
- 科学可视化
- 可视化分析
之前所提到的简单图表只是信息可视化中最常见的几种。面对不同的数据体积以及不同的可视化目标,可视化系统的复杂度很可能就会超出想象。
通用的可视化流程
可视化整体可分为三步:分析 -》 处理 -》 生成。
1. 分析
分析分为三部分:任务、数据和领域。
首先,要分析该次可视化的出发点和目标是什么。遇到什么问题、展示什么信息、要得出什么结论、验证什么假说等等。数据承载的信息是多种多样的,不同的展示方式的侧重点也是不一样的(说白了,想清楚要干什么,才能确定要过滤什么数据、怎样处理数据最后怎样展示数据)。
其次,分析数据(见数据模型)。
最后要针对不同的领域,进行响应的分析。可视化的侧重点要跟随领域做出相应变化。
2. 处理
处理可分为两部分:对数据的处理、对视觉编码的处理。
在可视化之前,要对数据进行数据清洗、数据规范、数据分析等数据处理。
所谓视觉编码即指如何使用位置、尺寸、灰度值、纹理、色彩、方向、形状等视觉通道,以映射要展示的数据维度。
3. 生成
将之前的分析和设计实现。
二、数据模型
数据说白了就是可定性或可量化的一组数据。为了更准确更形象地表达数据,先了解一些数据相关的概念。
1. 数据模型与概念模型
数据为什么可以代表世界?带着这个问题,来了解数据和概念两个模型。
数据模型 是一组数字或符号的组合,其包含着数据的定义、类型等,可以进行各类数学操作。
概念模型 描述的是事物的语义或状态行为等。
现实世界 =》 概念模型 =》 数据模型
现实世界可以用概念模型描述,而概念模型又可以用数据模型来描述。经过两层抽象,数据便可以描述现实世界。
2. 数据类型
一个东西属于哪一类,取决于用什么标准划分,数据亦然。
按数据在计算机中的存储,数据可分为浮点数、整数、字符等;从关系模型的角度来说,数据可以分为实体和关系两类;从数据结构来说,数据可以分为一维、二维、三维、多维、时间序列、空间序列、树型、图型等等。接下来说一说和数据可视化有关的分类方法。
按照测量标度来分,数据一般分为四类:类别型、有序型、区间型和比值型。
- 类别型:用于区分事物。如:人可分为男女。
- 有序型:用于表示对象间的顺序关系。如:人的身高可以从矮到高。
- 区间型:用于对象间的定量比较。如:身高 160cm 和身高 158cm。
- 比值型:用于数值间的比例关系。如:6 是 3 的 2 倍。
在数据可视化中,通常不区分区间型和比值型,通一称为 数值型 。
3. 举个例子
id | 类型 | 款式 | 尺码 | 销量 | 年增长 |
---|---|---|---|---|---|
1 | 男款 | 上衣 | L | 50 | 10% |
2 | 女款 | 上衣 | S | 35 | 5% |
3 | 女款 | 裤子 | M | 40 | 20% |
4 | 男款 | 上衣 | XL | 30 | 15% |
如表所示,不难看出:
- _id_ 和 _尺码_ 属于 _有序型_ 数据。
- _类型_ 和 _款式_ 数据 _类别型_ 数据。
- _销量_ 和 _年增长_ 属于 _数值型_ 数据。
三、视觉编码
1. 什么是视觉编码?
视觉编码描述的是将数据映射到最终可视化结果上的过程。
编码二字,编可以说是指设计、映射的过程,码是指一些图形符号。图形符号和信息间的映射关系可以使人迅速获取信息。可以说图形符号中携带了信息(称之为编码了一些信息)。而人从这些符号中读取信息时,可以称作时解码了一些信息。
人解码信息靠的是眼睛,人的视觉系统。如果说图形符号是编码信息的工具或通道,那么人的视觉系统便是解码信息的通道。通常把这种 图形符号 《--》 信息 《--》 视觉系统 的对应过程称为 视觉通道。
2. 常用的视觉通道
1967 年,Jacques Bertin 初版的《Semiology of Graphics》一书提出了图形符号与信息的对应关系,奠定了可视化编码的理论基础。该书中把图形符号分为两种:
- 位置变量:一般指二维坐标
- 视网膜变量:尺寸、数值、纹理、颜色、方向和形状
后来又补充了 长度、面积、体积、透明度、模糊/聚焦 和 动画 等视觉通道。
3. 视觉编码设计原则
首先说一下视觉通道的性质:
- 定性(又称分类)性质 :适用于类别型数据。如颜色或形状。
- 定量(或定序)性质:适用于有序型和类别型数据。如长度、大小适合于编码数值/量的大小。
- 分组性质:具有相同视觉通道的数据可以分为一组,便于识别。
最后说一下视觉编码设计的两大原则:
- 表达性、一致性:可视化的结果应充分表达了数据要表达的信息,且无多余。
- 有效性、理解性:可视化之后应当比其他数据表达方案更加有效,更加容易让人理解。
数据可视化编码除了视觉通道还需考虑:
- 色彩搭配
- 交互
- 美学因素
- 信息密度
- 直观映射、隐喻
等等。