引言
JohnSnow(不是G.O.T.里那个“私生子”)大概永远不会想到,自己在排查霍乱传播途径时,在地图上标记死于霍乱病人的“霍乱地图”居然会被后人评为历史上十佳数据可视化的案例,并且成为了医药地理学和传染病学中一项基本的研究方法。约翰·斯诺(JohnSnow,年3月15日-年6月16日),英国内科医生,曾经当过维多利亚女王的私人医师,因在年宽街霍乱爆发事件研究中作出重大贡献,被认为是麻醉医学和公共卫生医学的开拓者。
在斯诺生活的年代,对霍乱的起因的主流意见是空气污染论(认为霍乱像黑死病一样通过空气传播)。另一方意见是未被广泛接受病菌学说。通过深入研究,在与当地居民的沟通中加上亨利·怀特海德的协助,斯诺判断出宽街的公共水泵是污染源,斯诺随后使用点示图去解释霍乱案例爆发点是以水泵为中心。通过连接霍乱事件与地理信息的关联,创制了著名的“霍乱地图”[1]。
他将该地区的每一个水泵,以及四周的水井都标注到图中。最后他发现最多的霍乱患者围绕的水泵位于宽街。
新冠疫情肆虐期间,大家每天查看的疫情地图,都得感谢祖师爷斯诺的贡献。
回到本文的主题,关于数据可视化,数据玩家将按经典的Why-What-How逻辑为大家逐步展开。
一、为什么要数据可视化——Necessityfordatavisualization
先来举个栗子,大家可以尝试找出下图中的“7”:
看累了?试试下面这张图呢?
是不是容易太多了,这就是视觉的力量。
可视化辅助决策研究表明,人眼是一个高带宽大量视觉信号并行GPU,带宽在2.G/s,相当于一个两万兆网卡,具有超强的模式识别能力,且对可视符号的处理速度比数字或者文本快多个数量级,在大数据时代,数据可视化是人们洞察数据内涵、理解数据蕴藏价值的有力工具。
因此,可视化常常被用来辅助决策,如上图,中间的一张密密麻麻的客户表,到底能得出什么有价值的信息指导决策呢?光看一行行一列列的数据,可能需要很久才能得出一些结论,但是经过可视化,我们可以轻松的以各种形式的可视化快速掌握结论,从而辅助决策。
这就是:可视分析,即将信息提炼为知识,起到“观物至知”对作用,便于决策者从复杂、大量、多维度的数据中快速挖掘有效信息。
不当可视化误导判断值得注意的是,并非所有的可视化都可以指导决策,甚至不当的可视化会误导判断,以致做出错误的决策。
年前后,美国有线通信协会(NCTA)发布的报告中,用下图声称美国政府的管制行为导致了企业投资下降,而在放开管制后,企业投资就大量增加。
乍看之下,管制的时候是左柱,投资只有亿美元,放开管制后,投资有亿美元貌似结论没有错误。但这张图有严重的误导与逻辑的纰漏。
-年间三年的数据缺失。三年可以发生很多事情,在缺乏数据的情况下,强行将年后的投资增长归结于去管制,是有逻辑欠缺的。
左柱只总结了3年的总投资,右柱则总结了4年的总投资,这更是故意误导观众,让观众认为去管制后企业投资大大增加,而游说政府放开行业管制。实际上很可能是其他因素造成的快速增长,而不仅仅是去管制。
真相到底是什么?
可以看到,事实上96年放开管制后,随后的三年里企业投资并没有显著变化,99年以后的爆发式增长肯定是由于别的原因造成,而非单纯的放开管制。
再看一个栗子:
这图看起来,是不是16年比15年增加了特别多,实际看看坐标轴,才从59增加到60,2%不到,把坐标轴换一下:
这样看起来就能体现出2%的增量其实没多少了。不过,根据目的的不同,不排除有的场景也可以采用第一种展现方式。再比如前一段时间好多群都在转的下面这张图,纵坐标从万开始,显得年的万简直快到底了,是不是没人生孩子了……
我们换成从0开始的纵坐标来看看:
这是不是正常多了,虽然也下降得不少,但是整个基数还是很大的。
不过,如果需要贩卖焦虑,用上面那张图就比较容易达到效果。
二、什么是数据可视化——ConceptofdataVisualization
发展历程利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术称为可视化,它将不可见或难以分析的数据转化为可感知的图形、符号、颜色、纹理等等,以提高数据识别和信息传递的效率。
我们拿到的原始数据,可能是半结构化,甚至非结构化的,经过数据清洗和ETL过程,我们得到规整的结构化数据表,再通过视觉映射,我们得到需要展示的视觉结构,即按照什么维度,展示什么指标,最后,将视觉结构通过图像转换,转化为最终的可视化图像,呈现给决策者。
我们可以将数据可视化的发展历程分为七个历程。
17世纪之前——图表萌芽人类早在公元前年就掌握了观测和绘制的能力,此后也一直通过手工的方式制作可视化作品。可视化萌芽出自地图和一些简单的图表,数据也不是测量而来,目的大多是展示一些重要的信息。
人类第一幅地图(公元前年)
公元年,欧洲人画出了基于时间变化的折线图,用于展示太阳,月亮等行星的位置变化趋势,开始出现如今的数据图表的雏形。
17世纪——物理测量17世纪以后,随着对物理基本量(时间、距离等)的测量理论和设备的完善,制图学理论也随着分析几何、概率论等学科迅速发展,17世纪末产生了基于真实测量数据的可视化作品。
这幅图是谁画的呢?EdmondHalley(-),埃德蒙·哈雷,是不是挺耳熟,没错,就是发现哈雷彗星的那个哈雷。
图上绘制了信风和季风的方向,“一目了然地显示了这些风的所有不同地段和路线;据此,有可能比任何口头描述都更容易理解”。[2].
18世纪——图形符号进入18世纪,人类不再满足于地图上的几何信息,随着统计理论、实验数据分析等学科的发展,现在我们所熟悉的函数图、抽象图被广泛发明。
此图来自威廉·普莱费尔(WilliamPlayfair,-),他是来自苏格兰的工程师和政治经济学家,今天我们使用的折线图、条形图、饼图和面积图都是他发明的。图中,红线是出口额,黄线是进口额,通过两条折线可以很明显的看出,年前,出口额小于进口额,之后出口额反超。
19世纪——数据图形19世纪,统计图、概念图等迅猛爆发,此时人们已经掌握了众多统计数据可视化工具,包括柱状图、饼图、折线图、时间线、轮廓线等。政府规划和运营也越来越多的采用可视化方法,19世纪下半叶,迎来了数据可视化的黄金时期。这个时期的数据可视化代表作,除了上文中提到的“霍乱地图”,还有下面这张拿破仑东征流图。
-对俄战争中法军人力持续损失示意图(年,被誉为史上最佳可视化)
这张图的信息量极大,是年法国工程师CharlesJosephMinard制作的,描绘了拿破仑年率军攻占莫斯科的行军图。
其中,最底层是地图,深黄色图形表示行军规模,黑色图形表示撤军规模,线条宽度代表了军队的人数,可以看出从出发时开始的42w大军,行军规模逐渐缩减,撤军规模逐渐增加,到达莫斯科时只剩1w人。当然,线条的走势也是行军/撤军路线。
同时,底部既有横向的时间轴,也有纵向的刻度标识了当时的气温。
此图可以直观的感受到,拿破仑的40万大军是如何在长途跋涉和寒冬中消耗殆尽,此次东征也称为拿破仑由盛转衰的转折点。此外,还有南丁格尔玫瑰图:
没错,就是那位护士弗罗伦斯·南丁格尔(FlorenceNightingale),护理学的奠基人。
她的另一个身份是统计学家。“南丁格尔玫瑰图”直观展示了卫生条件对死亡人数的影响,因而争取到了更好的医疗条件。
20世纪——多维数据进入20世纪,数据可视化的黄金时期终结,主要原因是随着数理统计的诞生,追求数理统计的数学基础成为数据科学行业的首要目标,而图形和可视化作为其辅助,没有得到太多重视,多维数据可视化是这个时期可视化的重要特点。
年关于太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性
s-21世纪——交互可视化随着计算机的发明和应用,人们开始采用计算机编程完成可视化过程。70年代以后,随着人机交互界面、图形显示设备的普及,人们获得了将更复杂、更高维数据的可视化能力。
自80年代末开始,Windows系统的问世使得人们能够直接与信息交互,也极大的提升了人们对于可视化的热情。同时,随着高维数据和高性能计算的进一步普及,对于多维、时变、非结构化数据呈现和分析的需求也更加强烈,可交互的可视化产品开始登上历史舞台。
至今——可视分析学大数据公司Palantir为美军分析的亚丁湾海盗概率热点图
进入21世纪,人们并不满足现有可视化技术对于数据的呈现和表示,开始将可视化和数据挖掘、图形学结合起来,以辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘出有用的信息,以便有效做出决策,这门学科就称为可视分析学。
呈现形式软件生成分析图Excel、Python、Matlab和SAS等数据分析软件经常自带数据可视化包或工具,科研人员或技术人员可借此对数据进行初步可视化,以继续深入分析和挖掘,维度相对简单,对视觉要求较低,适合技术人员初步分析或学者发表研究论文。下图是针对16年美国大选选民学历的可视化分析,未接受高等教育的白人比例越大(相比4年前),Trump的胜算越大,而这个比例在男性中更为明显。
信息图由设计人员根据清洗过的数据,充分分析其含义后,利用illustrator、coreldraw等平面设计软件进行手动加工,同时加入注解信息获得。可读性趣味性很强,但相对数据准确度不高,常出现于媒体资讯或者公司行业报告中,也就是大家经常看到的“一图看懂XXXX”。
可交互的HTML网页(BI系统)可借由HTML5、JS等技术动态地、可交互地展示高维数据,非技术背景的普通用户也可以对自己感兴趣的数据进行选取和下钻。常由多个网页构成商业智能(BI)系统,但近年来也被媒体广泛采用展示热点数据。
三、怎么做数据可视化——Howtovisualizedata
进入“大数据时代”后,复杂、异构、大尺度的数据中经过分析所得的知识和人类所掌握知识的差异是导致新知识发现的根源,但如此复杂的数据也往往会让人感到困惑。利用人的强大视觉识别能力和推理分析智能来表达、分析、检验这些差异正是“大数据时代”数据可视化的新思路。这就要求我们在进行数据可视化时必须理解数据含义、目标明确。
可视化流程获取并清洗数据巧妇难为无米之炊,第一步当然是要获取结构化的,干净的数据,否则:
再漂亮的可视化,没有准确的数据支撑,也是空中楼阁。不光是可视化,基于数据的分析,模型,支撑风控、营销和运营,在缺少数据质量支撑的前提下几乎都无从谈起。
碍于篇幅,此处不再展开,后续会针对数据质量专门撰文。
理解数据含义明确目标做可视化,最容易进入的误区就是,拿到一堆数据,还没有理解数据有什么含义,直接就开始套用图形进行展示,把大部分时间用在美化图表上,而完全忽略数据本身传达的意义。
下面这张图信息量很大,可以帮助大家评估一个可视化作品是否成功。
比如,把数据按照一个故事线组织起来,那多半是一个研究文档或者提纲,再加上特定的目标和功能介绍,才可以画出线框图,最后加上视觉形式,才有可能变成一个成功的可视化作品。
再比如,只有数据和视觉形式,那可能只是纯粹的数据艺术,看起来很美,其实没有价值,就算加上一个故事,也没有什么特定的用途,给不了任何启发,只有赋予它一个特定的目标,才有可能成为一个成功的可视化。
所以,明确一个可视化作品的目标是很重要的,知道了要传达什么信息,达到什么目标,才知道要选择什么展现形式。不同的图表类型适合表达不同的含义,比如,要比较趋势,折线图就比柱状图更合适,比如,要表达占比,饼图不一定比堆积柱状图好用。
选择合适的展现形式那么,如何选择合适的展现形式呢,毕竟,有那么多种类的图形:
下面列举了常用的各类图表及适用场景:
可视化CheckList过度设计影响信息表达
如下图,其实只需要表现一个度量,但是却用了三维图形,扇面的高度不具有任何含义。
条形图足以表达:
同样,下图想表现的信息过多:
看起来很美,但是看完以后完全不知所云,不如拆成几张图分别表达。
图表类型不合适
想表现趋势,却用了柱状图:
换成折线图更加直观:
使用过多的色彩
颜色本身也传递了一定的信息量,过多的颜色也给人一头雾水的感觉:
结合我们想要表现的重点,有针对性的突出一到两种颜色即可:
避免信息过载
折线图比较了太多系列,建议不超过三个:
同样,和弦图也有类似的情况:
少用3D效果
3D效果通常不能表现额外的信息,反而会造成不必要的遮挡和误解:
改成2D的图形效果反而更好:
眯眼测试,突出重点
一套复杂的BI看板,常常让观看者无从看起:
通过眯眼测试,可以看出表格中的什么元素更加突出,从而有针对性的找出重点并突出展示。
甚至可以采用动图的形式,将不需要重点展现的图形模糊化处理,最后突出重点:
结语可视化的核心还是传达信息,如果你自己还没想清楚要传达什么信息,不用操之过急,想清楚以后再选择合适的图表进行展现即可。本文只是针对可视化的一般做法和常见图表做了浅析,这里推荐大家一些材料和网站,可以更好的完成可视化展现。联合国欧洲经济委员会出品的,有两部分,第一部分:数字故事写作指南,第二部分:统计数据展示指南。
虽然是09年的两篇文档,但是很多思路仍然非常有借鉴意义。大家可以自行搜索下载。
下面两个网站可以帮助你在种类繁多的图表中选择合适的一种。