A Guide To Information Graphics I

Posted by Gloomymoon on 2021-09-21

A Guide to Information Graphics: Part I

0 Introduction

我们已进入数据驱动时代,数据图表已经和文字一样随处可见,但是浮夸的修饰和冲突的配色使得很多图表反而无法有效传递其蕴含的讯息。随着计算机技术普及,人人都能够制作数字化图表,但是现有知道如何制作出色的图表。我们看到使用过多视觉修饰例如强烈对比的配色、3D效果来让图表美观,却忽视了应该表达的信息本身。

无论如何,图表的核心是内容,通过正确的表现形式,信息得以最清晰有效的方式传递给接收者。额外的颜色、修饰都会减弱对于核心信息的表达。

“好”的图表具备的三个基本要素:

有价值的内容是图表的核心意义和价值所在;
有吸引力的可视化有助于诠释内容并突显出信息;
高明的运用图表技术能生动结合内容和形式。

如今充斥着各种令人困惑、迷惑、误导或无效的信息图表,很多数据蕴含了非常深刻的信息,但是糟糕的展示阻碍了信息的有效传递。很多图表第一眼看上去感觉还ok,但是可能违反了很多好的展现原则。

美国媒体对于2020东京奥运奖牌榜的报道

不幸的是,信息可视化并不在学校或专业培训中包含,在实践中,各领域人员不得不独自探索并尝试完成该部分工作。本系列的目标就是提供一系列重要原则来衡量图表展示的好坏。

1 The Basics

有效图表的关键影响因素是字体、配色、设计以及对分析结果剖析的深度。首先是思考使用图表来展示信息的必要性,以及绘制的数据是否准确。一个错误数值点就会动摇整体的可信度,从而使图表失去价值。本章节将提供一套实用的图表制作指引和模板,包括字体、配色、对比,这些将成为制作具有良好说服力的基础。

图表

如何构建有效图表

构建有效图表可以基于如下几个步骤:研究、编辑、绘制、复审。

构建有效图表的四个步骤

  1. 研究(Research):从权威来源获取最新的数据,尽可能从可信第三方获取避免受利益相关方干扰,如果必要的话获取授权;
  2. 编辑(Edit):找到并确认你想表达的最核心、最重要的信息,并基于此选择恰当的数据系列,筛选并简化直至保留最精华的部分,对数值进行适当的加工来加强你所要表达的观点;
  3. 绘制(Plot):选择合适的图表类型(例如线图展示趋势,柱图展示实际数量)和图表设定,包括刻度范围、刻度比例和基准线,标注标题、描述、图例等信息,利用颜色和字体来强调重点;
  4. 复审(Review):检查与源数据是否一致,核实第三方信息具备足够的权威性,从读者的视角审视,是否容易理解且言之有理。确保对图表进行复审,任何一个别字或数据错误都会使影响到图表的可信度。

数字

切实的证据

文字 vs 图表
图表能够使不同系列的数字贴近比较,让读者从视觉和叙事的角度加深理解。下图右侧的图表让读者能够一眼做出判断,比纯粹文字表述更加记忆深刻。

文字 vs 图表

让数字说话
好的图表应避免分散读者的注意力,例如过粗的辅助线、3D效果,另外在标注数字时可以在合理的精度四舍五入,过多的数字位数虽更加精准,但也会影响图表效果。

正确的比较

相同的数字,不同的故事
确保对数据的筛选和编辑是和主旨结论相符和相关的。同样的数据,比较总量和人均会出现完全不同的差异情况,会误导读者产生错误的结论。

确定合适的参照

读者往往需要一个参照点来解读数字,当你提供了参照,你就控制了信息的含义。人们会基于自己想看到的来诠释信息,如果没有参照点,他们就会自己设定一个并赋予数字不同的含义。

为图表创建参照值
单个数字的意义有限,一系列的数字组成的散点或趋势线能增加信息的强度。

传递正确的信号

同一组数据有很多种绘制方式,由于存在损失规避这一心理学理论,选择合适的上下文信息来传递你意图表达的讯息。

实际值 vs 基准增幅

数据完整性

陈述全部真相

细节需躬身
来源决定数据的好坏,从值得信赖的中立方获取数据极其重要。数据质量值得最挑剔的检验,一个错误的数字将摧毁整个图表的信用价值。

“坏的”数据+“好的”可视化展示=“坏的”图表。

一个远远不够
每组数据都值得单独分析和诠释,再次,不同的可视化方式能够影响传递的信息含义。

此外,在展示预测数据时需要谨慎,避免用精确的数据和图表来武断地绘制“预测信息”,使读者对未来产生过分精准的预期。

避免断章取义
展现客观事实才能构建起读者对你的信任。脱开总量讨论百分比毫无意义,避免在一个较小总量的个体上展示其某些巨大的百分比情况,这对于更大规模的个体来说是不公平和客观的,通常情况下,更大规模也意味着更平稳、波动更少、内部分布更平均。

此外,把四舍五入的操作留在最后进行,任何数据处理过程中的精度损失都会对后续的操作产生连带效应,甚至影响最终结论。

数据丰度

更多是不是更好?

更丰富的数据通常意味着更高的数据质量,但在展现时,少即是多。

数据编辑最佳实践
在数据探索环节,丰富的数据支撑更加深入的挖掘,在编辑阶段,则要注意额外的信息是否对核心观点有帮助,甚至是否反而会淹没重要的信息。

减少数据系列突出重点
饼图能够更好的展示出公司B的业绩增长情况,即便损失了几个小公司的精确数据,但是让读者能够更容易的最重要的信息。

展示全貌也有例外
在不对读者产生误导的前提下,且能够完整表达作者的观点,可以只展示部分/局部的数据。另外数据点的数量不等同于数据丰度,只要能够准确的展示数据的趋势或变化情况,更粗粒度的数据值完全可以接受。

字体

可识别度

在如今成百上千种印刷字体中,加上类型和字号,(在图表中)设定合适的字体是个技术活。字体是用来帮助传递信息而非无用的装饰,因此选择识别度高的字体是首要原则。

专业术语

衬线字体 Serif指在笔画的开始或结尾带有额外的装饰,这种装饰叫做“衬线”,例如宋体。
非衬线体 Sanserif指没有衬线的字体。
字号一般指字体的高度,一般不是指单个字母或汉字的高度,而是整个字库中存储每个字母或汉字的通用高度。
字体大小的单位,12个点等于1个派卡(Pica),1个派卡约等于1/6英寸(约62mm)。
行距上下两行文字间距离(按照基准线到基准线的距离计算)。

图表中可识别性准则

  • 一般情况下,行距必须比字号大2个点,例如10号字体的行距为12。
  • 不要将字号设置太小,或者过分压缩字间距。
  • 无论是衬线体还是非衬线体,尽在重点词使用加粗斜体,不要同时使用加粗斜体。
  • 不要全部使用大写。
  • 避免使用反显或者有颜色的文字。
  • 避免使用连字符(英语跨行情况下)。
  • 不要使用手写体。
  • 不要旋转文字。
  • 不要增加字母间距。

可识别性比较

简单测试可识别性方法合理地降低像素,如果文字仍然可以识别,那么字体、类型等设置就是正确的。

图表中的字体设计

在图表中,数字是主角,字体不能抢占C位,它只需负责清晰地表达信息,而无需传递情感或煽动气氛,避免对主题信息造成干扰或影响。

DON'T & DO

DON'T & DO