跳到主要内容

数据可视化背后的科学

在过去的几个世纪中,数据可视化已发展到各行各业日常使用的程度。许多人认为它是讲故事和分析的有效工具,克服了大多数语言和教育障碍。但为什么会这样呢?抽象的形状和颜色如何能够比数字表或文本段更有效地传递大量数据?对人类感知的理解不仅会回答这个问题,还会为改进您自己的可视化设计提供明确的指导和工具。

为了理解我们如何有效地解释数据可视化,我们必须首先检查我们如何感知和处理信息的基础知识,特别是视觉信息。

系统1与系统2

Daniel Kahnemann,in思考,快速和缓慢,引入术语系统1和系统2来区分分别在我们的潜意识和意识思维中发生的信息处理。前者封装了不受控制,永远在线且毫不费力的功能,而后者则指的是那些受控但需要努力参与的功能。

为了更好地理解系统1和系统2之间的差异,请考虑图1.在左侧的照片中,我们立即感知到一个愤怒的男人,并且可能将嘈杂的噪音和激进的动作与所描绘的场景联系起来。这种极其复杂的像素解释几乎是即时的,不需要任何努力就可以完全自然地完成。与右边的乘法对比。我们立刻意识到我们所要求的是什么,并且我们能够解决这个问题,但是大多数人都不会因为需要有意识的努力而尝试心算。两种情况下的初始反应都是纯系统1,而心算则是系统2的一个例子。

Figure 1. Perception tasks that primarily trigger System 1 and System 2 respectively

图1.主要分别触发系统1和系统2的感知任务

我们已经发展了这些独立的系统,以便我们的意识思维不会被平凡的处理所淹没。我们的系统2可以专注于更复杂的理解和计算任务,系统1为系统2提供必要的信息以执行此类任务。在数据可视化中,我们应该寻求以我们的系统1正确感知的方式编码尽可能多的信息和理解,然后系统2释放系统2以更多地理解和分析数据。

为何可视化?

在介绍了我们如何处理信息的高级抽象视图之后,我们现在可以通过感官将注意力转移到如何处理信息的问题。大量的人类大脑致力于视觉处理,导致我们的视觉具有远远超过我们其他感官的感知清晰度。从图2中可以看出,在任何特定时间,通过视觉进入我们的思想,而不是通过我们的任何其他感官,无论是在潜意识和意识层面。事实上,大约70%的身体感觉受体与视力有关。

Figure 2. Sensory bandwidths reaching sub-conscious and conscious mind, from Tor Norretranders' The User Illusion. Visualisation from Stephen Few’s Information Dashboard Design

图2.来自Tor Norretranders的用户幻觉的感知带宽达到了潜意识和意识清醒。来自Stephen Few的信息仪表板设计的可视化

我们还可以从图2中看到,视觉信息与所有感官信息一样,在我们的潜意识和意识之间大大减少。这不是因为信息被简单地丢弃,而是由我们的系统1提炼出来,这样我们的系统2就可以获得更少但更丰富的信息,这些信息与我们目前正在进行的任何任务相关。视线的带宽和处理能力的结合是为什么它比我们的其他感官更适合理解数据集。

我们怎么看

为了最大限度地提高系统1对原始视觉信息的蒸馏效果,我们需要深入研究视觉处理的细节,如图3所示。进入我们眼睛的光刺激了我们的视网膜,导致大量平行的脉冲被发送到标志性记忆。标志性记忆是一种非常短暂的缓冲和处理器,可确保我们始终保持对世界的连贯画面。标志性记忆还通过感知基本视觉属性(例如形状,边缘,相对大小和颜色斑块)来丰富通过它的信息。这些被称为预注意属性。

标志性记忆的基本视觉信息被传递到视觉工作记忆,视觉工作记忆是另一种形式的短期存储,其显着有限的容量导致我们在任何给定时间记住的事物的数量被观察到“七,加或减两”的限制。为了使我们能够识别物体和场景,到目前为止描述的路径(“自下而上处理”)在视觉工作记忆中收敛,其路径带来从长期记忆中检索的项目和关联(“自上而下处理”)。

Figure 3. Our visual processing, from light entering our eyes to recognition and comprehension. From Alberto Cairo’s The Functional Art

图3.我们的视觉处理,从进入我们眼睛的光线到识别和理解。来自Alberto Cairo的The Functional Art

预先注意属性是前进的方向

虽然视觉工作记忆和长期记忆的活动主要发生在系统2中,但快速,自动和大规模并行自下而上的处理完全是系统1.因此,为了最大化可视化的功效和效率,我们应该寻求在自下而上处理期间感知的预关注特征中尽可能多地编码信息。

雅克·贝尔廷(Jacques Bertin)在其1967年出版的书中提出了直观,准确和通用的数据编码的基本规则,Semiologie Graphique。随后的衍生工作进一步完善了我们对这些规则和相关认知的理解,并阐明了它们与数据可视化的具体关系。

为了解释如何最好地对信息进行可视化编码,我们将分别检查构成数据的两个基本问题:价值和关系。

认识价值观

图4显示了可用于编码数据的预注意视觉属性的选择,详见Colin Ware信息可视化:设计的感知。 Stephen Few表示,其中只有少数属性是我们自然而且普遍地解释为定量的属性。其中,长度和二维位置比其他属性更精确地被感知。例如,对于长度,我们感知到与客观测量很好地对应的清晰尺度:更大是“更多”而更小是“更少”。相比之下,对于形状,我们不能说如果没有使用钥匙引入人工尺度,圆圈是指多于还是小于正方形。

Figure 4. A selection of pre-attentive visual attributes, and precision of their quantitative perception. Visualisation from Stephen Few’s Information Dashboard Design

图4.一系列预先注意的视觉属性,以及定量感知的精确度。来自Stephen Few的信息仪表板设计的可视化

我们可以使用定量感知的预注意属性来比较值,但不能推断实际值。例如,我们可以很容易地看到一条线比另一条线长,因此代表一个更大的值,但是为了感知线代表一个特定值(例如100而不是200),我们必须添加一个带数字的显式比例或文本。不幸的是,数字和文本没有被预先注意到,因为它们是学习符号,需要一定程度的内存查找。结果是,预先注意的视觉属性的比较属于我们的系统1,但是编码值的解码需要轻量使用系统2。

感知关系

现在让我们探讨数据中关系的感知,通常最好通过可视化中的结构和分组来呈现。在图4中,我们可以看到没有定量感知的预注意属性有效地区分,即分组。然而,我们不是关注我们可以用于分组的个体形状,而是考虑模式,其中的注意力感知已经在格式塔感知规则中被捕获(以他们最初观察到的心理学格式塔命名)。

其中一些法律,如图5所示,阐明了我们如何看待群体。例如,系列通常按颜色或形状在条形图,线条图和散点图中进行区分,即格鲁塔相似律。不幸的是,对格塔塔法律经常被低估的细微之处和权力的真正探索超出了本文的范围。

Figure 5. The Gestalt laws of perception relating to grouping, from Stephen Few’s Information Dashboard Design

图5.来自Stephen Few的信息仪表板设计的与分组相关的感知格式塔法则

除了分组,数据可视化中另一个非常强大的关系是订购。在考虑数据集时,“最佳”,“最差”和更一般的排名问题很常见,在可视化中应用适当排序的简单行为可确保这些见解立即且毫不费力。通过一点创造力和思考,即使在最初看起来不可能的情况下,也可以重新执行排序,如图6所示的图表,其中连通性格式塔法被用于产生巨大效果。

Figure 6. Visualisation by Hannah Fairfield of the New York Times

图6.纽约时报Hannah Fairfield的可视化

最后......开始吧!

当涉及到新可视化的详细设计时,理解这里介绍的数据可视化机制是非常宝贵的。但是,与任何以用户为中心的设计项目一样,我们应该首先了解其目标用户,预期目的和背景,然后再获得目前为止所涉及的更详细的细节。

一般来说,可以说所有可视化的意图都落在纯粹呈现之间的某个范围内,即在数据集中讲述已知故事,例如报纸中的静态图表,以及全面探索,即分析和检查尚未理解的数据集,例如金融研究网站上的交互式分析图表。 William Cleveland和Robert McGill进行的研究可以根据我们想要定位的演示探索频谱的位置,为决定如何最好地表示数据提供信息。 Cleveland和McGill评估了许多基本视觉数据编码对比较任务的相对效果。他们的结果意味着使用评估技术的比较准确性的清晰比例,如图6所示。

Figure 7. Relative accuracy of comparison using different basic visual features, from Cleveland and McGill. Visualisation from Alberto Cairo’s The Functional Art

图7.使用Cleveland和McGill的不同基本视觉特征进行比较的相对准确度。来自Alberto Cairo的功能艺术的可视化

从这个比例你可以看出,我们经常看到图表条形图,线条图和散点图并不是巧合,因为所有三个都使用支持最准确比较的视觉形式。不幸的是,许多人认为这些图表类型“无聊”并且可以获得更具视觉吸引力的图表形式,例如饼图。克利夫兰和麦吉尔的量表显示,饼图使用的数据编码,角度(和面积,作为副作用)不支持准确比较,因此,在需要进行准确比较的环境中,这不是一个好的选择。

在演示探索频谱的背景下,这有何帮助?您的可视化需要更具分析性和探索性,您必须进一步提高克利夫兰和麦吉尔的规模,因为准确的比较可能更重要。这并不是说表象可视化不应该使用更精确的视觉编码形式。相反,在这些情况下,我们能够在我们试图讲述的特定故事及其目标受众所需的准确度和视觉兴趣之间选择适当的折衷级别。

结论

全面了解数据可视化背后的机制是一种强大的工具,可以为任何上下文设计适当有效的可视化,无论是简单的静态条形图还是更复杂,多维和交互的东西。

该帐户涵盖了数据可视化背后的科学基础知识。与数据可视化相关的认知心理学和感知有许多微妙的方面,对其的理解将进一步提高您使用可视化分析数据和讲述基于数据的故事的能力。



翻译字数超限