如何讲述数据故事

本文翻译自Sanika Diwanji《Data Storytelling:How Can Numbers Tells Tales?》来源:Medium

数据无所不在。特别是在如今的数字世界,数据已经成为各种行业和组织做出重要决策的关键要素。我们记录、编辑、计数、清理、分析、购买、交换和出售各种数据,以做出决定企业、政府甚至个人命运的决定。毫无疑问,数据能否成为新“石油”的问题引起了极大关注。

从计算二氧化碳排放量到在应用程序上记录我们的情绪和身体节奏,我们听的音乐的种类,每秒的点击量,到平均每天上网的时间等等。当今时代,我们产生和分析的数据比以往任何时候都要多。


今天我们产生和分析的数据比以往任何时候都多。来源-Giorgia Lupi(2017)

显然,数字和数据已经成为我们生活中不可分割的一部分。但是,数字并不能自己说话-他们需要有人来封装自己的价值并发出声音。有一件事越发明显,我们需要更多的人来理解这些大数据并解释数字和图表背后的人道故事。他们可以依靠创造力,同理心和上下文理解来创建数据故事。

那到底什么是数据呢?

是信息,是证据,又或者是事实?

定义数据有很多不同的方式。根据询问对象的不同,这个定义有不同的侧重点。

“数据是通过观察收集的特征或信息,通常以数字的形式表现。”

--(经济合作与发展组织(OECD)统计术语词汇表。经合组织。2008年。第119页)。

“数据是关于一个或多个人或物体的一组定性或定量变量的值。”

--(澳大利亚统计局。2013-07-13.从维基百科检索)


来源-DKIW金字塔

上图的金字塔使用的是讲述数据故事训练中流行的视觉模型,金字塔底端是未经处理的数据。接下来是信息,指的是使数据有意义的过程,赋予数据一个目的或上下文。第三层是知识,是信息与理解和专业知识相结合时产生的。当这些知识被很好地利用时,金字塔顶端的智慧就会出现。

你可以把数据想象成照片中的像素。每个像素都是一个信息包。我们越放大数据点,我们就越能看到它的复杂性,而我们越缩小,就能更清楚地看到它的上下文。正如照片不是现实的客观表现一样,数据也不是。照片是由摄影师塑造和装框的,数据也是如此。难怪今天许多新闻媒体会使用断章取义的数据编织阴谋论。


来源- Internet Meme (2020)

因此,当我们的数据集和数字档案变得更大、更开放的时候,信息仍然很难收集,很难分析,也很难交流。正如我们日常所看到的一样,更多的数据并不一定会带来更多的智慧。必须有人找到这些数字背后的故事,并用令人信服的叙述来讲述它们!要做到这一点,你不一定要是一个超级天才数学家、统计学家或技术专家。您所需要的只是理解数字、发现故事并将统计数据转换为可访问的格式的能力--而不是将其延伸为阴谋论。

这跟故事有什么关系呢?

事实证明,故事在我们的大脑中扮演着重要的角色。


来源- authenticWEB.marketing (2016)

与简单地陈述一系列事实相比,个人化的、情感上引人入胜的故事更能调动大脑的注意力,因此更容易被记住。当我们听到直截了当的事实时,我们大脑的两个区域会兴奋起来--语言处理和语言理解。但是,当我们听故事时,神经活动会增加五倍,并且会释放某些化学物质,如多巴胺和皮质醇,从而提高我们的同理心、注意力和记忆保持能力。

有效故事的要素

什么才是一个好故事?它必须得催人泪下,动人心弦吗?嗯,是也不是。

如果我告诉你“一只猫坐在垫子上”,你可能会说“哦。”然后继续你手头的事情。但如果我告诉你“猫坐在狗的垫子上”,你会更好奇地想知道接下来发生了什么。这些可以被称为吸引观众注意力的叙事钩子。

任何有效的故事都有五个主要要素。

角色(猫)。
设置(垫子)。
情节(猫坐在狗的垫子上)。
冲突(猫和狗不一定喜欢对方的潜在假设)。
解决方案(狗把猫赶走了吗?主人不在乎吗?还是主人把猫抱走了?)

这些故事元素不必总是按固定的顺序排列。你可以用这些元素来创造你自己的情节和戏剧化场景。

利用这些基本概念,让我们了解如何创建好的数据故事。

根据著名数据科学家S.Anand的说法,有四种方法可以接近数据,以便理解数据并将其编织成叙事。


来源- S. Anand, Graemener (2018)

向查看者直接展示数据:首先,您可以简单地展示您拥有的数据。例如登记投票人的名单,或者一家大公司的财务报表。您可以将其作为数据故事的基础,也可以原封不动的展示出来。

使用图表可视化数据:您可以用漂亮的图形或图表展示数据,以便直观地描述信息。但是,很多时候仅靠这些是不够的。您需要提供有关数据和可视化的解释。解释之所以有用,是因为您可以告诉听众数据背后的故事,发生某事的原因或引起注意的上下文。

允许观众对数据进行自主探索:除此之外,今天的技术界面使我们可以更进一步地吸引听众,并让他们尽情探索您经过整理的数据。如果您有有趣的数据,并且有能力的编码人员可以制作交互式网站和页面,使观众点击数据的各个元素并按照自己的步调和兴趣进行探索,那么这种想法就很有效。

向观众解释重要指标以及成因:上述每种方法都有不同的价值和效用。例如,如果仅考虑数据分析师必要的工作,那么使用可视化图表展示数据这种办法就很容易实现。但是,如果您想对结果进行解释甚至是建立一个探索性的数据故事,作为创建者的您必须投入更多的努力。解释数据要求您精通手头的主题,以便给出原因和重要属性。

另一方面,从观众的角度来看,对数据进行展示然后再解释这种方法是最容易理解的。作为创作者,尽管你已经在数据可视化上投入了大量工作,但是,如果观众刚刚拿到这样一份庞大的数据,理解它也需要相当多的时间和精力。

现在,重要的是要记住,这些方法并不是相互排斥的。您可以在数据故事中实现某一个或者所有方法。但之所以在这里列出这些,是为了让您简要了解数据故事可以吸引人的不同方式。

数字很无聊,但人很有趣。

Hans Rosling是最著名的统计学家之一,他经常说数字很无聊。但是人是很有趣的,我记住了这句话,并将它放在心中。

最好的数据故事既能展示各种因素对现实生活的影响,也能通过客观的洞察力对生活产生影响。证明这一点的最新例子是与冠状病毒有关的数据报道。


来源- Sam Whitney, CDC, healthsystemsglobal.org (2020)

自今年3月以来,这个图表的不同版本已经登上了全球媒体的头条。它为人们提供了一个关键洞察,让人们了解防护措施如何有助于减轻世界各地医疗系统的负担。

现在想一想受这些图表影响的不同的人道故事。例如,让我们从性别的角度来考虑冠状病毒对社会的影响。女性群体是世界上最大的无薪或低薪劳动力之一,当然这已经不是什么秘密了。


来源- United Nations (2020)


来源- undp.org (2020)

UNDP最近发布了关于Covid对妇女影响的评估报告。他们的主要发现之一是,这场流行病将使4700万妇女和女孩降至贫困线以下。女性花在无偿工作上的时间已经是男性的三倍之多。如果我们计算女性无偿工作的价值,那就是100亿美元!!


来源- Sabhyata Jain, Oxfam (2018)

上图将女性无偿劳动的估计全球价值与乐施会2019年的一份报告给出的全球科技行业价值进行了比较。事实证明,女性无偿劳动的价值是全球科技公司价值的三倍多。请注意,这些数据是2018-2019年的,即在疫情之前。

每一个这样的数字背后都隐藏着一个人道故事。而我们则有责任在为商业目标计算数字的同时将它们牢记在心。

冠状病毒并不是使用数据帮助防控疾病的第一个例子。1854年,伦敦爆发了严重的霍乱,导致许多人死亡。在那期间,霍乱曾一度被认为是通过空气传播的。一位名叫约翰·斯诺的绅士首先意识到了问题。他在一张城市地图上标出了所有病例,并画了一条横线来代表每一位死于这种疾病的人。当他继续绘制数据地图时,他注意到所有报告疫情的地方都位于同一水源沿线。通过科学实验,他验证了自己的假设,并推断水源确实受到了污染并正在感染周围所有的人。

最终,市政府听取了他的呼吁,水源被关闭并清理干净。


约翰·斯诺(John Snow)绘制的原始地图,显示了1854年伦敦疫情中的霍乱病例集群,由查尔斯·切芬斯(Charles Cheffins)进行了平版绘制。来源-维基百科

这被认为是使用数据可视化来解决现实世界问题的首批已知例子之一。我们已经收集了大量关于私人和公民生活方方面面的数据--性别不平等、种族不平等、气候危机…如果我们更多地关注受这些数字影响的事件,并采取行动,那么改变是有希望的。

错误的数据=错误的故事!

不过,请注意。发展数据讲故事教育的核心是真实性、准确性、透明度与生动描述之间的平衡。因此,我们应该警示自己不仅要讲述数据故事,而且要负责任地讲述它们,这一点至关重要。


来源- Times Now, India, June 2020

这里有一个例子,它既有数据垃圾,也有表示数据的不诚实。数据被错误地使用,歪曲了百分比和视觉线索。但有时,还有其他因素影响,比如由于政府压制数据透明度法规等外部因素而导致数据丢失:失业数字、战争支出和伤亡人数就是这样的例子。

来自源本身的数据操作是另一个问题。近年来,我们看到许多国家操纵其国内生产总值(GDP)增长数据,使其与现实相比看起来经济状况良好。人们在从事数据报道时必须意识到这些偏见和对客观性的威胁。否则,你可能最终会用虚构的数字和数据来讲述虚构的故事。

数据故事的8条戒律

综上所述,以下是构成一个好的数据故事的关键要素。

1.从一个问题开始。
观众将学到什么?把你的故事编排好。

2.以洞察力结束。
这些数字意味着什么,它们在现实生活中意味着什么?你能从这些数据中学到一些有趣或有见地的东西吗?如果没有,也许可以重新考虑是否值得。

3.了解并迎合你的观众。
你在跟谁说话?他们需要知道什么才能完全理解您的数据和故事?

4.讲一个引人入胜的故事。
人们会记住故事,而不仅仅是事实和数字。

5.形象化讲解,文字讲解。
用文字来解释视觉上看不到的细节,给出理由,讲述更大的图景。

6.提供上下文。
没有上下文,数字和数据是没有意义的。

7.条理清晰、简明扼要。
删除不属于文章或表单数据垃圾的所有内容。

8.诚实守信。
不要伪造数据、来源或视觉效果。

本期内容就是这些,小伙伴们下期再见!



如果您想深入学习微软Power BI,欢迎登录网易云课堂试听学习我们的“从Excel到Power BI数据分析可视化”系列课程。或者关注我们的公众号(PowerPivot工坊)后猛戳”在线学习”。



长按下方二维码关注“Power Pivot工坊”获取更多微软Power BI、PowerPivot相关文章、资讯,欢迎小伙伴儿们转发分享~


Power Pivot工坊