大数据人工智能淘宝天猫双十一幕后:实时可视化查询大屏

【what】什么是数据可视化?

大数据可视化,就是指将结构或非结构数据转换成适当的可视化图表,然后将隐藏在数据中的信息直接展现于人们面前。那数据可视化的优势在于合成呢?

1. 展示需要相比传统的用表格或文档展现数据的方式,可视化能将数据以更加直观的方式展现出来,使数据更加客观、更具说服力。在各类报表和说明性文件中,用直观的图表展现数据,显得简洁、可靠。

在可视化图表工具的表现形式方面,图表类型表现的更加多样化,丰富化。除了传统的饼图、柱状图、折线图等常见图形,还有气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷炫图表,甚至还有GIS地图。这些种类繁多的图形能满足不同的展示和分析需求。

2. 数据分析需要大数据的价值在于挖掘。大数据时代背景下的可视化图表工具在大数据时代,可视化图表工具不可能“单独作战”。一般数据可视化都是和数据分析功能组合,数据分析又需要数据接入整合、数据处理、ETL等数据功能,发展成为一站式的大数据分析平台。

 -LMLPHP

在这里我还是要推荐下我自己建的大数据学习交流裙:532+二一八+147,裙里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。

3、科技在进步,社会在发展,数据可视化也要适应时代的需求,除了要在数据处理和数据展示方面下足功夫外,还要强调功能易用性和操作人性化,不要有太高的学习门槛,除了技术人员,让更多的业务人员能够了解数据平台,了解数据可视化。

4、数据可视化的应用价值,其多样性和表现力吸引了许多从业者,而其创作过程中的每一环节都有强大的专业背景支持。无论是动态还是静态的可视化图形,都为我们搭建了新的桥梁,让我们能洞察世界的究竟、发现形形色色的关系,感受每时每刻围绕在我们身边的信息变化,还能让我们理解其他形式下不易发掘的事物。


塔夫特所说,“图形表现数据。实际上比传统的统计分析法更加精确和有启发性。”对于广大的编辑、设计师、运营分析师、大数据研究者等等都需要从不同维度、不同层面、不同粒度的数据处理统计中,借助图表和信息图的方式为用户(只获得信息)、阅读者(消费信息)及管理者(利用信息进行管理和决策)呈现不同于表格式的分析结果。数据可视化技术综合运用计算机图形学、图像、人机交互等,将采集、清洗、转换、处理过的符合标准和规范的数据映射为可识别的图形、图像、动画甚至视频,并允许用户与数据可视化进行交互和分析。而任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。

【why】为什么要进行数据可视化?

1.我们利用视觉获取的信息量,远远比别的感官要多的多。

回顾一下,正常人有简单的五觉: 视觉,听觉,嗅觉,触觉,味觉(用来抓小三的第六感不在这边文章的考虑范畴)。下面是用个一个图标来表示各个感官对信息量的接受的差别.

Alexander Lex:http://dataviscourse.net/2015/assets/slides/01-Introduction.pdf

可以看出来,视觉的对信息的接收量比剩下的四种感观信息的接收量的总和还要多。

2.它能够帮助分析的人对数据有更全面的认识。(咋一听好抽像!)

我们可以用一个经典的例子去理解这句话. F. J. Anscombe 在1973年在他的一篇论文 "Graphs in Statistical Analysis"[3]中分析散点图(scatter plot)和线性回归(linear regression)的关系里面提到图像表示对数据分析的重要性。他用了下面这个例子:

看下面四组数据 I, II, III, IV. 

对4组数据进行简单的数据分析, 每组数据有两个变量 X 和 Y,然后我们用常用的统计算法去评估四组数据的特点

Means(平均值): X = 9 Y = 7.5

Variance(总体方差): X = 11Y = 4.122

Correlation(关联) x-y:  0.816

Linear regression(线性回归方程): Y = 3.0 + 0.5X

咋一看你会觉得,好像所有的数据貌似都是一个特点。一样的平均值,方差,线性回归方程。如果只是根绝这些数据去做简单的判断的话,得出来的结论是一样的。

但是,如果我们用简单的data visualization去分析这些数据,得到的结果确完全不一样!。

图片从左到右对应 I, II, III, IV

第一租数据图告诉我们,x 和 y 有week linear relation。

第二组数据图告诉我们, x 和 y 有curve regression relation。

第三组数据图告诉我们, x 和 y 有strong  linear relation 而且还有一个异常点。

第四组数据图可以看书横坐标数据集中在一起,而且也有一个异常值。

我们用了简单的图表对比以后,就会发现实际上这些在用图像表示出来后,有完全不一样的故事。

3.人类大脑在记忆能力的限制。

实际上我们在观察物体的时候,我们大脑和计算机一样有长期的记忆(memory 硬盘)和短期的记忆(cache 内存)。只有我们让要记下文字,诗歌,物体,一遍一遍的在短期记忆了出现之后, 它们才可能进入长期记忆。

短期记忆的问题是通常情况下,我们的大脑只能记录三个场景(学术上称为三个memory block).读者可以自己做一个实验,拿三张图片,看一遍之后回顾图片上的内容。然后再拿四张不同的图片,看一遍之后再回顾上面的内容。可能在回顾四张图片的时候就会出现有些图片没法很好的回想起来(我自己试了一下还蛮准的)。data visualization就是尽量用图形的方式把所有的数据集中在一个图像上,这样我们的大脑就只需要记住一个场景(一个memory block). 这样便于我们进行分析。

无论是哪种职业和应用场景,数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。

在这里我还是要推荐下我自己创建的大数据学习交流裙:532+二一八+147无论是大牛还是想转行想学习的大学生小编我都挺欢迎,今天的已经资讯上传到群文件,不定期分享干货,还有免费学习大数据的直播平台包括我自己整理的一份最新的适合2018年学习的大数据教程,欢迎初学和进阶中的小伙伴。

【how】如何实现可靠的数据可视化

数据可视化包括数据的采集、分析、治理、管理、挖掘在内的一系列复杂数据处理,然后由设计师设计一种表现形式,或许是二维图表、三维立体视图,不管是什么样的信息图,最后由前端工程师创建对应的可视化算法及前端渲染和展现的实现。如果仅仅是能够将数据转化成漂亮的图表,设计出固定维度、不同式样的图表来解释你的观点,并不说明这样的结局就足够好。这只是一个简单的开始,只是一个美好愿望的萌芽。如果要成功报告结果,将你所分析的度量和数据有效地转化为有商业价值的见解,使其能够为基于事实所做的决策提供支持,那么还需要做更多的功课。

色彩提升信息可视化的视觉效果。在信息可视化通过造型元素明确传达信息及叙述的基础上,把握好视觉元素中色彩的运用,使图形变得更加生动、有趣,信息表达得更加准确和直观。色彩可以帮助人们对信息进行深入分类,强调和淡化、生动而有趣的可视化作品的表现形式,常常给受众带来视觉效果上的享受。当然,视觉效果要将企业品牌的色调融合进去,和企业的品牌文化保持高度的一致,这是一个最基本的常识。比如,如果企业的品牌色调比较热衷红色,你设计的可视化效果,就要有意识地朝着这个基调靠拢。但没有必要吻合,因为红色的可视化效果,通常都包含警示的韵味,所以,红色适合做预警、提醒和突出信息的功能。

排版布局增强信息可视化的叙事性。我有酒,你有故事吗?排版布局四大基本原则:

(1)对比(Contrast):如果两个项不完全相同,就应当使之不同,而且应当是截然不同。

(2)重复(Repetition):设计的某些方面在整个作品中重复。

(3)对齐(Alignment):任何元素都不能在页面上随意安放。每一项都应当与页面上的某个内容存在某种视觉联系。

(4)亲密性(Proximity):将相关的项组织在一起,使它们的物理位置相互靠近相关的项将被看作凝聚为一体的一个组。

动态增加信息可视化的视觉体验。在信息可视化的视觉表达中,动态地将相互分离的各种信息传播形式有机地融合在一起,进行有关联、有节奏的信息处理、传输和实现。最终的目的是,为了实现数据之间的联动,解释数据表现之间驱动和联系的关系。通过图表样式和色彩的运动,满足受众的视觉感受,同时将信息内容更加深刻而精简地传达给阅读者,使整个信息传达的过程更加轻松便捷。对于数据可视化有诸多工具,如:ECharts、iCharts、D3js、Flot、Rapha?l等功能都十分强大,但对于非专业可视化而又经常与图表打交道的职场人士来说,一款轻便易学而又实用的可视化软件则显得十分重要。比如cognos、tebleue等。如果需要展现的数据结构不是特别复杂,而又要把数据展现的绚丽多彩,而且具有交互性,那么水晶易表是不二之选。

1.谁是你的阅读者?

无论你是否在做一份传统的报表还是新式的信息图,首先问问自己有哪些阅读者看到这份报告?他们对将要讨论的事项了解多少?他们需要什么?、还有,他们会如何利用你要展示的信息和数据呢?而我在《一份靠谱的数据分析报告都有什么套路?》里讲过,明确清晰的分析目标和方法会有多重要,因为只有明确分析目标,才能有一个良好的驱动过程。无论是目标驱动还是分析过程驱动,后续的数据分析工作和分析报告里所要呈现的全部内容事项都是紧紧围绕着这个目标主题而服务的。

2.规划数据可视化方案

数据可视化方案,是一定是能够解决用户特定问题的。既然是能够解决用户特定的问题,那么这样的高度,是在基于你在深入地理解了这些数据的现象和本质的基础之上。简单来说,就是你的可视化方案,不仅懂得并且能够很好地解释数据分析的结论、信息和知识。并且管理者能够沿着你规划的可视化路径能够迅速地找到和发现决策之道。

举例来说,当企业的业绩不达标时(企业的业绩是否达标,关系到企业最关键的利益和存亡。)可视化方案的设计路径应该是这样的:

Step1,从整体运营出发,明确有哪些关键因素会影响成交和业绩。

比如:有效名单、demo品质、客服服务、产品属性等,相应地去看这些关键因素对应的KPI的表现,对整体的业绩来讲,这些因素都会是驱动因素,这些因素对应的KPI都会是对STV有直接驱动和影响作用的。这些驱动数据的可视化是基础,也是寻找解决方案最终的出发点和落脚点。因为,这些数据的表现,是关乎运营成功与否的最直接视图。

Step2,对关键因素深入分析确定是什么因素导致了业绩没达成,发现和挖掘导致业绩未达标的根本原因和问题。

比如:

对比分析,逐一观测201601月-201612月全部关键因素对应的KPI的表现,对比成交业绩最高的月份和成交业绩最差月份的关键因素对应的KPI差异在哪里,能够快速定位出哪些方面、哪些因素导致业绩未达标。然后能够有针对性地驱动和帮助业务部门去改善。

追踪对成交和业绩有驱动和改善的行动方案的落地和实施进度,存在什么样的问题,是否存在行动方案的执行不力影响了业绩达标。

Step3,针对这些问题因素,有的放矢地去做改善和探索提升业绩之道。

否则,设计再商业绚丽的可视化图表,如果不能快速地得到信息和商业决策建议和方案就毫无意义。可视化仅仅成了虚假和欺骗,华丽而不务实的结果。基于准备好的全部的这些问题所得出的答案,就要开始定制你的数据可视化方案以满足每个决策者的特定要求。数据可视化始终都应该是为其受众专门定制的,这样的报告里只应包括受众需要知道的信息,且应将这些信息置于和他们有关并对他们有意义的背景下。

3.给数据可视化一个清晰的标题。

当你的报告像一份报纸、杂志的新闻一样。从这个标题,就能给阅读者强烈的冲击。一个清晰的标题是能够很好地阐释报告和故事的主题,是对整个报告和故事概括的信息。当然,并不是鼓励运营分析人员去做“标题党”。好的标题,既不要模棱两可,也不要画蛇添足,只要解释清楚图表即可。这有助于帮受众直接进入主题。这样能让读者大致浏览文件,并能快速抓住核心所在。尽量让你的标题突出。

4.将数据可视化和你的策略、方案联系起来

如果数据可视化的目的在于介绍能解决具体的、可衡量的、可执行的、有相关性和时效性问题的数据,那就在开场白里加上这些问题。稍后再和你的策略连接起来以理清这些数据的定位,因此,读者便能立刻明白可视化数据的相关性和价值。最终,他们便能更好地参与进来,并能够更明智地利用这些信息。数据可视化,最终时为了企业良好的运营而服务的,这是它的商业价值。如果你不关注企业的战略和行动方案,很难建立起具有联动价值的信息图。比如,企业执行的行动方案,通常是为了达成和实现企业的战略目标,通过这样的手段实现精益管理和精益运营。所以,可视化的解决方案要能够做到,行动方案对战略目标的驱动效果、个体、团队对部门整体指标、KPI的驱动和影响效果。只有建立起来具有联系的信息视图,才会获得有价值的数据可视化。

5.明智地选择你的展示图表。

不管使用哪一类图表,bar图、折线图、雷达图等等,每一种图表都有它自身的优点和局限性。你无法找到完美的可视化图表。但你可以通过尝试混合展现方式让可视化表现再人性化一点点。所以的可视化效果,都应该尽可能简单精准地传达讯息。这就意味着:不论有多新潮、多好看或者多绚丽,这都不是设计数据可视化的初衷。诚然,我们在持续地并且永不满足地追求数据之美。但最佳的平衡点在于,用合适的数据可视化开阐释恰到好处的信息和知识的价值之美。

只用有关联能传达重要信息的且为你的受众所需要的图形。

无需填满页面的所有空白——太多杂乱的内容只会干扰对重要信息的接收,会让人太难记住,又太容易忽略。

恰当运用色彩,增加信息深度。同时要注意有些色彩具备潜在含义。举例来说,红色被认为是代表警告或危险的颜色。适合预警额。

不要使用太多不同类的图表、表格和图形。如果需要对比各种图表,要确保你阐述数据时使用的是同类的图表,这样才能便于互相比较。

6.在恰当处备注文字说明

文字说明有助于用语言解释数据,并能在情境化图表的同时增加内容的深度。数字和表格或许仅能提供快照,而文字说明则让人对关键处了解更多,加以评论并强调其内涵。引导观看者去思考图形的主题,而不是方法论、图形设计、图形生成或其他东西。

避免歪曲数据原本的意图。

让庞大的数据集连贯一致。

吸引读者将不同的数据片段进行比对和比较,突出重点和优劣。

主旨要相当明确:描述、挖掘、作表、可视化自我解读。

更多编程方面的干货分享请关注薇辛工宗号:程序员大牛!

03-30 18:25