为什么要写这篇文章?
由于本人专业原因,经常接触到对数据可视化的例子。但是并没有系统研究过各个图表可以解决哪些问题,纠结很久决定整理一下目前经常遇到的几种图表以及各个图表适用的问题范围(之后遇到其他的图再学习更新),以便自己在处理一些数据时不会两眼抓黑。
注:本文章是自己随意做的笔记,不保证准确性。而且图表并没有细致分类,只是常见的普通图表。
定义:直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
图例:
百度定义说直方图是一种条形图,但是直方图和条形图我感觉认为是有区别的。这里先说直方图,条形图之后解释。
直方图是将连续型的数据根据一定间隔划分区域,其高度显示符合每个区域数据出现的个数或频率。从这里便可以将直方图分为频数直方图和频率直方图。
根据网上找到的资料,直方图常见的作用有:
个人理解,直方图可以用于获得某些连续数据的数量(或频率)的分布状态,得出数据主要集中在哪个区域、是否趋于集中或分散。
定义:
柱状图(Histogram),也称条图(英文:bargraph)、长条图(英文:barchart)、条状图,是一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。柱状图亦可横向排列,或用多维方式表达。
条形图用条的根数代表分类变量所分组的多少,或者选用变量的个数,用条的高度反映各组分析指标值的大小,或者变量特征值的大小,各个条之间有间隔。它可以直观揭示或比较频数变量的频数特征值、分类变量在有关综述变量方面的特征值大小,以此发现重要组或类。
上述定义过长,我们看以下图例来理解。
图例
柱状图:
条形图:
从上图其实可以看出,柱状图和条形图其实大致是一样的,只是一个是纵向表示,一个是横向表示。这是我将它们放在一起说的理由。
它们与直方图的区别在于:
(1)前者柱子无间隔;后者柱子有间隔
(2)前者柱子宽度无意义,必须一致;后者柱子宽度有意义,且不一定宽度一致
归根结底,可以从分类标准区分。根据数据范围进行分类是直方图,根据其他类别进行分类一般是柱状图或条形图。同时柱状图、条形图所表示的数据也没有什么连续型可言。
我们可以用柱状图、条形图看出一组数据各个分类的个数多少,或者多组数据各项分类之间的比较情况。如果以时间分类的话也可以显示一段时间内的数据的变化。
定义:折线图是排列在工作表的列或行中的数据可以绘制到折线图中。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。
在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。
图例
折线图横坐标一般为时间,所以大多数情况下显示的是数据在时间上的变化趋势。如果你只想获得某种数据的变化趋势或者对比数据看谁的趋势更好,那么我认为折线图可以首选。
定义:饼状图显示一个数据系列(数据系列:在图表中绘制的相关数据点,这些数据源自数据表的行或列。图表中的每个数据系列具有唯一的颜色或图案并且在图表的图例中表示。可以在图表中绘制一个或多个数据系列。饼状图只有一个数据系列。)中各项的大小与各项总和的比例。饼状图中的数据点(数据点:在图表中绘制的单个值,这些值由条形、柱形、折线、饼状图或圆环图的扇面、圆点和其他被称为数据标记的图形表示。相同颜色的数据标记组成一个数据系列。)显示为整个饼状图的百分比。
图例:
从图中可以看出,饼状图的分类可以是根据特征分类,如商品的类别、所含的成分;也可以是数据范围,如学生考试成绩。从饼状图中你可以看出所分类别中谁的占比多,谁的占比少。
还有一种内嵌式的环形饼状图,其对同类别的多种事物进行占比分析,你可以由此看出其成分比重差异。
。。。