通过创建和解读直方图、柱状图和频数图,学习数据可视化基础知识。
优达学城学员背景广泛,如果我们想知道都有哪些人,参加了这些课程,该怎么办?现在看看样本量为50 的一组数据
大家花4秒钟的时间看看这个表格,并告诉我这个样本中的大多数学生都来自哪个国家
大多数学员都来自中国,但是只花 4 秒钟的时间来观察这一表格可能很难看出,你可能扫了一眼表格,发现上面写了好多“中国”,因此能够感觉到哪个国家出现的概率最高,你的大脑可以自动这么思考,但是对于统计学,我们需要用简单的方式规范化这一流程,如果你这次没有猜对也没事,这个小测验的最终目标就是向你展示 有了表格也是很难快速得出结论的,有什么更好的方法呢?
我们可以创建一个频次表,即数出每个国家出现的频次,我的做法是逐个计数
最终结果应该是这样的 注意它们的总和应该是50,即样本的总观察次数,通过频次表我们可以轻松地看出大多数学生来自中国。
我们不仅要研究绝对数值,还要看看这些数字之间的相互关系,换句话说,我们可能想要知道来自每个国家的学员所占的比例,了解有多少学员来自每个国家构成一个整体,这就叫做相对频率。
例如 这个样本的 50 名学员中有2名来自加拿大2/50 = 0.04,0.04 就是来自加拿大的学员所占的比例
通过相对频率,还可以看出在整体中所占的比例,如果我们包含了吉尔吉斯斯坦,吉尔吉斯斯坦的比例就是 0,因为这 50 名学员中没有一位来自吉尔吉斯斯坦,如果不看国家而是看星球,会发现所有学员都来自地球,因此地球的比例是 1,也就是说 50 名学员都来自地球,50/50=1。
所有比例都始终在 0 到 1 之间或等于 0 或 等于1。
对于任何频率表来说,相对频率(用比例表示)相加等于1。这表示表示我们考虑了所有情况。
现在我们来分析下这个频率表,来自美国的学员所占的比例是多少?来自印度的学员所占的比例呢?对于欧洲和亚洲 哪个地区的学员更多?
从表中可以看出 有 0.2 的学员来自美国,有 0.16 的学员来自印度。从表中可以看出所有欧洲国家是英国、德国和瑞典;所有亚洲国家是中国、印度、日本和巴基斯坦。欧洲学员的总比例是0.04+0.06+0.02=0.12亚洲学员的总比例是0.24+0.16+0.16+0.02=0.58看来亚洲学员的比例更高
显示相对频率的另一种方式是百分比,百分比非常好用,因为和很多人一样,我个人甚至包括你在内,都不喜欢小数和分数,如果我们用百分比来表示相对频率的话,我们就可以使用整数了,百分比实际上也是一种比例,只是我们将它乘以 100 并称之为百分比。
百分比的范围是从 0% 到 100% 就像比例是从 0 到 1 一样。同样的 所有百分比之和应该等于 100%。
这里有好多的数据,我们可以通过只看各个洲的数据来简化流程。
现在数据更加简化了,虽然这个表格很有意思,给我们提供了新的信息,但是只通过这个表格我们并不知道有多少学员来自各个国家,创建这个表格后给我们带来了便利,因为我们需要查看的类别变少了,在这种情况下是 3 个类别,但在过程中也丢失了一些信息 即关于特定国家的信息,在创建频率分布表时 有时候简便性和信息性之间存在利弊关系,但是不能说哪种方法就是正确的数据呈现方式,完全取决于你要回答哪种问题。
在这种情况下,如果你想知道有多少学员来自北美,这么整理数据就是最佳方法
但是如果你想知道有多少学员来自印度或其他特定国家,则这么整理数据就是最佳方法,关键在于根据你要回答的问题知道如何整理数据。
之前我们分析学员都来自哪个国家,现在我们来分析下他们的年龄,这是一个学员年龄样本,同样是 50 个人
如何像分析国家数据一样分析这一数据?频率数据中不再是国家而是年龄,如何创建这个表格?需要多少行?需要 50 行 每行表示一名学员?或者 66 行,每行表示一个年龄 从 10 岁到 75 岁?8 到 10 行,因为最容易理解?取决于你对数据进行分组的方式?或者 2 行 一行表示 50 岁以上的人数,一行表示 50 岁以下的人数?
我们可以随便分组这一数据,实际上,我们可以只要两行,一行表示小于 50 岁的学员人数,一行表示大于 50 岁的人数,但是我们不需要这么分组,甚至可以每个年龄一行,所以可以是 10、11、12 岁,然后数数有多少学员年龄是 10 岁,有多少是 11 岁,但这不是最简便的方式,因为可能所有年龄的出现频率是 1 次,少数几个是 2 次,那么为每行选择一个范围呢?例如 0 到 19 岁,20 到 39 岁,然后数数有多少学员是在 0 到 19 岁,20 到 39 岁等等,这就叫做区间或容器或桶,大多数情况下 我们将称之为区间或容器,在这种情况下容器大小是 20,因为它包括 0。
我们来创建一个组距是 20 的频率图表
给出一组混乱无章的数据,我们可以通过频率表轻松地对数据可视化,在这种情况下 我们划分了四个容器,容器大小是 20,我们可以计算落入每个区间的学员数量,现在我们进一步介绍对这一数据进行可视化的方法。
现在请你绘制一个图表,这时 X 轴 表示年龄,Y 轴 表示频率,你需要针对这组数绘制一个柱状图 并显示每个柱的高度应该是多少
刚刚创建了一个组距为 20 的直方图,其实我们可以创建任何组距大小的直方图,组距大小也称为区间大小。组距越来越大的情形,可以看到现在每个区间内的观察值越来越多,如果我们不断让组距越来越大,最终会很难看清直方图的形状,因为组距太大了。最终每个分组里会有太多的数据,直方图的形状甚至都无法识别了。
组距是指对频率进行计数的区间