前文我们探讨了如何利用R语言绘制箱线图,以帮助我们理解数据的整体分布情况,以及是否存在异常值。除此之外,箱线图还能用于比较不同组之间的数据差异。在本次分析中,我们将使用学生的课堂调查数据,进行数据的组间比较。
我们要进行数据预处理。我们的数据包含了诸如性别、年级、专业、身高以及最喜欢的动物等变量。这些数据被存储在名为“survey”的数据集中。我们的首要任务是清理数据,以便进行后续的分析。
在数据中,我们发现性别(Gender)这一变量存在多种回答,除了常见的“Female”和“Male”,还有“Choose not to answer”和“Gender non-conforming”,甚至有的学生的性别选择是空的。在本次分析中,我们选择忽略这些特殊情况的回答,只保留性别为“Female”或“Male”的记录。
经过数据清理后,我们将聚焦于身高(HtCm)这一变量,利用之前学习的方法绘制箱线图,以了解这个变量的整体分布情况。接着,我们会对比不别之间的身高差异。
在绘制箱线图时,我们注意到有一些极端身高数据存在,这些数据可能不符合常理。我们需要对这些数据进行核实和修正。在本次分析中,为了简化操作,我们将身高小于100厘米的值标记为缺失。
修正数据后,我们再次绘制箱线图,并对比不别的身高分布。通过观察图像,我们可以发现男生的身高普遍高于女生。这种可视化比较为我们提供了直观的数据理解方式。为了更准确地判断男女生身高是否存在统计学上的差异,我们需要进行更深入的统计分析。这就是我们今天讨论的重点内容。通过绘制箱线图,我们可以初步了解数据的分布和组间差异,为后续的分析提供有价值的参考。