Skip to content
Phone animation 宇宙尽头的餐馆

浅谈实证研究:第四期 描述性统计

· 3 min

描述统计的重要性与时机#

必要性:几乎所有的实证研究都需要进行描述性统计分析,除非研究完全基于理论模型推导。

==实施时机==:最好是做完所有检验之前&之后,都要进行描述性统计

小结

以上都是建议大家在每做一步检验之后,都做一个描述统计给自己看看。看我们的变量样本是不是合理,有没有什么明显的异常,这样做能够及时帮我们发现问题。

至于给读者看的描述统计,我还是建议大家在完成了所有检验之后再做。这个描述统计呢需要我们整理好表格并报告出来,之所以这一步建议大家在最后做,是因为我们完成了所有检验之后,才能确定我们具体需要什么变量,需要什么控制变量,包括了哪些因素,以及我们需要报告的特征是什么,那我们在处理数据以及做其他检验过程中,是没有办法确定最终我们要采取什么变量的。所以给读者看的描述统计我建议大家是在所有检验的最后再做好。

描述统计的内容#

  1. 变量选择:需对==所有有衡量意义的变量==进行描述性统计,排除无次序的名义尺度变量(如股票代码、行业分类)。
  2. 关键统计量:样本量、平均值、标准差、最大/最小值、中位数、四分位数(25%,75%)等。
  3. 分类变量的分组统计:对于0-1虚拟变量,分别==对两组样本==的描述统计进行比较,分析差异。
    CleanShot 2024-03-01 at 23.44.03@2x.png
    CleanShot 2024-03-01 at 23.44.03@2x.png
  4. 相关性分析:分析变量间的相关性,检查控制变量间是否存在高度相关性。

Stata 中的描述统计指令#

  1. tabstat:提供变量的平均值、标准差、最小值、最大值等描述统计量。
    • 使用示例:tabstat price mpg rep78, stat(n mean sd min max)
    • 分组描述统计:通过 by() 选项按分类变量进行分组描述统计。
      • tabstat price mpg rep78, stat(n mean sd min max) by(foreign)
      • 不要总体的描述性统计,只要分组的 :tabstat price mpg rep78, stat(n mean sd min max) by(foreign) nototal
      • 转置表格:tabstat price mpg rep78, stat(n mean sd min max) by(foreign) nototal col(stat)
  2. summarize:提供基本的描述统计量,如平均值、标准差、最小值和最大值。
    • 使用示例:summarize price mpg rep78
  3. tabulate(简称tab):用于分类变量,显示不同类别的频数和比例。
    • 使用示例:tabulate region
  4. correlatepwcorr:分别进行变量间的相关性分析。
    • correlate:排除任何含缺失值的观测。
    • pwcorr:pairwise correlate,对每对变量单独处理缺失值,允许更多的数据参与分析。
    • 使用示例:pwcorr price mpg rep78, sigpwcorr price mpg rep78, sig star(0.01)

数据处理与检验前的描述统计#

描述统计报告的编写#

通过上述指导,你可以更有效地在 Stata 中进行描述统计分析,为你的实证研究提供坚实的数据支持。

> cd ..