宇宙尽头的餐馆

浅谈实证研究：第三期实证论文写作思路

2024年3月1日 · 2 min

为了提供更具体的理解，我们深入解析实证研究的步骤，以“UP 主语言文明程度与视频播放量的关系”为例进行详细说明。

实证研究案例分析步骤#

1. 定义研究问题和假设#

研究问题：UP 主的语言文明程度是否对视频播放量有正向影响？
假设：UP 主使用更多的“谢谢”和“请”等礼貌用语，会增加视频的播放量。

2. 数据收集与变量定义#

衡量关键变量：
- 自变量（X）：UP主语言文明程度，通过“谢谢”和“请”的频次衡量。
- 因变量（Y）：视频播放量，使用B站提供的数据。
基本分析：
- 回归方程：分析语言文明程度（X）与播放量（Y）的关系。
- 目标：检测语言文明程度对播放量是否有显著正影响。
控制变量：
- 加入其他可能影响播放量的因素：视频分区、上传时间、更新速度、UP主颜值、视频标题等。
- 回归模型： $Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon$ $Y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + ... + β_{n} X_{n} + ϵ$
  - 其中， $X_1$ 代表语言文明程度， $X_2$ 到 $X_n$ 代表控制变量， $\epsilon$ 是误差项。
- 目的：确保分析的准确性，排除伪相关。

NOTE

以上步骤完成，我们才能说完成了 baseline regression。

3. 稳健性检验#

变量替换：通过替换衡量语言文明程度的指标（如脏词频率、命令语句出现频率）来检验结果的稳健性。
目的：确认主要发现不是由于特定衡量方法的选择而产生的。

NOTE

完成了 baseline regression 和稳健型检验也是不够的。

4. 内生性问题识别与解决#

潜在问题：遗漏变量、反向因果关系、样本选择偏差。
解决策略：工具变量、外生事件、匹配得分、双差分法、DID-IV 等等
- 遗漏变量：加入更多的控制变量。
- 反向因果：考虑使用工具变量法。
- 自我选择偏误：
- 样本选择偏差：利用匹配得分法或双重差分法(DID)减少偏差。

5. 解释现象的原因#

体验改善：文明语言提供了更好的观看体验，促使观众更愿意关注和分享视频。
- 把语言文明的视频同语言不文明的视频比较
平台推广：B 站可能更倾向于推广语言文明的视频，从而增加了这些视频的播放量。上推荐位的频次

原因可能同时存在

6. 进一步分析#

使用更多的方法去解决内生性问题，去讨论各种潜在的原因
进一步细分，把语言文明程度分为正向的文明、负向的不文明，讨论二者是不是有不同的作用效果，是不是有不同的 channel
不仅讨论对播放量的影响，还会细分到播放时长，是否能留住观众的订阅，是否能带来重复播放等等一系列结果

NOTE

要根据具体的选题来确定哪些问题需要扩展，哪些问题需要细分。

结论#

通过以上步骤，我们不仅能够验证 UP 主的语言文明程度对视频播放量的正向影响，而且还能深入理解这一现象背后的原因。这种方法论不仅适用于本案例，也可以广泛应用于其他实证研究项目中，帮助研究者构建严谨的研究设计，有效应对内生性问题，并提供深入的现象解释。