日志

Heckman两阶段方法/模型简介

热度 32已有 670 次阅读2021-6-15 19:50 |系统分类:纯水（首页不显示）

Heckman两阶段模型解决的是样本选择偏差（sample selection bias）的问题。样本选择偏差指的是我们在回归方程中估计出的参数是基于那些被选择进样本了的数据点（或者说是能够观测得到的数据点）而得出的。如果说一个数据点（观测值）是不是被选择进样本是一个外生的、纯随机的事件，那么我们据此得出的参数并不会有偏差（bias）——这个估计结果就不会有问题。

可是，一个数据点是不是能被选择进样本、或者说是不是能够被观测到，这个过程在很多时候并不是随机、外生的。比如说，就拿Wooldridge 教材中的一个经典例子来讲：研究者试图估计出受教育程度以及工作经验对于女职工工资的影响。在一个753名女性的大样本中，428名女性是有工作的，所以这项研究只能在这428名有工作（有收入）的样本中展开。那么问题来了：因为我们无法观测到那325个没有工作的样本中受教育程度以及经验对于收入的影响，并且一个人选择工作或不工作并非是随机的——人们会根据潜在的收入水平、自身条件、家庭情况、年龄等等因素综合来决定是否参加工作，于是，我们仅从那428个有工作的人身上找出的统计学结果将是有偏差的，因为样本的选择并非随机及外生的。

Heckman两阶段模型的功能就是试图纠正这种偏差导致的估计偏误。第一阶段的模型，是一个包括全样本（753人）的Probit模型，用来估计一个人参加工作与否的概率。这里的因变量是二元的，表示是否参加工作；自变量是一些会影响个人决定工作与否的外生变量，比如其他收入来源、年龄、有几个未成年子女，等等。这些自变量类似工具变量——他们会影响个人是否参加工作的决策，但不太可能影响参加工作后的收入水平。然后根据这个Probit模型，我们为每一个样本计算出逆米尔斯比率（Inverse Mills Ratio）。这个比率的作用是为每一个样本计算出一个用于修正样本选择偏差的值。