qualitatively qualitatively-关于交互项的那些事（三）：遗漏变量偏差 vs 多重共线性

纯粹的线性模型只是对现实世界的近似，类似于一阶泰勒展开。将线性模型推广至非线性模型的方法很多。最简单的做法就是加入平方项与交互项，这相当于二阶泰勒展开。

从数学上看，二阶泰勒展开对于（真实的）非线性函数的近似效果肯定比一次函数更好。但为什么在经济学的应用中却很少看到平方项与交互项呢？即使有交互项，也通常只是两个变量的之间的交互项，为何不考虑所有变量之间的各种可能的交互项呢？这涉及到需要在“遗漏变量偏差”（omitted variable bias）与“多重共线性”（multicollinearity）之间作权衡。

假设真实的回归模型为二次函数，比如

但却估计了如下模型

则

、

与

皆为遗漏变量。此时，扰动项

必然与解释变量

、

相关，导致内生性。因此，在回归方程中加入平方项与交互项，有助于缓解遗漏变量偏差。

然而，加入平方项与交互项之后，一般会导致一定程度的多重共线性，因为

与

、

存在相关性，而

则与

、

存在相关性。

不妨在 Stata 中做个模拟，假设

服从标准正态分布，而

服从自由度为5的卡方分布，考察一次项与二次项的相关性有多强。

clear all

set seed 1

set obs 1000

gen x1=rnormal()

gen x2=rchi2(5)

gen x1_2=x1^2

gen x2_2=x2^2

gen x1_x2=x1*x2

pwcorr x1 x1_2 x1_x2,sig star(.5)

pwcorr x2 x2_2 x1_x2,sig star(.5)

结果显示，

与

的相关系数高达0.86，而

与

的相关系数更是达到0.95。其中，由于

服从卡方分布，取值始终为正，故

与

的相关性较强。另一方面，由于

服从正态分布，取值可正可负，故

与

的相关性较弱，但依然在1%的水平上显著负相关。

总之，加入二次项之后，一般很难避免多重共线性。由于多重共线性具有方差膨胀（variance inflation）的作用，故加入二次项后一般会使得估计量的方差增大，导致回归系数的显著性下降。这当然不是我们想看到的效果。

那么，究竟是否应该在回归模型加入二次项呢？这就涉及到如何在遗漏变量偏差与多重共线性之间进行权衡。

当然，如果线性模型已经是对于现实世界的足够好近似，那么就可以忽略遗漏变量偏差，而不必加入二次项或高次项了。为此，可以进行“回归方程设定误差检验”（Ramsey’s RESET检验，即Regression Equation Specification Error Test）。比如，如果完整的方程为

则可对原假设

进行F检验，详见《高级计量经济学及Stata应用》，第120页。如果接受此原假设，则线性模型足矣，万事大吉。反之，如果拒绝此原假设，则应考虑加入二次项。

如果在模型中加入二次项，则一般应在论文中同时汇报仅包含一次项的简洁模型，以及包含二次项的完整模型之估计结果，这是所谓“稳健性检验”（robustness checks）的一种形式。如果两种模型的定性结果类似（qualitatively similar），或者不影响你感兴趣变量的显著性与符号，则也很容易处理。

困难之处在于，有时简洁模型与完整模型的结果并不一致，甚至影响了统计显著性或回归系数的符号。而产生这种现象的原因依然是遗漏变量偏差或多重共线性。

如果存在遗漏变量偏差，则简单的线性模型并不一致，而包含二次项的完整模型才是一致估计，故二者的估计结果大相径庭，也在情理之中。

另一方面，即使遗漏变量偏差不存在或较微弱，加入二次项所导致的多重共线性，也可能通过“方差膨胀因子”（variance inflation factor），增大估计量的标准误，使得原来显著的项变得不再显著。

有时甚至会出现这样一种情况，即加入交互项后，虽然交互项（即“交互效应”）显著，但原来显著的一次项（也称为“主效应”，main effect）却变得不再显著。此时，实证研究者可能会比较纠结，究竟是否应去掉“主效应”，而仅保留“交互效应”。

但如果这样做，则违反了统计学中的“层级原则”（hierarchy principle）。层级原则认为，如果模型中包含交互效应，则一定应包含主效应，即使主效应并不显著（因为包含无关变量的危害性很小）。

这是因为，如果模型中有交互效应而无主效应，则交互效应的含义将变得不好解释（相当于没有一次项的二次函数）。此时，由于没有一次项，则交互效应中其实也包含了主效应的作用。

因此，根据层级原则，在回归建模时，要么只有主效应，要么同时包含主效应与交互效应。换言之，主效应一定要包括（要不何以称为“主效应”呢），而交互效应则为备选。事实上，如果你的论文只有交互效应而没有主效应，则读者或编辑可能会认为你在玩“猫腻”，为了追求某种虚假的显著性而隐藏什么。

在下期推文中，我们将继续介绍非线性模型（比如Probit模型）中的交互效应，其解释不同于线性模型中的交互效应。

参考文献

陈强，《计量经济学及Stata应用》，高等教育出版社，2015年（配套教学视频，可在网易云课堂学习，详见）

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年（配套高级计量六天现场班，北京，2019年10月1-6日，详见）

震撼来袭 >>机器学习及Stata、R三天现场班

上海，2019年8月17日-19日

主办：第三届Stata中国大会、友万科技

主讲：陈强教授（山东大学）

授课方式：思想原理 + 数学精髓 + Stata、R案例

陈强老师将首次推出全新的“机器学习及Stata、R应用”三天现场培训班。结合Stata与R的实操案例，深入浅出地介绍最为流行的机器学习方法，包括KNN，判别分析、朴素贝叶斯、决策树、随机森林、提升法、支持向量机、神经网络等。

跟着陈老师，三天入门机器学习，赶上时代步伐！

———END———

限时特惠：本站每日持续更新海量各大最新【内部创业教程】，一年会员只需 98 元，全站资源免费下载点击查看详情

站长微信： webprojs_com

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

文本标签

相关文章

发表回复 取消回复

发表回复取消回复