spss固定效應和隨機效應(互助問答第31期:固定效應與隨機效應選擇和面板數據處理)
樣本描述:各位老師好,我的論文采用的是微觀面板非平衡數據(合并了3波數據,總觀測值6萬左右),每波觀測之間約有20%的樣本不同(約10%的樣本流失,10%的新樣本補入),因變量是連續變量,核心自變量是虛擬變量。經由列聯表分析,發現對重復觀測的樣本而言,約有8%左右樣本的核心控制變量狀態(0或1)會在兩次觀測時間中發生變異。加入協變量后,經過多次模型比較,均發現個體效應不容忽視,固定效應顯著優于隨機效應和混和估計。關于模型方法選擇和樣本處理方面有三個問題請教。
問題1: 由于組內變異不足,固定效應在進行組內離差時是否已經抹去了大部分核心變量的信息,導致結果實際上并不具有代表性和可信度?這種情況下是否只能拋開豪斯曼檢驗結果而使用隨機效應?
答案1:
個體固定效應在你說的情形中確實吸收了核心自變量許多信息,可能導致核心自變量系數估計統計不顯著,但這不意味著結果是錯誤或不可信的。此時用固定效應還是隨機效應是需要權衡的。如果用固定效應,回歸結果未必如你所想;如果用隨機效應,回歸結果可能是不一致的——這是更嚴重的問題,即使結果顯著,也不可信。我個人的建議是:繼續使用固定效應模型,然后多看一些異質性。雖然平均意義上系數不顯著,但可能對某些特定群體是顯著的。
問題2: 由于這一核心虛擬變量可能存在一定樣本自選擇現象,如果使用傾向值得分匹配,如何結合面板數據的特征?(PS:在理論上,由于存在“前處理效應”,因而不能使用did或did-psm)
答案2:
不知道你的核心虛擬變量是怎樣的變量。如果該變量是諸如“是否有工作”這種可能因時而異的變量,那便無法在面板數據架構下應用匹配方法(如果非要用匹配法,只能一年一年分開做)。如果核心虛擬變量是事先確定了的變量(比如在政策評估領域常見的“是否受到某項政策的影響”),就可能可以利用DID Matching的方法去做(也就是常說的PSM-DID)。PS:沒看懂你括號里的PS說明。
問題3: 是否有必要強行構造平衡面板?(由于是微觀抽樣數據,理論上強行構建平衡面板似乎會造成推斷有偏,但所有參考文獻均是使用平衡面板。)
答案3:
個體固定效應模型并不要求面板數據是平衡面板,只要所有個體至少有兩期數據即可。非平衡面板與平衡面板數據各有優劣,前者樣本內生選擇問題沒有后者嚴重,但后者的跨期可比性比前者更好。理論上,當出現面板數據跨期追蹤缺失時(attrition),需要檢查該缺失是內生的,還是可以近似看做隨機,如果是后者,那么構造平衡面板自然是最好的。
學術指導:張曉峒老師
本期解答人:中關村大街
編輯:Hollian 知我者 楊芳
統籌:芋頭 易仰楠
技術:知我者