計量經濟學

代表性抽樣問題

  • July 24, 2017

我很好奇:在為非實驗分析創建大型數據集的子樣本時,使用代表性抽樣而不是隨機抽樣究竟會引起什麼問題。此外,當人們想要為非實驗分析創建平衡的比較組時,傾向得分匹配的效果如何?

要回答您的第一個問題:這取決於您要使用的子樣本。

通過將感興趣的總體劃分為不重疊的子集,從每個子集中抽取一個隨機樣本,然後計算權重以調整併非來自樣本的所有元素都具有相同的被選中機率這一事實,建構了一個代表性或分層樣本從人口。

使用代表性或分層樣本的優勢在於,您可以使用您擁有的關於總體的資訊來建構樣本,因此可以對感興趣的總體計算的統計數據進行更可靠的估計。缺點是您計算的權重對於您建構的分層樣本是正確的,但如果您想探索各層之間不同的特徵,那麼這些權重很可能是錯誤的權重。您的估計會有偏差,您可能無法針對這種偏差進行調整。

至於傾向得分匹配。你只能匹配你能看到的。您仍然必須處理遺漏變數偏差的問題。傾向得分匹配可能會增加而不是減少偏差。它的有效性取決於您做出的假設以及這些假設是否成立。

作為總體“代表”的樣本與樣本中某些屬性的分佈無關,這是隨機的。重要的是,一個單位被包含在樣本中的機率對於整個人口來說是相等的。假設您想估計女性在人口中的比例。當您從人口中抽取隨機樣本時,您的樣本中女性的比例是對人口中女性比例的一致估計,因為您的樣本是隨機的。由於抽樣誤差,它不會相同。隨著您抽取越來越大的樣本,您對女性份額的估計將收斂到人口值。

現在假設您已經知道女性的人口比例,並且您想要估計其他的東西。假設您感興趣的人群包括 6 人,2 名女性和 4 名男性。您抽取 3 個人的樣本,無需替換。在隨機抽樣的情況下,總體中每個人的抽樣機率為 1/2。如果抽取一個由 1 名女性和 2 名男性組成的分層樣本,則總體中每個人的抽樣機率仍然為 1/2,因此兩種抽樣方式都具有總體代表性。

通過對樣本進行分層,您有什麼收穫嗎?如果您要估算的事物與性別無關,那麼您將一無所獲。但是,如果您想估計一些與性別無關的東西,那麼分層樣本將通過減少抽樣誤差為您提供更精確的估計。缺點是,如果您出於某種原因使用了不正確的抽樣機率並且不對其進行調整,那麼您將得到一個有偏差的估計。

RE:我剛剛意識到這個答案主要是上述答案的重複。對於那個很抱歉。

引用自:https://economics.stackexchange.com/questions/16105