Tóm tắt kiến thức ôn tập chương 10 - Kinh tế lượng (NEU)

Tổng hợp lý thuyết và công thức cốt lõi Chương 10 Kinh tế lượng (giáo trình NEU) về hồi quy với biến phụ thuộc rời rạc. Nắm vững các mô hình: Xác suất tuyến tính (LPM), Logit, Probit, Tobit và Poisson. Tài liệu ôn tập ngắn gọn, dễ hiểu, so sánh ưu nhược điểm và cách ước lượng từng mô hình, hỗ trợ sinh viên ôn thi hiệu quả.

Kinh tế lượng NEUTóm tắt chương 10Hồi quy biến rời rạcMô hình LogitMô hình ProbitMô hình TobitMô hình PoissonLPMÔn thi Kinh tế lượngBiến phụ thuộc bị giới hạn

 

10.1. MÔ HÌNH XÁC SUẤT TUYẾN TÍNH (LMP)

10.1.1. Mô hình

Mô hình xác suất tuyến tính (Linear Probability Model - LPM) là dạng đơn giản nhất để xử lý biến phụ thuộc rời rạc (nhị phân, nhận giá trị 0 hoặc 1).
- Phương trình mô hình: Yi=β0+β1X1i+uiY_{i}=\beta_{0}+\beta_{1}X_{1i}+u_{i}
- Trong đó: YY là biến ngẫu nhiên rời rạc (0 hoặc 1).
- Ý nghĩa kỳ vọng có điều kiện: E(YX1i)=P(Y=1X1i)=piE(Y|X_{1i}) = P(Y=1|X_{1i}) = p_i. Giá trị dự báo của Y chính là xác suất để sự kiện xảy ra (Y=1) tại điều kiện X cho trước.

10.1.2. Các giả thiết của OLS trong LPM

Khi áp dụng OLS cho LPM, ta gặp phải 4 vấn đề vi phạm giả thiết nghiêm trọng:
1. Phương sai sai số thay đổi (Heteroskedasticity): Phương sai của u không hằng số mà phụ thuộc vào X. Var(ui)=pi(1pi)Var(u_{i}) = p_{i}(1-p_{i}).
2. Phân phối của sai số không chuẩn: uiu_i chỉ nhận hai giá trị tương ứng với Y=0 và Y=1, tuân theo phân phối nhị thức, không phải phân phối chuẩn. Tuy nhiên, với mẫu lớn, ước lượng OLS vẫn không chệch và tiệm cận chuẩn.
3. Giá trị dự báo Y^i\hat{Y}_i có thể nằm ngoài khoảng [0, 1]: Điều này vô lý về mặt xác suất (xác suất không thể âm hoặc lớn hơn 1).
4. Hệ số R2R^2 thường thấp: Do đường hồi quy tuyến tính khó khớp tốt với các điểm dữ liệu chỉ nằm ở hai cực 0 và 1.

Lưu ý quan trọng cho sinh viên:

Vấn đề của LPMHậu quảCách khắc phục tạm thời
Phương sai thay đổiKiểm định t, F không đáng tin cậyDùng WLS (Bình phương nhỏ nhất có trọng số)
Y^\hat{Y} ngoài [0,1]Dự báo sai ý nghĩa xác suấtGán Y^=0\hat{Y}=0 nếu < 0, Y^=1\hat{Y}=1 nếu > 1 (hoặc chuyển sang Logit/Probit)

10.1.3. Ước lượng mô hình LPM

Để khắc phục phương sai thay đổi, quy trình ước lượng gồm 2 bước (Phương pháp bình phương nhỏ nhất có trọng số - WLS):
- Bước 1: Chạy OLS gốc để thu được Y^i\hat{Y}_i (ước lượng của pip_i). Loại bỏ các quan sát có Y^i<0\hat{Y}_i < 0 hoặc Y^i>1\hat{Y}_i > 1.
- Bước 2: Tính trọng số σ^i2=Y^i(1Y^i)\hat{\sigma}_{i}^{2}=\hat{Y}_{i}(1-\hat{Y}_{i}). Biến đổi mô hình bằng cách chia cả hai vế cho σ^i2\sqrt{\hat{\sigma}_{i}^{2}} và chạy OLS trên mô hình mới:
Yiσ^i2=β0σ^i2+β1X1iσ^i2+uiσ^i2\frac{Y_{i}}{\sqrt{\hat{\sigma}_{i}^{2}}}=\frac{\beta_{0}}{\sqrt{\hat{\sigma}_{i}^{2}}}+\beta_{1}\frac{X_{1i}}{\sqrt{\hat{\sigma}_{i}^{2}}}+\frac{u_{i}}{\sqrt{\hat{\sigma}_{i}^{2}}}

10.2. MÔ HÌNH LOGIT

Để khắc phục nhược điểm của LPM (xác suất nằm ngoài [0,1] và quan hệ phi tuyến), người ta dùng hàm phân phối tích lũy Logistic.

10.2.1. Mô hình Logit - phương pháp Goldberger (1964)

- Xác suất pip_i được xác định bằng hàm logistic:
pi=eXiβ1+eXiβ=exp(Xiβ)1+exp(Xiβ)p_{i}=\frac{e^{X_{i}\beta}}{1+e^{X_{i}\beta}}=\frac{exp(X_{i}\beta)}{1+exp(X_{i}\beta)}
- Hàm này đảm bảo 0pi10 \le p_i \le 1 với mọi giá trị của X.
- Phương pháp ước lượng: Không dùng OLS mà dùng Ước lượng hợp lý tối đa (MLE).
- Hàm hợp lý (Likelihood function): L=i=1npiYi(1pi)1YiL=\prod_{i=1}^{n}p_{i}^{Y_{i}}(1-p_{i})^{1-Y_{i}}.
- Tối đa hóa hàm Log-Likelihood Ln(L)Ln(L) bằng các phương pháp lặp (như Newton-Raphson) để tìm β^\hat{\beta}.

Ý nghĩa hệ số và tác động biên (Marginal Effect):
Khác với LPM, trong Logit, tác động của XkX_k lên xác suất p không phải là hằng số βk\beta_k mà phụ thuộc vào giá trị của p:
piXk=pi(1pi)βk\frac{\partial p_{i}}{\partial X_{k}} = p_{i}(1-p_{i})\beta_{k}
-> Chú ý: Khi giải thích kết quả, không được nói "X tăng 1 đơn vị thì p tăng β\beta đơn vị", mà phải tính tại một điểm cụ thể (thường là giá trị trung bình).

10.2.2. Mô hình Logit - phương pháp Berkson (1953)

Phương pháp này dùng cho số liệu đã phân nhóm (grouped data) chứ không phải số liệu cá thể.
- Tuyến tính hóa mô hình bằng logarit của tỷ số odds (Log-odds):
Li=Ln(pi1pi)=Xiβ+uiL_{i} = Ln(\frac{p_{i}}{1-p_{i}}) = X_i\beta + u_i (gọi là Logit).
- Khi số liệu lặp lại NiN_i lần tại mỗi giá trị XiX_i, ta dùng tần suất thực nghiệm p^i=ni/Ni\hat{p}_i = n_i/N_i để thay thế cho pip_i.
- Ước lượng: Dùng WLS với trọng số wi=Nip^i(1p^i)w_{i}=N_{i}\hat{p}_{i}(1-\hat{p}_{i}).

10.2.3. Xác suất p, chỉ số OR và ROR

- Odds Ratio (OR): Tỷ số giữa xác suất xảy ra và không xảy ra sự kiện.
OR=p1p=eXβOR = \frac{p}{1-p} = e^{X\beta}
- Ý nghĩa: Nếu OR=3OR=3, khả năng Y=1 gấp 3 lần khả năng Y=0.
- Logit: Chính là Ln(OR)=XβLn(OR) = X\beta.
- Risk Odds Ratio (ROR): So sánh Odds tại hai trạng thái của X (ví dụ XiX_i và X0X_0). Nếu XjX_j tăng 1 đơn vị, ROR thay đổi một lượng eβje^{\beta_j}.

10.3. MÔ HÌNH PROBIT

Sử dụng phân phối chuẩn tắc (Standard Normal Distribution) thay vì phân phối Logistic.
- Giả thuyết về biến ẩn (Latent variable) hay độ thỏa dụng II^*:
Ii=β0+β1X1i+uiI_{i}^{*} = \beta_{0}+\beta_{1}X_{1i}+u_{i} với uN(0,1)u \sim N(0,1)
- Quy tắc quyết định:
Y=1Y=1 nếu I>0I^* > 0
Y=0Y=0 nếu I0I^* \le 0
- Xác suất: pi=P(Y=1X)=F(Xiβ)p_{i} = P(Y=1|X) = F(X_{i}\beta) (với F là hàm phân phối tích lũy chuẩn tắc).
- Tác động biên: pXk=f(Xiβ)βk\frac{\partial p}{\partial X_{k}} = f(X_{i}\beta)\beta_{k} (với f là hàm mật độ chuẩn).

10.4. KIỂM ĐỊNH GIẢ THUYẾT ĐỐI VỚI MÔ HÌNH LOGIT VÀ PROBIT

10.4.1. Kiểm định bằng tỷ số hàm hợp lý (Likelihood Ratio - LR)

Dùng để kiểm định sự phù hợp của mô hình hoặc kiểm định thu hẹp hồi quy (tương tự kiểm định F trong OLS).
- Thống kê kiểm định: LR=2(Ln(LUR)Ln(LR))LR = 2(Ln(L_{UR}) - Ln(L_{R}))
- Phân phối: Xấp xỉ χ2(m)\chi^2(m) với m là số ràng buộc.
- Độ đo độ phù hợp: 
+ Tỷ lệ phần trăm dự báo đúng (So sánh Y thực tế và Y dự báo với điểm cắt c=0.5). 
+ Pseudo R-squared: 1Ln(LUR)Ln(L0)1 - \frac{Ln(L_{UR})}{Ln(L_{0})} (với L0L_0 là mô hình chỉ có hệ số chặn).

10.4.2 đến 10.4.5. Các kiểm định khác

- Kiểm định sai số chuẩn Huber/White (QML): Dùng cho sai số vững (Robust standard errors) khi có hiện tượng phương sai sai số thay đổi hoặc sai dạng phân phối.
- Kiểm định Hosmer-Lemeshow & Andrews: Kiểm định sự phù hợp của mô hình (Goodness-of-Fit) bằng cách chia dữ liệu thành các nhóm và so sánh tần số thực tế với tần số dự báo (dùng thống kê χ2\chi^2).

10.4.6. So sánh mô hình LPM, Logit và Probit

Bảng so sánh nhanh và quy đổi hệ số:

Đặc điểmLogitProbit
Phân phối nhiễuLogistic (đuôi dày hơn chuẩn)Chuẩn tắc (Normal)
Quy đổi (Amemiya)β^Logit1.6β^Probit\hat{\beta}_{Logit} \approx 1.6 \hat{\beta}_{Probit}β^Probit0.625β^Logit\hat{\beta}_{Probit} \approx 0.625 \hat{\beta}_{Logit}

Lưu ý: Dù hệ số ước lượng khác nhau về độ lớn (do phương sai của Logistic là π2/3\pi^2/3 còn Probit là 1), nhưng ý nghĩa dấu và xác suất dự báo p^\hat{p} của hai mô hình thường rất tương đồng.

10.5. MÔ HÌNH TOBIT

Dùng cho trường hợp Biến phụ thuộc bị giới hạn (Censored Data): Biến liên tục nhưng bị chặn tại một ngưỡng (thường là 0). Ví dụ: Chi tiêu cho rượu (nhiều người bằng 0), số giờ làm việc.

10.5.1. Mô hình

- Sử dụng biến ngẫu nhiên ẩn YY^* (thỏa mãn hồi quy cổ điển với uN(0,σ2)u \sim N(0, \sigma^2)):
Y=Xβ+uY^{*} = X\beta + u
- Quan sát thực tế Y:
Y=YY = Y^* nếu Y>0Y^* > 0
Y=0Y = 0 nếu Y0Y^* \le 0
- Phương pháp ước lượng: MLE (Hợp lý tối đa). Nếu dùng OLS cho toàn bộ mẫu hoặc chỉ mẫu Y>0Y>0 đều sẽ bị chệch.

10.5.2. Kỳ vọng có điều kiện và Tỷ số Mills nghịch đảo

Đây là lý do chính khiến OLS bị chệch. Kỳ vọng của Y với điều kiện Y>0Y>0 là:
E(YY>0,X)=Xβ+σλ(c)E(Y|Y>0, X) = X\beta + \sigma \lambda(c)
- Trong đó: λ(c)=f(c)F(c)\lambda(c) = \frac{f(c)}{F(c)} là Tỷ số Mills nghịch đảo (Inverse Mills Ratio), với c=Xβ/σc = X\beta/\sigma.
- Ý nghĩa: Nếu bỏ qua λ\lambda mà chạy OLS, ta đang bỏ sót biến, dẫn đến ước lượng chệch.

10.5.3. Ảnh hưởng của biến độc lập

Tác động biên trong Tobit phức tạp hơn OLS:
E(YX)Xj=βjF(Xβσ)\frac{\partial E(Y|X)}{\partial X_{j}} = \beta_{j} F(\frac{X\beta}{\sigma})
-> Để so sánh Tobit với OLS, ta nhân hệ số OLS với hệ số điều chỉnh F(Xβ^/σ^)F(\overline{X}\hat{\beta}/\hat{\sigma}) (tỷ lệ quan sát không bị chặn).

10.6. MÔ HÌNH POISSON

Dùng cho biến phụ thuộc là Biến đếm (Count data): Nhận giá trị nguyên không âm (0, 1, 2...). Ví dụ: Số con, số lần bị bắt, số bằng sáng chế.

10.6.1. Mô hình

- Phân phối Poisson được xác định bởi kỳ vọng:
E(YX)=exp(Xβ)E(Y|X) = exp(X\beta)
- Xác suất: P(Y=hX)=eexp(Xβ)(exp(Xβ))hh!P(Y=h|X) = \frac{e^{-exp(X\beta)}(exp(X\beta))^h}{h!}
- Ý nghĩa hệ số: βi\beta_i là bán co giãn (semi-elasticity) hoặc co giãn (nếu log-log). E(YX)Xi=E(YX)βi\frac{\partial E(Y|X)}{\partial X_i} = E(Y|X)\beta_i.
- Ước lượng: MLE hoặc Phi tuyến (Non-linear Least Squares).

10.6.2. Kiểm định giả thiết về phân bố Poisson

- Giả thiết quan trọng nhất của Poisson: Kỳ vọng = Phương sai (E(Y)=Var(Y)=λE(Y) = Var(Y) = \lambda).
- Vấn đề thường gặp: Sự quá phân tán (Overdispersion), tức là Var(Y)>E(Y)Var(Y) > E(Y) (thường σ2>1\sigma^2 > 1).
- Kiểm định Cameron & Trivedi hoặc Wooldridge: Kiểm tra xem phương sai có tỉ lệ với giá trị kỳ vọng hay không. Nếu có hiện tượng quá phân tán, cần hiệu chỉnh sai số chuẩn hoặc dùng mô hình khác (như Binomial Neg).

Mục lục
10.1. MÔ HÌNH XÁC SUẤT TUYẾN TÍNH (LMP)
10.1.1. Mô hình
10.1.2. Các giả thiết của OLS trong LPM
10.1.3. Ước lượng mô hình LPM
10.2. MÔ HÌNH LOGIT
10.2.1. Mô hình Logit - phương pháp Goldberger (1964)
10.2.2. Mô hình Logit - phương pháp Berkson (1953)
10.2.3. Xác suất p, chỉ số OR và ROR
10.3. MÔ HÌNH PROBIT
10.4. KIỂM ĐỊNH GIẢ THUYẾT ĐỐI VỚI MÔ HÌNH LOGIT VÀ PROBIT
10.4.1. Kiểm định bằng tỷ số hàm hợp lý (Likelihood Ratio - LR)
10.4.2 đến 10.4.5. Các kiểm định khác
10.4.6. So sánh mô hình LPM, Logit và Probit
10.5. MÔ HÌNH TOBIT
10.5.1. Mô hình
10.5.2. Kỳ vọng có điều kiện và Tỷ số Mills nghịch đảo
10.5.3. Ảnh hưởng của biến độc lập
10.6. MÔ HÌNH POISSON
10.6.1. Mô hình
10.6.2. Kiểm định giả thiết về phân bố Poisson
Khoá học liên quan
Kiến thức tương tự