Tóm tắt kiến thức chương 2 (P2) - Thống kê xã hội học USSH

Tổng hợp lý thuyết và công thức trọng tâm Chương 2 (Phần 2) giáo trình Thống kê Xã hội học (Đào Hữu Hồ - USSH). Nội dung chi tiết bao gồm: Các bài toán Kiểm định giả thiết (so sánh trung bình, tỷ lệ), Kiểm định phi tham số (Mann-Whitney, Wilcoxon), Kiểm định Chi bình phương (tính độc lập, sự phù hợp) và Phân tích Tương quan - Hồi quy tuyến tính đơn. Tài liệu ôn tập thiết yếu cho sinh viên.

Thống kê xã hội họcUSSHĐào Hữu HồKiểm định giả thiếtHồi quy tuyến tínhTương quan PearsonMann-WhitneyWilcoxonChi bình phươngSo sánh trung bìnhSo sánh tỷ lệ

 

II.4. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT ĐƠN GIẢN

II.4.1. Đặt bài toán

Trong thực tế, chúng ta phải ra quyết định dựa trên thông tin không đầy đủ (mẫu). Bài toán kiểm định giả thiết giúp chọn một trong hai tình huống với sai lầm thấp nhất. 
- Giả thiết HH (Null Hypothesis): Tình huống ban đầu, thường chứa dấu bằng (=). 
- Đối thiết KK (Alternative Hypothesis): Tình huống đối lập, thường chứa dấu ,>,<\ne, >, <
- Quy tắc: 
+ Chia miền giá trị mẫu thành 2 phần: SS (miền bác bỏ HH) và S\overline{S} (miền chấp nhận HH). 
+ Nếu giá trị kiểm định thuộc SS \rightarrow Bác bỏ HH, chấp nhận KK
+ Nếu giá trị kiểm định thuộc S\overline{S} \rightarrow Chưa có cơ sở bác bỏ HH.

Hai loại sai lầm: 
- Sai lầm loại I: Bác bỏ HH khi HH đúng. Xác suất mắc phải là mức ý nghĩa α\alpha
- Sai lầm loại II: Chấp nhận HH khi HH sai. 
Mục tiêu: Khống chế sai lầm loại I (α\le \alpha) và cực tiểu hóa sai lầm loại II.

II.4.2. Kiểm định giả thiết về giá trị trung bình

Bài toán: Kiểm định μ\mu với giá trị μ0\mu_0
H:μ=μ0H: \mu = \mu_0 
KK: có 3 trường hợp (μμ0;μ>μ0;μ<μ0\mu \ne \mu_0; \mu > \mu_0; \mu < \mu_0)

Phân loại trường hợp và Công thức kiểm định (Thống kê tiêu chuẩn):

Trường hợpĐiều kiệnThống kê tiêu chuẩn
aBiết σ2\sigma^2 (hoặc nn đủ lớn)u=Xμ0σ/nu = \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} (Phân phối Chuẩn)
bChưa biết σ2\sigma^2, X chuẩnt=Xμ0s^/nt = \frac{\overline{X} - \mu_0}{\hat{s}/\sqrt{n}} (Phân phối Student n1n-1)
cChưa biết σ2\sigma^2, n lớnu=Xμ0s^/nu = \frac{\overline{X} - \mu_0}{\hat{s}/\sqrt{n}} (Xấp xỉ Chuẩn)

Miền bác bỏ SS (Quyết định bởi đối thiết K): 
- Nếu K:μμ0K: \mu \ne \mu_0 (kiểm định 2 phía) S={Tho^ˊngke^uα/2 hoặc tα/2}\rightarrow S = \{ |Thống kê| \ge u_{\alpha/2} \text{ hoặc } t_{\alpha/2} \} 
- Nếu K:μ>μ0K: \mu > \mu_0 (kiểm định phía phải) S={Tho^ˊngke^uα hoặc tα}\rightarrow S = \{ Thống kê \ge u_{\alpha} \text{ hoặc } t_{\alpha} \} 
- Nếu K:μ<μ0K: \mu < \mu_0 (kiểm định phía trái) S={Tho^ˊngke^uα hoặc tα}\rightarrow S = \{ Thống kê \le -u_{\alpha} \text{ hoặc } -t_{\alpha} \}

Lưu ý cho sinh viên: Dấu của miền bác bỏ SS luôn "cùng chiều" với dấu của đối thiết KK. Ví dụ: KK dùng dấu >> thì SS lấy giá trị dương lớn hơn (\ge).

II.4.3. Kiểm định giả thiết về tỷ lệ

- Bài toán: So sánh tỷ lệ thực pp với giá trị p0p_0
- Giả thiết H:p=p0H: p = p_0
- Thống kê kiểm định (luôn dùng phân phối chuẩn uu khi nn lớn): 
u=pp0p0(1p0)nu = \frac{p^* - p_0}{\sqrt{p_0(1-p_0)}} \sqrt{n} 
(Trong đó p=m/np^* = m/n là tỷ lệ mẫu). 
- Miền bác bỏ SS: Tương tự như kiểm định trung bình (dựa vào KK là ,>,<\ne, >, <).

II.4.4. So sánh hai giá trị trung bình

Kiểm định xem hai trung bình μ1\mu_1 và μ2\mu_2 có bằng nhau không. 
H:μ1=μ2H: \mu_1 = \mu_2 (hay μ1μ2=0\mu_1 - \mu_2 = 0).

Các trường hợp tham số (Parametric): 
- TH a (Biết σ1,σ2\sigma_1, \sigma_2 hoặc n lớn): Dùng thống kê uu
u=XYσ12n1+σ22n2u = \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} 
- TH b (Chưa biết σ\sigma, giả thiết bằng nhau, X, Y chuẩn): Dùng thống kê tt với bậc tự do n1+n22n_1 + n_2 - 2
- TH c (Chưa biết σ\sigma, n lớn): Dùng thống kê uu với sai số chuẩn thay bằng sx,sys_x, s_y.

Các tiêu chuẩn Phi tham số (Non-parametric): 
Dùng khi không thỏa mãn giả thiết phân phối chuẩn hoặc nn nhỏ. 
d) Tiêu chuẩn Mann - Whitney (Hai mẫu độc lập): 
- Bước 1: Gộp 2 mẫu, xếp hạng (Rank) từ bé đến lớn. 
- Bước 2: Tính tổng hạng R1,R2R_1, R_2
- Bước 3: Tính U1,U2U_1, U_2 và kiểm định dựa trên phân phối xấp xỉ chuẩn của UU
e) Tiêu chuẩn Wilcoxon (Hai mẫu phụ thuộc/cặp): 
- Bước 1: Tính hiệu di=xiyid_i = x_i - y_i. Loại bỏ di=0d_i = 0
- Bước 2: Xếp hạng trị tuyệt đối di|d_i|
- Bước 3: Tính tổng hạng của các did_i dương (T+T^+) và âm (TT^-). Kiểm định dựa trên TT.

II.4.5. So sánh hai tỷ lệ

- Bài toán: H:p1=p2H: p_1 = p_2
- Thống kê kiểm định: 
u=p1p2pˉ(1pˉ)(1n1+1n2)u = \frac{p_1^* - p_2^*}{\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_1} + \frac{1}{n_2})}} 
Trong đó pˉ=m1+m2n1+n2\bar{p} = \frac{m_1 + m_2}{n_1 + n_2} là tỷ lệ chung của mẫu gộp.

II.4.6. Tiêu chuẩn phù hợp χ2\chi^2 (Chi bình phương)

- Mục đích: Kiểm tra xem số liệu mẫu thực tế có phù hợp với một phân phối lý thuyết (các tỷ lệ pip_i cho trước) hay không. 
- Công thức: 
χ2=i=1k(minpi)2npi\chi^2 = \sum_{i=1}^{k} \frac{(m_i - n p_i)^2}{n p_i} 
Trong đó: mim_i là tần số thực tế, npin p_i là tần số lý thuyết. 
- Miền bác bỏ: S={χ2χk12(α)}S = \{ \chi^2 \ge \chi^2_{k-1}(\alpha) \}
- Điều kiện dùng: Các tần số lý thuyết mi5m_i \ge 5.

II.4.7. Kiểm tra tính độc lập

- Mục đích: Kiểm tra xem 2 biến định tính (hoặc định lượng phân nhóm) X và Y có độc lập hay phụ thuộc. 
- Bảng tiếp liên (Contingency table) kích thước r×sr \times s (hàng ×\times cột). 
- Tần số lý thuyết của ô (i,j)=Haˋngi×Cộtjn(i,j) = \frac{\text{Hàng}_i \times \text{Cột}_j}{n}
- Công thức: 
χ2=(nijLyˊ_thuye^ˊt)2Lyˊ_thuye^ˊt\chi^2 = \sum \sum \frac{(n_{ij} - Lý\_thuyết)^2}{Lý\_thuyết} 
- Miền bác bỏ: S={χ2χ(r1)(s1)2(α)}S = \{ \chi^2 \ge \chi^2_{(r-1)(s-1)}(\alpha) \}
- Kết luận: Nếu thuộc miền bác bỏ \rightarrow Bác bỏ tính độc lập \rightarrow Hai biến có phụ thuộc nhau.

II.4.8. So sánh nhiều tỷ lệ

- Bài toán: H:p1=p2=...=psH: p_1 = p_2 = ... = p_s
- Phương pháp: Quy về bài toán kiểm tra tính độc lập với bảng 2×s2 \times s. (Dấu hiệu A và A\overline{A} so với s đối tượng). 
- Công thức và miền bác bỏ giống hệt mục II.4.7.

II.5. TƯƠNG QUAN VÀ HỒI QUY ĐƠN

Nghiên cứu mối quan hệ phụ thuộc tuyến tính (bậc nhất) giữa 2 biến: Y=aX+bY = aX + b.

II.5.1. Hệ số tương quan

- Hệ số tương quan mẫu (rr): Đo mức độ phụ thuộc tuyến tính. 
r=XYXYsxsyr = \frac{\overline{XY} - \overline{X}\overline{Y}}{s_x s_y} 
- Tính chất: 
1r1-1 \le r \le 1
r|r| càng gần 1: Tương quan càng chặt chẽ (gần đường thẳng). 
r>0r > 0: Đồng biến (tương quan dương); r<0r < 0: Nghịch biến (tương quan âm). 
r=0r = 0: Không có tương quan tuyến tính (nhưng có thể có tương quan phi tuyến).

Bảng đánh giá mức độ tương quan theo r|r|: 
<0.5< 0.5: Yếu / Rất yếu. 
0.50.70.5 - 0.7: Trung bình. 
0.70.90.7 - 0.9: Chặt. 
>0.9> 0.9: Rất chặt.

II.5.2. Đường hồi quy bình phương trung bình tuyến tính

- Là đường thẳng xấp xỉ tốt nhất đám mây số liệu thực tế, dùng để dự báo Y theo X. 
- Điều kiện sử dụng tốt: Khi r0.7|r| \ge 0.7 (Tương quan chặt). 
- Phương trình đường hồi quy thực nghiệm của Y theo X: 
yy=rsysx(xx)y - \overline{y} = r \frac{s_y}{s_x} (x - \overline{x}) 
- Hoặc viết dạng: y=ax+by = ax + b với a=rsysxa = r \frac{s_y}{s_x}
- Sai số dự báo (Sai số bình phương trung bình): 
sy/x2=sy2(1r2)s_{y/x}^2 = s_y^2 (1 - r^2) 
(Nhận xét: r|r| càng lớn thì sai số càng nhỏ, dự báo càng chính xác).

Mục lục
II.4. MỘT SỐ BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT ĐƠN GIẢN
II.4.1. Đặt bài toán
II.4.2. Kiểm định giả thiết về giá trị trung bình
II.4.3. Kiểm định giả thiết về tỷ lệ
II.4.4. So sánh hai giá trị trung bình
II.4.5. So sánh hai tỷ lệ
II.4.6. Tiêu chuẩn phù hợp \chi^2 (Chi bình phương)
II.4.7. Kiểm tra tính độc lập
II.4.8. So sánh nhiều tỷ lệ
II.5. TƯƠNG QUAN VÀ HỒI QUY ĐƠN
II.5.1. Hệ số tương quan
II.5.2. Đường hồi quy bình phương trung bình tuyến tính
Khoá học liên quan
Kiến thức tương tự