Tóm tắt kiến thức chương 2 (P1) - Thống kê xã hội học USSH

Tổng hợp kiến thức trọng tâm Chương 2 môn Thống kê xã hội học (USSH). Tài liệu tóm tắt chi tiết về Lý thuyết mẫu (các phương pháp chọn mẫu, sai số), cách tính các đặc trưng mẫu (trung bình, phương sai) và các phương pháp Ước lượng (ước lượng điểm, ước lượng khoảng tin cậy) cho kỳ vọng và tỷ lệ. Nội dung bám sát giáo trình giúp sinh viên hệ thống hóa công thức và lý thuyết để ôn thi hiệu quả.

Thống kê xã hội họcUSSHLý thuyết mẫuƯớc lượng thống kêTóm tắt kiến thứcÔn thiTài liệu học tập

 

II.1. GIỚI THIỆU BÀI TOÁN

Lý thuyết xác suất giả định đã biết quy luật phân phối và tham số để tính toán tỷ lệ/xác suất. Thống kê xã hội giải quyết bài toán ngược lại: 
- Từ thông tin mẫu (không đầy đủ, chứa sai số) để tìm hiểu về biến ngẫu nhiên (quy luật phân phối, các số đặc trưng). 
- Hai đại lượng quan trọng nhất cần tìm trong thống kê xã hội: Giá trị trung bìnhTỷ lệ.

II.2. LÝ THUYẾT MẪU

II.2.1. Một vài phương pháp lấy mẫu đơn giản

a. Các khái niệm cơ bản 
- Các quan sát độc lập: Kết quả quan sát này không phụ thuộc và không ảnh hưởng đến quan sát khác. 
- Phép thử lặp: Tiến hành trong điều kiện hoàn toàn như nhau. 
- Lấy mẫu có hoàn lại: Rút ra, ghi lại, trả về tập ban đầu (đảm bảo xác suất không đổi). 
- Lấy mẫu không hoàn lại: Rút ra không trả lại (thường dùng trong kiểm tra chất lượng phá hủy mẫu).

b. Phương pháp thu thập thông tin 
- Trực tiếp: Phỏng vấn (miệng/viết), Quan sát (qua hành vi), Thí nghiệm. 
- Gián tiếp: Phân tích tư liệu (văn bản).

c. Các phương pháp chọn mẫu trong điều tra xã hội học

Phương phápĐặc điểmỨng dụng
Chọn mẫu xác suất đềuCơ cấu mẫu trùng cơ cấu tổng thể (theo tiêu thức xã hội hoặc đặc tính riêng). Mẫu đại diện là hình ảnh thu nhỏ trung thực.Khi đơn vị hành chính/dân cư phân bố tương đối đều.
Chọn mẫu xác suất không đềuTỷ lệ với quy mô, mức độ tập trung của hiện tượng (thường dùng mẫu nhiều cấp).Hiện tượng xã hội không đồng đều (tệ nạn, lễ hội, mật độ dân cư chênh lệch).
Điều tra nhóm trộiĐiều tra trọng điểm nhóm có đặc điểm nổi bật, sau đó suy rộng có điều chỉnh.Nghiên cứu xu hướng, dự báo (VD: Nhóm có thu nhập/văn hóa cao).

II.2.2. Mẫu ngẫu nhiên

- Định nghĩa: Mẫu ngẫu nhiên cỡ n là n biến ngẫu nhiên độc lập (X1,X2,...,Xn)(X_1, X_2, ..., X_n) cùng phân phối với biến ngẫu nhiên gốc X. 
- Giá trị quan sát: (x1,x2,...,xn)(x_1, x_2, ..., x_n) là các giá trị cụ thể thu được. 
- Yêu cầu: Mẫu phải mang tính đại diện trung thực và khách quan.

Lưu ý cho sinh viên: Cần phân biệt giữa "Mẫu đại diện" (chứa sai số, dùng để ước lượng - VD: phỏng vấn trước bầu cử) và "Tập thông tin đầy đủ" (chính xác, không cần ước lượng - VD: kết quả kiểm phiếu chính thức).

II.2.3. Cách thu gọn và biểu diễn số liệu

a. Mẫu thu gọn 
- Gộp các giá trị trùng nhau. 
- Dạng: x(i)x_{(i)} (giá trị) và mim_i (tần số). 
- Tổng tần số: mi=n\sum m_i = n.

b. Mẫu thu gọn dạng khoảng 
- Dùng khi cỡ mẫu lớn, chia thành các khoảng [ai,ai+1)[a_i, a_{i+1})
- Điểm đại diện: Thường lấy trung điểm của khoảng để tính toán. 
- Lưu ý: Dạng khoảng gây ra sai số làm tròn khi tính toán so với mẫu thu gọn điểm.

c. Các dạng biểu đồ 
- Biểu đồ tần suất/Đa giác tần suất (đường gấp khúc). 
- Biểu đồ hình chữ nhật (Histogram). 
- Biểu đồ hình quạt (Pie chart - biểu diễn cơ cấu %).

d. Biểu diễn số liệu hai chiều 
- Bảng chéo (contingency table) hoặc bảng 2 lối vào: Biểu diễn tần số xuất hiện đồng thời của cặp giá trị (xi,yj)(x_i, y_j), ký hiệu nijn_{ij}.

II.2.4. Các đặc trưng mẫu

Giả sử kỳ vọng lý thuyết là μ\mu và phương sai lý thuyết là σ2\sigma^2.

a. Kỳ vọng mẫu (Trung bình mẫu) 
- Công thức: X=1ni=1nXi\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i 
- Tính chất: Là ước lượng không chệch, E(X)=μE(\overline{X}) = \muD(X)=σ2nD(\overline{X}) = \frac{\sigma^2}{n}.

b. Phương sai mẫu 
- Phương sai mẫu (chệch): s2=1ni=1n(XiX)2s^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2
- Phương sai mẫu điều chỉnh (không chệch): s^2=1n1i=1n(XiX)2\hat{s}^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^2
- Mối quan hệ: s^2=nn1s2\hat{s}^2 = \frac{n}{n-1}s^2.

c. Phân bố quan trọng 
- Nếu X chuẩn N(μ,σ2)N(\mu, \sigma^2) thì X\overline{X} chuẩn N(μ,σ2n)N(\mu, \frac{\sigma^2}{n})
- Biến ngẫu nhiên t=Xμs^nt = \frac{\overline{X} - \mu}{\hat{s}}\sqrt{n} tuân theo luật phân phối Student (với n-1 bậc tự do).

II.2.5. Cách tính $\overline{X}$ và $s^2$

- Với mẫu thu gọn tần số mim_i
X=1ni=1kmixi\overline{X} = \frac{1}{n}\sum_{i=1}^{k}m_ix_i 
s2=1ni=1kmixi2(X)2s^2 = \frac{1}{n}\sum_{i=1}^{k}m_ix_i^2 - (\overline{X})^2 
- Phương pháp đổi biến (khi số liệu lẻ, cách đều): Đặt ui=xix0hu_i = \frac{x_i - x_0}{h} (với x0x_0 là mốc, hh là khoảng cách). 
- Tính X=x0+h.u\overline{X} = x_0 + h.\overline{u} và sx2=h2.su2s_x^2 = h^2.s_u^2.

II.2.6. Sai số trong lấy mẫu

- Sai số thô: Do nhầm lẫn, vi phạm quy tắc lấy mẫu (cần loại bỏ). 
- Sai số hệ thống: Do dụng cụ lệch, quy ước không thống nhất (làm lệch kết quả về một phía). 
- Sai số ngẫu nhiên: Do nhiều nguyên nhân nhỏ không xác định, không thể khử bỏ. 
- Phân phối của sai số ngẫu nhiên: Thường tuân theo luật chuẩn N(0,σ2)N(0, \sigma^2). Quy tắc 3 sigma: sai số thực tế không vượt quá ±3σ\pm 3\sigma.

II.3. MỘT VÀI ƯỚC LƯỢNG ĐƠN GIẢN

II.3.1. Ước lượng điểm

Dùng một giá trị cụ thể của mẫu θ(X)\theta^*(X) để ước lượng tham số θ\theta. Tiêu chuẩn quan trọng là không chệch (Eθ=θE\theta^* = \theta).

Tham số cần ước lượngƯớc lượng điểm (Tốt nhất)Ghi chú
Kỳ vọng EX(μ)EX (\mu)X\overline{X}Không chệch.
Phương sai DX(σ2)DX (\sigma^2)s^2\hat{s}^2Không chệch (s2s^2 là ước lượng chệch).
Xác suất/Tỷ lệ ppp=mnp^* = \frac{m}{n}Không chệch.

a. Ước lượng điểm cho Mode (Mốt) 
- Mẫu thu gọn: Giá trị có tần số mim_i lớn nhất. 
- Mẫu khoảng: 
M0=L1+d1d1+d2hM_0 = L_1 + \frac{d_1}{d_1 + d_2}h 
Trong đó: 
L1L_1: Mút trái khoảng Mode (khoảng có tần số lớn nhất). 
hh: Độ dài khoảng Mode. 
d1d_1: Chênh lệch tần số với khoảng trước nó. 
d2d_2: Chênh lệch tần số với khoảng sau nó.

b. Ước lượng điểm cho Median (Trung vị) 
- Là giá trị chia đôi dãy số liệu đã sắp xếp. 
- Mẫu thu gọn: Tìm vị trí tích lũy tần số vượt quá n/2n/2
- Mẫu khoảng: Giả sử Med thuộc khoảng thứ ll là (xl,xl+1)(x_l, x_{l+1})
Med=xl+n/2i=1l1miml×hMed = x_l + \frac{n/2 - \sum_{i=1}^{l-1}m_i}{m_l} \times h 
(Dịch nghĩa: Mút trái + [(Nửa cỡ mẫu - Tần số tích lũy trước đó) / Tần số khoảng chứa Med] * độ dài khoảng).

II.3.2. Ước lượng khoảng (Khoảng tin cậy)

II.3.2.1. Định nghĩa

- Là khoảng (θ1,θ2)(\theta_1^*, \theta_2^*) sao cho xác suất tham số thực rơi vào đó đạt độ tin cậy 1α1-\alpha. Khoảng càng hẹp càng tốt.

II.3.2.2. Ước lượng khoảng cho giá trị trung bình (Kỳ vọng $\mu$)

Sơ đồ chọn công thức (Rất quan trọng): 
1. Đã biết σ2\sigma^2 (hoặc n30n \ge 30) → Dùng phân phối Chuẩn u(α/2)u(\alpha/2)
2. Chưa biết σ2\sigma^2 + Có giả thiết Chuẩn → Dùng phân phối Student tn1(α/2)t_{n-1}(\alpha/2)
3. Chưa biết σ2\sigma^2 + Không có giả thiết Chuẩn + nn lớn → Xấp xỉ dùng u(α/2)u(\alpha/2) thay σ\sigma bằng s^\hat{s}.

a. Trường hợp biết phương sai σ2\sigma^2 (hoặc n lớn) 
Khoảng tin cậy: 
(Xuα/2σn;X+uα/2σn)\left( \overline{X} - u_{\alpha/2}\frac{\sigma}{\sqrt{n}} ; \overline{X} + u_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)

b. Trường hợp chưa biết σ2\sigma^2, X phân phối chuẩn 
Khoảng tin cậy: 
(Xtn1(α/2)s^n;X+tn1(α/2)s^n)\left( \overline{X} - t_{n-1}(\alpha/2)\frac{\hat{s}}{\sqrt{n}} ; \overline{X} + t_{n-1}(\alpha/2)\frac{\hat{s}}{\sqrt{n}} \right) 
Lưu ý: Tra bảng Student với bậc tự do n1n-1.

c. Trường hợp chưa biết σ2\sigma^2, n đủ lớn (xấp xỉ) 
Thay thế σ\sigma bằng s^\hat{s}
(Xuα/2s^n;X+uα/2s^n)\left( \overline{X} - u_{\alpha/2}\frac{\hat{s}}{\sqrt{n}} ; \overline{X} + u_{\alpha/2}\frac{\hat{s}}{\sqrt{n}} \right)

II.3.2.3. Ước lượng khoảng cho tỷ lệ (p)

Giả thiết n đủ lớn. Dùng tần suất mẫu p=m/np^* = m/n để ước lượng. 
Khoảng tin cậy: 
(puα/2p(1p)n;p+uα/2p(1p)n)\left( p^* - u_{\alpha/2}\sqrt{\frac{p^*(1-p^*)}{n}} ; p^* + u_{\alpha/2}\sqrt{\frac{p^*(1-p^*)}{n}} \right)

Các dạng câu hỏi thường gặp: 
1. "Với độ tin cậy..." → Tìm khoảng 2 phía (công thức đầy đủ). 
2. "Cao nhất là bao nhiêu..." → Khoảng tin cậy bên phải (Lấy mút phải, chú ý tra uαu_\alpha hoặc tαt_\alpha thay vì α/2\alpha/2 nếu đề bài yêu cầu chặt chẽ về phía, tuy nhiên giáo trình này thường dùng khoảng đối xứng rồi lấy mút phải). 
3. "Thấp nhất là bao nhiêu..." → Lấy mút trái.

Mục lục
II.1. GIỚI THIỆU BÀI TOÁN
II.2. LÝ THUYẾT MẪU
II.2.1. Một vài phương pháp lấy mẫu đơn giản
II.2.2. Mẫu ngẫu nhiên
II.2.3. Cách thu gọn và biểu diễn số liệu
II.2.4. Các đặc trưng mẫu
II.2.5. Cách tính $\overline{X}$ và $s^2$
II.2.6. Sai số trong lấy mẫu
II.3. MỘT VÀI ƯỚC LƯỢNG ĐƠN GIẢN
II.3.1. Ước lượng điểm
II.3.2. Ước lượng khoảng (Khoảng tin cậy)
Khoá học liên quan
Kiến thức tương tự