Tóm tắt kiến thức chương 2 (P1) - Thống kê xã hội học USSH

Tổng hợp kiến thức trọng tâm Chương 2 môn Thống kê xã hội học (USSH). Tài liệu tóm tắt chi tiết về Lý thuyết mẫu (các phương pháp chọn mẫu, sai số), cách tính các đặc trưng mẫu (trung bình, phương sai) và các phương pháp Ước lượng (ước lượng điểm, ước lượng khoảng tin cậy) cho kỳ vọng và tỷ lệ. Nội dung bám sát giáo trình giúp sinh viên hệ thống hóa công thức và lý thuyết để ôn thi hiệu quả.

Thống kê xã hội họcUSSHLý thuyết mẫuƯớc lượng thống kêTóm tắt kiến thứcÔn thiTài liệu học tập

II.1. GIỚI THIỆU BÀI TOÁN

Lý thuyết xác suất giả định đã biết quy luật phân phối và tham số để tính toán tỷ lệ/xác suất. Thống kê xã hội giải quyết bài toán ngược lại:
- Từ thông tin mẫu (không đầy đủ, chứa sai số) để tìm hiểu về biến ngẫu nhiên (quy luật phân phối, các số đặc trưng).
- Hai đại lượng quan trọng nhất cần tìm trong thống kê xã hội: Giá trị trung bình và Tỷ lệ.

II.2. LÝ THUYẾT MẪU

II.2.1. Một vài phương pháp lấy mẫu đơn giản

a. Các khái niệm cơ bản
- Các quan sát độc lập: Kết quả quan sát này không phụ thuộc và không ảnh hưởng đến quan sát khác.
- Phép thử lặp: Tiến hành trong điều kiện hoàn toàn như nhau.
- Lấy mẫu có hoàn lại: Rút ra, ghi lại, trả về tập ban đầu (đảm bảo xác suất không đổi).
- Lấy mẫu không hoàn lại: Rút ra không trả lại (thường dùng trong kiểm tra chất lượng phá hủy mẫu).

b. Phương pháp thu thập thông tin
- Trực tiếp: Phỏng vấn (miệng/viết), Quan sát (qua hành vi), Thí nghiệm.
- Gián tiếp: Phân tích tư liệu (văn bản).

c. Các phương pháp chọn mẫu trong điều tra xã hội học

Phương pháp	Đặc điểm	Ứng dụng
Chọn mẫu xác suất đều	Cơ cấu mẫu trùng cơ cấu tổng thể (theo tiêu thức xã hội hoặc đặc tính riêng). Mẫu đại diện là hình ảnh thu nhỏ trung thực.	Khi đơn vị hành chính/dân cư phân bố tương đối đều.
Chọn mẫu xác suất không đều	Tỷ lệ với quy mô, mức độ tập trung của hiện tượng (thường dùng mẫu nhiều cấp).	Hiện tượng xã hội không đồng đều (tệ nạn, lễ hội, mật độ dân cư chênh lệch).
Điều tra nhóm trội	Điều tra trọng điểm nhóm có đặc điểm nổi bật, sau đó suy rộng có điều chỉnh.	Nghiên cứu xu hướng, dự báo (VD: Nhóm có thu nhập/văn hóa cao).

II.2.2. Mẫu ngẫu nhiên

- Định nghĩa: Mẫu ngẫu nhiên cỡ n là n biến ngẫu nhiên độc lập $(X_1, X_2, ..., X_n)$ cùng phân phối với biến ngẫu nhiên gốc X.
- Giá trị quan sát: $(x_1, x_2, ..., x_n)$ là các giá trị cụ thể thu được.
- Yêu cầu: Mẫu phải mang tính đại diện trung thực và khách quan.

Lưu ý cho sinh viên: Cần phân biệt giữa "Mẫu đại diện" (chứa sai số, dùng để ước lượng - VD: phỏng vấn trước bầu cử) và "Tập thông tin đầy đủ" (chính xác, không cần ước lượng - VD: kết quả kiểm phiếu chính thức).

II.2.3. Cách thu gọn và biểu diễn số liệu

a. Mẫu thu gọn
- Gộp các giá trị trùng nhau.
- Dạng: $x_{(i)}$ (giá trị) và $m_i$ (tần số).
- Tổng tần số: $\sum m_i = n$ .

b. Mẫu thu gọn dạng khoảng
- Dùng khi cỡ mẫu lớn, chia thành các khoảng $[a_i, a_{i+1})$ .
- Điểm đại diện: Thường lấy trung điểm của khoảng để tính toán.
- Lưu ý: Dạng khoảng gây ra sai số làm tròn khi tính toán so với mẫu thu gọn điểm.

c. Các dạng biểu đồ
- Biểu đồ tần suất/Đa giác tần suất (đường gấp khúc).
- Biểu đồ hình chữ nhật (Histogram).
- Biểu đồ hình quạt (Pie chart - biểu diễn cơ cấu %).

d. Biểu diễn số liệu hai chiều
- Bảng chéo (contingency table) hoặc bảng 2 lối vào: Biểu diễn tần số xuất hiện đồng thời của cặp giá trị $(x_i, y_j)$ , ký hiệu $n_{ij}$ .

II.2.4. Các đặc trưng mẫu

Giả sử kỳ vọng lý thuyết là $\mu$ và phương sai lý thuyết là $\sigma^2$ .

a. Kỳ vọng mẫu (Trung bình mẫu)
- Công thức: $\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i$
- Tính chất: Là ước lượng không chệch, $E(\overline{X}) = \mu$ ; $D(\overline{X}) = \frac{\sigma^2}{n}$ .

b. Phương sai mẫu
- Phương sai mẫu (chệch): $s^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2$ .
- Phương sai mẫu điều chỉnh (không chệch): $\hat{s}^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^2$ .
- Mối quan hệ: $\hat{s}^2 = \frac{n}{n-1}s^2$ .

c. Phân bố quan trọng
- Nếu X chuẩn $N(\mu, \sigma^2)$ thì $\overline{X}$ chuẩn $N(\mu, \frac{\sigma^2}{n})$ .
- Biến ngẫu nhiên $t = \frac{\overline{X} - \mu}{\hat{s}}\sqrt{n}$ tuân theo luật phân phối Student (với n-1 bậc tự do).

II.2.5. Cách tính $\overline{X}$ và $s^2$

- Với mẫu thu gọn tần số $m_i$ :
$\overline{X} = \frac{1}{n}\sum_{i=1}^{k}m_ix_i$
$s^2 = \frac{1}{n}\sum_{i=1}^{k}m_ix_i^2 - (\overline{X})^2$
- Phương pháp đổi biến (khi số liệu lẻ, cách đều): Đặt $u_i = \frac{x_i - x_0}{h}$ (với $x_0$ là mốc, $h$ là khoảng cách).
- Tính $\overline{X} = x_0 + h.\overline{u}$ và $s_x^2 = h^2.s_u^2$ .

II.2.6. Sai số trong lấy mẫu

- Sai số thô: Do nhầm lẫn, vi phạm quy tắc lấy mẫu (cần loại bỏ).
- Sai số hệ thống: Do dụng cụ lệch, quy ước không thống nhất (làm lệch kết quả về một phía).
- Sai số ngẫu nhiên: Do nhiều nguyên nhân nhỏ không xác định, không thể khử bỏ.
- Phân phối của sai số ngẫu nhiên: Thường tuân theo luật chuẩn $N(0, \sigma^2)$ . Quy tắc 3 sigma: sai số thực tế không vượt quá $\pm 3\sigma$ .

II.3. MỘT VÀI ƯỚC LƯỢNG ĐƠN GIẢN

II.3.1. Ước lượng điểm

Dùng một giá trị cụ thể của mẫu $\theta^*(X)$ để ước lượng tham số $\theta$ . Tiêu chuẩn quan trọng là không chệch ( $E\theta^* = \theta$ ).

Tham số cần ước lượng	Ước lượng điểm (Tốt nhất)	Ghi chú
Kỳ vọng $EX (\mu)$	$\overline{X}$	Không chệch.
Phương sai $DX (\sigma^2)$	$\hat{s}^2$	Không chệch ( $s^2$ là ước lượng chệch).
Xác suất/Tỷ lệ $p$	$p^* = \frac{m}{n}$	Không chệch.

a. Ước lượng điểm cho Mode (Mốt)
- Mẫu thu gọn: Giá trị có tần số $m_i$ lớn nhất.
- Mẫu khoảng:
$M_0 = L_1 + \frac{d_1}{d_1 + d_2}h$
Trong đó:
+ $L_1$ : Mút trái khoảng Mode (khoảng có tần số lớn nhất).
+ $h$ : Độ dài khoảng Mode.
+ $d_1$ : Chênh lệch tần số với khoảng trước nó.
+ $d_2$ : Chênh lệch tần số với khoảng sau nó.

b. Ước lượng điểm cho Median (Trung vị)
- Là giá trị chia đôi dãy số liệu đã sắp xếp.
- Mẫu thu gọn: Tìm vị trí tích lũy tần số vượt quá $n/2$ .
- Mẫu khoảng: Giả sử Med thuộc khoảng thứ $l$ là $(x_l, x_{l+1})$ :
$Med = x_l + \frac{n/2 - \sum_{i=1}^{l-1}m_i}{m_l} \times h$
(Dịch nghĩa: Mút trái + [(Nửa cỡ mẫu - Tần số tích lũy trước đó) / Tần số khoảng chứa Med] * độ dài khoảng).

II.3.2. Ước lượng khoảng (Khoảng tin cậy)

II.3.2.1. Định nghĩa

- Là khoảng $(\theta_1^*, \theta_2^*)$ sao cho xác suất tham số thực rơi vào đó đạt độ tin cậy $1-\alpha$ . Khoảng càng hẹp càng tốt.

II.3.2.2. Ước lượng khoảng cho giá trị trung bình (Kỳ vọng $\mu$)

Sơ đồ chọn công thức (Rất quan trọng):
1. Đã biết $\sigma^2$ (hoặc $n \ge 30$ ) → Dùng phân phối Chuẩn $u(\alpha/2)$ .
2. Chưa biết $\sigma^2$ + Có giả thiết Chuẩn → Dùng phân phối Student $t_{n-1}(\alpha/2)$ .
3. Chưa biết $\sigma^2$ + Không có giả thiết Chuẩn + $n$ lớn → Xấp xỉ dùng $u(\alpha/2)$ thay $\sigma$ bằng $\hat{s}$ .

a. Trường hợp biết phương sai $\sigma^2$ (hoặc n lớn)
Khoảng tin cậy:
$\left( \overline{X} - u_{\alpha/2}\frac{\sigma}{\sqrt{n}} ; \overline{X} + u_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)$

b. Trường hợp chưa biết $\sigma^2$ , X phân phối chuẩn
Khoảng tin cậy:
$\left( \overline{X} - t_{n-1}(\alpha/2)\frac{\hat{s}}{\sqrt{n}} ; \overline{X} + t_{n-1}(\alpha/2)\frac{\hat{s}}{\sqrt{n}} \right)$
Lưu ý: Tra bảng Student với bậc tự do $n-1$ .

c. Trường hợp chưa biết $\sigma^2$ , n đủ lớn (xấp xỉ)
Thay thế $\sigma$ bằng $\hat{s}$ :
$\left( \overline{X} - u_{\alpha/2}\frac{\hat{s}}{\sqrt{n}} ; \overline{X} + u_{\alpha/2}\frac{\hat{s}}{\sqrt{n}} \right)$

II.3.2.3. Ước lượng khoảng cho tỷ lệ (p)

Giả thiết n đủ lớn. Dùng tần suất mẫu $p^* = m/n$ để ước lượng.
Khoảng tin cậy:
$\left( p^* - u_{\alpha/2}\sqrt{\frac{p^*(1-p^*)}{n}} ; p^* + u_{\alpha/2}\sqrt{\frac{p^*(1-p^*)}{n}} \right)$

Các dạng câu hỏi thường gặp:
1. "Với độ tin cậy..." → Tìm khoảng 2 phía (công thức đầy đủ).
2. "Cao nhất là bao nhiêu..." → Khoảng tin cậy bên phải (Lấy mút phải, chú ý tra $u_\alpha$ hoặc $t_\alpha$ thay vì $\alpha/2$ nếu đề bài yêu cầu chặt chẽ về phía, tuy nhiên giáo trình này thường dùng khoảng đối xứng rồi lấy mút phải).
3. "Thấp nhất là bao nhiêu..." → Lấy mút trái.