Tóm tắt kiến thức chương 5 - Hệ thống thông tin quản lý NEU
Tóm tắt kiến thức cốt lõi Chương 5 HTTTQL NEU về Quản trị các nguồn dữ liệu. Nắm vững khái niệm CSDL, DBMS, sơ đồ ERD, chuẩn hóa (1NF, 2NF, 3NF), Kho dữ liệu (Data Warehouse) và Khai phá dữ liệu (Data Mining).
HTTTQL NEUTóm tắt HTTTQLHệ thống thông tin quản lýChương 5 HTTTQLQuản trị các nguồn dữ liệuCơ sở dữ liệuCSDLDBMSSơ đồ ERDChuẩn hóa dữ liệu1NF2NF3NFData WarehouseKho dữ liệuData MartData MiningKhai phá dữ liệuOLAPÔn thi HTTTQL
5.1. MỘT SỐ KHÁI NIỆM CƠ SỞ
Để tổ chức dữ liệu, chúng ta sử dụng một hệ thống phân cấp. Dữ liệu được tổ chức từ mức thấp nhất (bit) đến mức cao nhất (cơ sở dữ liệu).
Bảng: Phân cấp cơ sở dữ liệu (Mô phỏng Hình 5-1)
| Mức độ | Tên gọi | Mô tả / Ví dụ |
|---|---|---|
| 6 (Cao nhất) | Cơ sở dữ liệu (Database) | Tập hợp các bảng/tệp có liên quan. (VD: CSDL Quản lý đơn hàng). |
| 5 | Tệp / Bảng (File / Table) | Tập hợp các bản ghi cùng loại. (VD: Tệp KHACHHANG). |
| 4 | Bản ghi (Record) | Tập hợp các trường liên quan đến một đối tượng. (VD: Bản ghi của khách hàng 'Lê Thị Hảo'). |
| 3 | Trường (Field) | Một thuộc tính của đối tượng. (VD: Trường 'HTKH'). |
| 2 | Ký tự (Character) | Một chữ cái, số, hoặc ký hiệu. (VD: Ký tự 'L'). |
| 1 (Thấp nhất) | Bit | Đơn vị nhỏ nhất, 0 hoặc 1. (VD: 0). |
Các khái niệm then chốt:
- Thực thể (Entity): Lớp các đối tượng cùng loại mà ta muốn lưu trữ thông tin (VD: KHACHHANG, DONHANG).
- Bản thể (Instance): Một đối tượng cụ thể trong một thực thể (VD: Khách hàng 'Nguyễn Văn A').
- Thuộc tính (Attribute): Đặc điểm, đặc trưng của một thực thể (VD: MAKH, HTKH, DIACHI).
Các loại thuộc tính:
- Thuộc tính định danh (Khóa chính): Một hoặc nhiều thuộc tính dùng để xác định *duy nhất* một bản thể. Mỗi thực thể bắt buộc phải có thuộc tính định danh. (VD: MAKH của thực thể KHACHHANG).
- Thuộc tính tên gọi: Cho biết tên của một bản thể (VD: HTKH).
- Thuộc tính mô tả: Các thuộc tính không phải định danh hay tên gọi (VD: DIACHI, GIOITINH).
- Thuộc tính lặp: Có thể nhận nhiều hơn một giá trị cho mỗi bản thể (VD: MAHH trong thực thể DONHANG, vì một đơn hàng có thể có nhiều mặt hàng).
- Thuộc tính thứ sinh (Derived): Giá trị có thể được tính toán/suy ra từ thuộc tính khác (VD: DOANHTHU = SOLUONG * DONGIA).
- Bảng dữ liệu (Data Table): Nơi lưu trữ thông tin về một thực thể, trong đó mỗi dòng là một bản ghi (bản thể) và mỗi cột là một trường (thuộc tính).
- Cơ sở dữ liệu (Database - CSDL): Tập hợp các bảng có liên quan với nhau, được lưu trữ và quản lý bởi một hệ thống phần mềm.
- Hệ quản trị CSDL (Database Management System - DBMS): Hệ thống phần mềm giúp tạo lập, duy trì và sử dụng CSDL (VD: Access, Oracle, FoxPro).
- Hệ CSDL (Database System): Bao gồm CSDL và hệ QTCSDL.
5.2. CÁC HOẠT ĐỘNG CƠ BẢN LIÊN QUAN ĐẾN CƠ SỞ DỮ LIỆU
5.2.1. Nhập dữ liệu vào cơ sở dữ liệu
Đây là hoạt động thu thập và đưa dữ liệu vào CSDL. Hoạt động này thường được thực hiện thông qua các biểu mẫu nhập liệu (Input Form).
Các biểu mẫu này có thể tồn tại dưới dạng biểu mẫu giấy (bản cứng), biểu mẫu điện tử trên máy tính, hoặc biểu mẫu trực tuyến trên các trang Web (thường gặp trong thương mại điện tử). Dữ liệu cũng có thể được thu thập tự động qua các thiết bị như máy quét mã vạch (POS).
5.2.2. Truy vấn cơ sở dữ liệu
Là hoạt động trích rút thông tin từ CSDL theo một nhu cầu cụ thể. Có hai phương thức phổ biến:
- Ngôn ngữ truy vấn tin có cấu trúc (SQL - Structured Query Language): Ngôn ngữ chuẩn và mạnh mẽ để tương tác với CSDL. Tuy nhiên, đòi hỏi người dùng phải có kiến thức về cú pháp lệnh.
- Truy vấn tin trực quan (QBE - Query By Example): Công cụ đồ họa cho phép người dùng (đặc biệt là người không chuyên) "thiết kế" câu truy vấn bằng cách kéo-thả và điền vào một lưới lọc dữ liệu.
Lưu ý: Cả SQL và QBE đều thực hiện cùng một mục đích là lấy dữ liệu. Trong nhiều hệ QTCSDL (như MS-Access), khi bạn thiết kế một truy vấn bằng QBE, hệ thống sẽ tự động tạo ra câu lệnh SQL tương ứng ở chế độ nền.
5.2.3. Xây dựng báo cáo từ cơ sở dữ liệu
Các hệ QTCSDL cung cấp Bộ sinh báo cáo (Report Generator). Đây là công cụ cho phép trích rút dữ liệu (thường từ một truy vấn), xử lý, và trình bày thông tin dưới một dạng thức (format) phù hợp, dễ đọc, dễ hiểu (dạng bản cứng hoặc xem trên màn hình).
5.3. CÁC CẤU TRÚC CƠ SỞ DỮ LIỆU
Có 5 loại cấu trúc dữ liệu cơ bản, mỗi loại có ưu và nhược điểm riêng:
| Cấu trúc | Mô hình | Quan hệ hỗ trợ | Đặc điểm chính | Ưu điểm | Nhược điểm |
|---|---|---|---|---|---|
| 1. Phân cấp (Hierarchical) | Hình cây (cha-con) | 1 - Nhiều (1-N) | Mỗi bản ghi "con" chỉ có thể liên quan đến một bản ghi "cha". | Đơn giản, tốc độ xử lý giao dịch nhanh. | Rất cứng nhắc, không biểu diễn được quan hệ N-N. |
| 2. Mạng (Network) | Mạng lưới phức tạp | Nhiều - Nhiều (N-N) | Một bản ghi "con" có thể liên kết với nhiều bản ghi "cha". | Mềm dẻo hơn cấu trúc phân cấp, xử lý quan hệ N-N. | Phức tạp khi thiết kế và bảo trì. Cả phân cấp và mạng đều cứng nhắc (quan hệ phải định nghĩa trước). |
| 3. Quan hệ (Relational) | Các bảng 2 chiều (hàng và cột) | 1-N và N-N (thông qua bảng trung gian) | Phổ biến nhất hiện nay. Dữ liệu được lưu trong các bảng. Các bảng liên kết với nhau qua các trường chung (khóa). | Rất mềm dẻo, dễ hiểu, dễ truy vấn (đặc biệt là các truy vấn đột xuất, không định trước). | Xử lý giao dịch số lượng lớn không nhanh bằng mô hình phân cấp/mạng. |
| 4. Đa chiều (Multidimensional) | Khối lập phương (Data Cube) | (Biến thể của quan hệ) | Tổ chức dữ liệu theo các "chiều" (dimensions) như thời gian, sản phẩm, khu vực. | Rất mạnh cho phân tích dữ liệu, hỗ trợ OLAP (Xử lý phân tích trực tuyến). | Phức tạp, chuyên dụng cho mục đích phân tích. |
| 5. Hướng đối tượng (Object-Oriented) | Các "Đối tượng" (Objects) | (Phức tạp) | Mỗi đối tượng "đóng gói" cả dữ liệu (thuộc tính) và các phép xử lý (phương thức). Hỗ trợ kế thừa. | Xử lý các kiểu dữ liệu phức tạp (ảnh, âm thanh, video) rất tốt. Nền tảng cho ứng dụng Web. | Phức tạp hơn mô hình quan hệ. |
5.4. PHÁT TRIỂN CƠ SỞ DỮ LIỆU
5.4.1. Một số vấn đề liên quan đến phát triển cơ sở dữ liệu
- Với CSDL nhỏ, người dùng cuối có thể tự phát triển (VD: dùng MS-Access).
- Với CSDL lớn của tổ chức, cần có Quản trị viên CSDL (DBA) để đảm bảo tính toàn vẹn và an toàn dữ liệu.
- Ngôn ngữ định nghĩa dữ liệu (DDL - Data Definition Language): Được các nhà phát triển sử dụng để đặc tả nội dung, cấu trúc và mối quan hệ của CSDL.
- Từ điển dữ liệu (Data Dictionary): Là một CSDL đặc biệt chứa "dữ liệu về dữ liệu" (metadata). Nó lưu trữ mọi định nghĩa, cấu trúc, mối quan hệ, và các đặc điểm khác của CSDL trong tổ chức.
5.4.2. Quy trình phát triển hệ thống quản trị dữ liệu
Quy trình phát triển CSDL thường trải qua 6 bước cơ bản, được mô tả trong bảng sau:
Bảng: Quy trình phát triển hệ thống quản trị dữ liệu (Mô phỏng Hình 5-17)
| Bước | Tên giai đoạn | Mô tả / Kết quả đầu ra |
|---|---|---|
| 1 | Phân tích yêu cầu | Thu thập yêu cầu của người sử dụng (phỏng vấn, nghiên cứu tài liệu...). |
| 2 | Thiết kế mức ý niệm | Mô hình hóa dữ liệu ở mức khái quát, độc lập với hệ QTCSDL. Kết quả: Sơ đồ quan hệ các kiểu thực thể (ERD - Entity Relationship Diagram), chỉ rõ các Thực thể, Thuộc tính và Mối quan hệ. |
| 3 | Thiết kế mức logic | Chuyển đổi mô hình ý niệm (ERD) thành một mô hình cụ thể (thường là mô hình quan hệ). Kết quả: Một tập hợp các bảng (quan hệ) 2 chiều, đã xác định khóa chính, khóa ngoại. |
| 4 | Thiết kế mức vật lý | Quyết định cách thức dữ liệu được lưu trữ vật lý trên đĩa (cấu trúc lưu trữ, phương pháp truy cập). |
| 5 | Triển khai | Tạo CSDL thực tế bằng hệ QTCSDL, nhập dữ liệu. |
| 6 | Bảo trì | Theo dõi, sửa lỗi, cập nhật và tối ưu hóa CSDL trong quá trình sử dụng. |
5.5. VẤN ĐỀ CHUẨN HÓA DỮ LIỆU
5.5.1. Các khái niệm phụ thuộc hàm
- Phụ thuộc hàm (X → Y): Thuộc tính Y phụ thuộc hàm vào X, nếu mỗi giá trị của X xác định *duy nhất* một giá trị của Y. (VD: MAHH → TENHH).
- Phụ thuộc hàm toàn bộ: Một thuộc tính (Y) phụ thuộc vào *toàn bộ* một khóa kép (X1, X2), chứ không phụ thuộc vào chỉ X1 hoặc chỉ X2. (VD: SOLUONG phụ thuộc toàn bộ vào (SODH, MAHH)).
- Phụ thuộc hàm bắc cầu: Tồn tại Z phụ thuộc bắc cầu vào X, nếu $X \rightarrow Y$ và $Y \rightarrow Z$ (với Y không phải là khóa). (VD: SODH → MAKH, và MAKH → TENKH. Vậy TENKH phụ thuộc bắc cầu vào SODH).
5.5.2. Chuẩn hóa cơ sở dữ liệu
Chuẩn hóa (Normalization) là một kỹ thuật thiết kế để làm cho CSDL quan hệ trở nên hiệu quả và dễ xử lý hơn.
Mục tiêu của chuẩn hóa: Mục đích chính là giảm thiểu trùng lắp dữ liệu và loại bỏ các "vấn đề" (anomalies) khi cập nhật, thêm, xóa dữ liệu, từ đó đảm bảo tính nhất quán và bền vững của dữ liệu.
Có nhiều mức chuẩn hóa, nhưng ba mức cơ bản nhất là:
- Chuẩn hóa mức 1 (1NF):
Một bảng đạt chuẩn 1NF nếu tất cả các giá trị của thuộc tính đều là đơn trị (atomic). Nói cách khác, một ô không thể chứa một "tập hợp" hay "nhóm lặp lại" các giá trị. (VD: Không thể lưu "(B111, C104)" trong cùng một ô MAHH).
- Chuẩn hóa mức 2 (2NF):
Một bảng đạt chuẩn 2NF nếu:
+ Đã ở dạng 1NF.
+ Mọi thuộc tính *không phải là khóa* đều phải phụ thuộc hàm toàn bộ vào khóa chính. (Nếu khóa chính là khóa kép (A, B), thì không được tồn tại thuộc tính C nào mà chỉ phụ thuộc vào A hoặc chỉ phụ thuộc vào B).
- Chuẩn hóa mức 3 (3NF):
Một bảng đạt chuẩn 3NF nếu:
+ Đã ở dạng 2NF.
+ Không có thuộc tính *không phải là khóa* nào bị phụ thuộc hàm bắc cầu vào khóa chính. (Loại bỏ các phụ thuộc bắc cầu như ví dụ SODH → MAKH → TENKH ở trên).
5.6. CÁC LOẠI HÌNH CƠ SỞ DỮ LIỆU
Có nhiều loại CSDL khác nhau, phục vụ các mục đích khác nhau:
| Loại hình CSDL | Mô tả | Ví dụ |
|---|---|---|
| 1. CSDL tác nghiệp (Operational) | Lưu trữ dữ liệu chi tiết, phát sinh hàng ngày để hỗ trợ các quá trình nghiệp vụ (xử lý giao dịch). | CSDL khách hàng, CSDL hàng tồn kho, CSDL quản trị nhân lực. |
| 2. CSDL phân tán (Distributed) | CSDL được sao chép (toàn bộ hoặc một phần) và lưu trữ tại nhiều máy chủ ở các vị trí địa lý khác nhau. | - Phân tán thành phần (Partitioned): Mỗi nơi giữ một mảnh. - Phân tán đúp (Replicated): Mỗi nơi giữ một bản sao. |
| 3. CSDL bên ngoài (External) | Các CSDL trên mạng (miễn phí hoặc trả phí) mà tổ chức có thể truy cập để lấy thông tin. | CSDL thống kê kinh tế, CSDL thư viện các bài báo khoa học. |
| 4. CSDL siêu phương tiện (Hypermedia) | Lưu trữ các trang thông tin (văn bản, ảnh, video, audio...) có sử dụng cơ chế siêu liên kết (hyperlink). | CSDL của một Website. Phần mềm máy chủ Web hoạt động như một hệ QTCSDL. |
5.7. MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG QUẢN TRỊ DỮ LIỆU
5.7.1. Kỹ thuật Client/Server trong quản trị cơ sở dữ liệu
Đây là một kiến trúc phổ biến, trong đó ứng dụng được chia làm 2 phần:
- Máy chủ CSDL (Database Server): Một máy tính mạnh, tập trung lưu trữ và quản lý CSDL.
- Máy khách (Client): Các máy tính cá nhân của người dùng, chạy các chương trình ứng dụng (phần xử lý) và gửi yêu cầu dữ liệu đến máy chủ.
5.7.2. Kho dữ liệu (Data Warehouses)
Là một "tổng kho" tích hợp dữ liệu từ *nhiều* CSDL tác nghiệp khác nhau và các nguồn bên ngoài.
Đặc điểm chính của Kho dữ liệu:
- Chỉ hỗ trợ ra quyết định (phân tích), không hỗ trợ xử lý giao dịch hàng ngày.
- Lưu trữ dữ liệu hiện thời và lịch sử (dữ liệu có tính lịch sử rất quan trọng cho phân tích).
- Dữ liệu được trích rút, chuẩn hóa và tổng hợp trước khi nạp vào kho.
5.7.3. Kho dữ liệu chuyên biệt (Data Marts)
Là một phiên bản *nhỏ hơn* của Data Warehouse. Data Mart là một tập con dữ liệu, chỉ phục vụ cho một lĩnh vực hoặc một bộ phận riêng của công ty (VD: Data Mart cho phòng Tài chính, Data Mart cho phòng Marketing).
Lưu ý: Data Warehouse là kho dữ liệu tổng thể, rất lớn (hàng Terabytes) và đắt tiền. Data Mart nhỏ hơn (hàng Gigabytes), rẻ hơn và dễ triển khai hơn, tập trung vào một nghiệp vụ cụ thể.
5.7.4. Kỹ thuật khai phá và phân tích dữ liệu (Data Mining)
Data Mining (còn gọi là OLAP - Xử lý phân tích trực tuyến) là phương pháp sử dụng các công cụ thống kê, trí tuệ nhân tạo để sắp xếp và phân tích dữ liệu (thường là từ Data Warehouse) nhằm tìm ra các khuôn mẫu, xu thế, và các mối quan hệ ẩn, từ đó trích rút ra "tri thức kinh doanh".
Các ứng dụng của Data Mining bao gồm:
- Phân tích giỏ thị trường (biết khách hàng thường mua gì cùng nhau).
- Ngăn chặn nguy cơ khách hàng rời bỏ.
- Bán chéo (cross-sell) sản phẩm.
Bảng: Quy trình trích rút tri thức kinh doanh (Mô phỏng Hình 5-30)
| Bước 1: Nguồn | Bước 2: Chuẩn bị | Bước 3: Lưu trữ | Bước 4: Phân tích | Bước 5: Kết quả |
|---|---|---|---|---|
| Các CSDL (Tác nghiệp, bên ngoài...) | Chọn lọc và Chuyển đổi dữ liệu (Quá trình ETL) | Kho dữ liệu (Data Warehouse) | Data Mining (OLAP) | Khuôn mẫu, xu thế (Tri thức kinh doanh) |
3.577 xem 20 kiến thức 20 đề thi

13.578 lượt xem 21/11/2025

13.558 lượt xem 21/11/2025

13.502 lượt xem 21/11/2025

13.191 lượt xem 21/11/2025

13.068 lượt xem 21/11/2025

2.005 lượt xem 11/07/2025

15.219 lượt xem 21/11/2025
10.919 lượt xem 18/09/2025
11.073 lượt xem 23/09/2025

