Đề Thi Data Mining - Khai phá dữ liệu - HUBT có đáp án

Tham gia đề thi Data Mining miễn phí có đáp án tại Đại học Kinh doanh và Công nghệ Hà Nội. Kiểm tra và nâng cao kiến thức về khai thác dữ liệu, các thuật toán và kỹ thuật trong việc xử lý và phân tích dữ liệu lớn. Đề thi giúp bạn củng cố kỹ năng và chuẩn bị tốt hơn cho kỳ thi. Với đáp án chi tiết, bạn có thể tự đánh giá trình độ và cải thiện khả năng khai thác dữ liệu. Thử ngay để nâng cao cơ hội đạt điểm cao trong kỳ thi!

Từ khoá: đề thi Data Mining HUBT Đại học Kinh doanh và Công nghệ Hà Nội miễn phí có đáp án ôn thi kiểm tra kiến thức khai thác dữ liệu dữ liệu lớn kỳ thi data mining ôn luyện miễn phí

Số câu hỏi: 100 câuSố mã đề: 2 đềThời gian: 1 giờ

66,153 lượt xem 5,079 lượt làm bài

Xem trước nội dung
Câu 1: 0.2 điểm
Cho đồ thị như hình vẽ, Anh (chị) hãy cho biết đồ thị trên biểu diễn gì ?
A.  
So sánh giữa Thời gian thực thi (tính bằng giây) của 2 thuật toán FP-Growth và Apriori theo ngưỡng của độ hỗ trợ trên 2 Database D1 và Database D2.
B.  
So sánh giữa Thời gian thực thi (tính bằng giây) của 2 thuật toán FP-Growth và Apriori trên 2 Database D1 và Database D2.
C.  
So sánh 2 thuật toán FP-Growth và Apriori theo ngưỡng độ tin cậy.
D.  
Mối quan hệ giữa 2 thuật toán FP-Growth và Apriori.
Câu 2: 0.2 điểm
Cho CSDL giao dịch như hình vẽ, Anh (chị) hãy cho biết độ hỗ trợ của tập mục X={A, M} là bao nhiêu?
A.  
3 (60%)
B.  
4 (80%)
C.  
5 (100%)
D.  
2 (40%)
Câu 3: 0.2 điểm
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Anh (chị) hãy cho biết độ hỗ trợ của luật kết hợp X Y được định nghĩa là gì?
A.  
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N.
B.  
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y.
C.  
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X.
D.  
Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y.
Câu 4: 0.2 điểm
Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như sau:

Sử dụng thuật toán liên kết đơn (Single Linkage) để phân cụm tập dữ liệu trên. Anh (chị) hãy cho biết tất cả các phần tử được gom vào 1 cụm ở ngưỡng bằng bao nhiêu?

A.  
4
B.  
3
C.  
10
D.  
5
Câu 5: 0.2 điểm
Cho FP-Tree như hình vẽ, Anh (chị) hãy cho biết có mấy đường đi kết thúc ở nút m?
A.  
2 đường đi
B.  
1 đường đi
C.  
3 đường đi
D.  
4 đường đi
Câu 6: 0.2 điểm
Cho tập mục thường xuyên L={ABCDE}, giả sử tất cả các luật kết hợp sinh ra đều thỏa mãn điều kiện. Anh (chị) hãy cho biết có bao nhiêu luật kế hợp được sinh ra?
A.  
Có 30 luật.
B.  
Có 20 luật.
C.  
Có 5 luật.
D.  
Có 32 luật.
Câu 7: 0.2 điểm
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Anh (chị) hãy cho biết độ tin cậy của luật kết hợp X Y được định nghĩa là gì?
A.  
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X.
B.  
Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y.
C.  
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y.
D.  
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N.
Câu 8: 0.2 điểm
Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình sau:

Sử dụng thuật toán liên kết đầy đủ (Complete Linkage). Bước đầu tiên gom x1 và x2 hình thành cụm C1={x1, x2}; bước 2 ta gom x3 và x4 hình thành cụm C2={x3, x4}. Anh (chị) hãy cho biết bước thứ 3, ta sẽ gom thế nào?

A.  
Gom C1 với x5.
B.  
Gom x3 với C2.
C.  
Gom x3 với x5.
D.  
Gom x5 với C2.
Câu 9: 0.2 điểm
Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dụng thuật toán liên kết đầy đủ (Complete Linkage). Anh (chị) hãy cho biết sau khi gom x1 và x2 thành cụm C={x1, x2} thì khoảng cách giữa x3 và x4 bằng bao nhiêu?
A.  
bằng 3.
B.  
bằng 2.
C.  
bằng 1.
D.  
bằng 9.
Câu 10: 0.2 điểm
Cho CSDL giao dịch như bảng sau (Min_Support = 3 (60%)):

Anh (chị) hãy cho biết nhóm item bị loại bỏ do không thỏa mãn Min_Support là nhóm item nào?

A.  
d, e, g, h, i, j, k, l, n, o, s
B.  
f, c, a, b, m, p
C.  
c, a, b, m
D.  
a, b, c, d, e
Câu 11: 0.2 điểm
Cho CSDL giao dịch như bảng sau (Min_Support = 3 (60%)):

Sau khi loại bỏ các item không thỏa mãn Min_Support, ta xây dựng lại bảng các item chỉ chứa các mục thường xuyên, trong mỗi giao dịch được sắp xếp theo độ giảm dần của độ thường xuyên. Anh (chị) hãy cho biết giao dịch thứ 2 sau khi được sắp xếp là gì?

A.  
f, c, a, b, m, p
B.  
f, c, a, b, m, o
C.  
c, a, b, m
D.  
a, b, c, d, e
Câu 12: 0.2 điểm
Anh (chị) cho biết thuật toán phân cụm k-mean dừng khi nào?
A.  
Không thể gán (hoặc gán lại) từng điểm vào cụm khác.
B.  
Số cụm sinh ra là k.
C.  
Tùy theo yêu cầu của người dùng.
D.  
Khi tất cả các phần tử đã được gán vào k cụm.
Câu 13: 0.2 điểm
Cho các điểm A(1, 1), B(2, 1), C(4, 3), D(5, 4), E( 1, 0). Sử dụng thuật toán phân cụm k-mean để chia 5 điểm vào 2 cụm. Anh (chị) hãy cho biết kết quả phân cụm là gì?
A.  
C1={A, B, E} ; C2={C, D}
B.  
C1={A, C, E} ; C2={B, D}
C.  
C1={A, B, C} ; C2={D, E}
D.  
C1={A, B, D} ; C2={C, E}
Câu 14: 0.2 điểm
Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).

Anh (chị) hãy cho biết tập nào là tập mục thường xuyên có độ hỗ trợ cao nhất?

A.  
{B, E}
B.  
{A, E}
C.  
{A, C, D}
D.  
{B, C, D}
Câu 15: 0.2 điểm
Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình vẽ. Sử dụng thuật toán liên kết đơn (Single Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm?
A.  
x1 và x2
B.  
x1 và x3
C.  
x2 và x3
D.  
x3 và x5
Câu 16: 0.2 điểm
Anh (chị) hãy cho biết trong thuật toán phân cụm k-mean, sau khi chọn được k điểm làm tâm, phần tử x sẽ được gán vào cụm C nếu thỏa mãn điều kiện nào?
A.  
Khoảng cách từ x đến tâm cụm C là nhỏ nhất.
B.  
Khoảng cách từ x đến tâm cụm C là lớn nhất.
C.  
Khoảng cách từ x đến tâm cụm C bằng 0.
D.  
Khoảng cách từ x đến tâm cụm C bằng k.
Câu 17: 0.2 điểm
Trong mặt phẳng tọa độ Oxy, cho hai điểm A(0,1), B(4, 4). Anh (chị) hãy cho biết nếu sử dụng độ đo khoảng cách Ơclit thì khoảng cách giữa 2 điểm có giá trị là bao nhiêu ?
A.  
d(A,B)=5
B.  
d(A,B)=3
C.  
d(A,B)=4
D.  
d(A,B)=1
Câu 18: 0.2 điểm
Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.

Sử dụng thuật toán liên kết đơn (Single Linkage). Bước đầu tiên ta gom x1, x2, vào cụm C1, Anh (chị) hãy cho biết bước thứ 2 ta sẽ gom hai cụm nào với nhau?

A.  
Gom x3 với C1
B.  
Gom x3 với x4
C.  
Gom x4 với C1
D.  
Gom x3 với x5
Câu 19: 0.2 điểm
Cho đồ thị như hình vẽ. Từ đồ thị anh chị thấy điều gì?
A.  
Với cùng ngưỡng của độ hỗ trợ, thời gian thức thi thuật toán FP-Growth luôn ít hơn thời gian thực thi thuật toán Apriori.
B.  
Với cùng ngưỡng của độ hỗ trợ, thời gian thực thi của thuật toán FP-Growth luôn nhiều hơn thời gian thực thi của thuật toán Apriori.
C.  
Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth.
D.  
Hai thuật toán FP-Growth và Apriori đều thức thi với thời gian rất nhỏ.
Câu 20: 0.2 điểm
Cho tập mục thường xuyên X={A, B}. Anh (chị) hãy cho biết từ tập X có thể sinh ra các luật kết hợp nào?
A.  
A--> B, B--> A, không tính luật AB -->  và  --> AB
B.  
A-->B, B--> A, A-->  và  --> B
C.  
A--> B, A-->A
D.  
B--> A, B-->B
Câu 21: 0.2 điểm

Cho tập mẫu :

Cho tập   mẫu   X   =   <Quang cảnh=“Nắng”,  Nhiệt   độ=“Mát”,   Độ ẩm=“Cao”, Gió=“Mạnh”> và phương pháp phân lớp theo mô hình xác suất Bayes.

Tập mẫu X được gán vào lớp C1 (Chơi = ‘Không’) với xác suất là bao nhiêu?

A.  
P(C1)*P(X,C1) = 0.005.
B.  
P(C1)*P(X,C1) = 0.021.
C.  
P(C1)*P(X,C1) = 0.01.
Câu 22: 0.2 điểm
Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng

2.5 hỏi có mấy cụm được sinh ra ?

A.  
3 cụm
B.  
2 cụm
C.  
1 cụm
D.  
4 cụm
Câu 23: 0.2 điểm
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X. Anh (chị) hãy cho biết độ hỗ trợ của tập mục X được định nghĩa là gì?
A.  
Support(X)=Số lượng giao dịch hỗ trợ X / N
B.  
Support(X)=Số lượng giao dịch hỗ trợ X
C.  
Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong CSDL.
D.  
Support(X)=Số lượng giao dịch hỗ trợ X *100%
Câu 24: 0.2 điểm
Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%), Min_Cofidence = 50%.

Anh (chị) hãy cho biết luật kết hợp nào có độ tin cậy = 100%?

A.  
B-->E
B.  
A-->D
C.  
C--> E
Câu 25: 0.2 điểm
Hãy cho biết thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là?
A.  
Data Preprocessing
B.  
Data Processing
C.  
Preprocessing in Database
D.  
Data Process
Câu 26: 0.2 điểm
Có 4 phần tử cần chia thành 2 cụm, mỗi cụm có ít nhất 1 phần tử. Anh (chị) hãy cho biết có bao nhiêu cách chia cụm?
A.  
7 cách.
B.  
16 cách.
C.  
15 cách.
D.  
1 cách.
Câu 27: 0.2 điểm
Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3 (60%) và độ tin cậy tối thiểu Min_Confidence = 100%.

Anh (chị) hãy cho biết cơ sở điều kiện của nút M là gì?

A.  
{F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}
B.  
{F:2, C:2, A:2}
C.  
{F:1, C:1, A:1}
D.  
{F: 3, C:3, A:3}
Câu 28: 0.2 điểm
Hãy cho biết thuật ngữ tiếng Anh nào sau đây có nghĩa là Khai phá dữ liệu?
A.  
Data Mining
B.  
Data Clustering
C.  
Data Classification
D.  
Association Rule
Câu 29: 0.2 điểm
Câu hỏi 88. Cho CSDL giao dịch như bảng sau (Min_Support = 3 (60%)), Anh (chị) hãy cho biết độ hỗ trợ của tập mục {f, c} là bao nhiêu?
A.  
60%
B.  
80%
C.  
100%
D.  
Giá trị khác
Câu 30: 0.2 điểm
Cho tập ví dụ học như bảng. Anh (chị) hãy cho biết P(Play Ball= ‘Yes’ | Outlook=’Overcast’) có giá trị bằng bao nhiêu?
A.  
2/3
B.  
1/3
C.  
0/3
D.  
3/3
Câu 31: 0.2 điểm
Cho CSDL Giao dịch như hình vẽ, hãy cho biết số lượng giao dịch trong cơ sở dữ liệu là bao nhiêu?
A.  
5
B.  
16
C.  
6
D.  
10
Câu 32: 0.2 điểm
Cho 3 điểm x, y, z. Anh (chị) hãy cho biết độ đo khoảng cách d phải thỏa mãn các điều kiện nào?
A.  
d(x,y)>=0 ; d(x,y)=d(y,x) ; d(x,x) =0 ; d(x,y)<=d(x,z)+d(z,y)
B.  
d(x,y)>0 ; d(x,y)=d(y,x) ; d(x,y) =0 ; d(x,y)<=d(x,z)+d(z,y)
C.  
d(x,y)>=0 ; d(x,y)<=d(x,z)+d(z,y)
D.  
d(x,y)>=0 ; d(x,x) =0 ; d(x,y)<=d(x,z)+d(z,y)
Câu 33: 0.2 điểm
Cho CDSL giao dịch như hình vẽ, Độ hỗ trợ tối thiểu Min_Support = 3 (60%) và độ tin cậy tối thiểu Min_Confidence = 100%.

Anh (chị) hãy cho biết tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là tập nào trong các tập mục sau?

A.  
FCAM:3
B.  
FCAN:2
C.  
FCAM:4
D.  
FCAE:4
Câu 34: 0.2 điểm
Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Anh (chị) hãy cho biết với bảng Play Ball=’No’ ta tìm được bao nhiêu luật?
A.  
2 luật.
B.  
3 luật.
C.  
1 luật.
D.  
4 luật.
Câu 35: 0.2 điểm
Cho X ={A, B} không là tập mục thường xuyên, Y = {A, B, C}. Anh (chị) hãy cho biết kết luận nào sau đây là đúng?
A.  
Y không là tập mục thường xuyên.
B.  
Y là tập mục thường xuyên.
C.  
X là tập mục thường xuyên.
D.  
C không là tập mục thường xuyên.
Câu 36: 0.2 điểm
Khoảng cách Ơclit giữa 2 cụm C1, C2 được định nghĩa là khoảng cách lớn nhất giữa phần tử x thuộc C1 và y thuộc C2 (x, y bất kỳ
Cho C1 gồm các phần tử x1=(1,0,0), x2=(2, 0, 0), x3=(0, 0, 0); C2 gồm các phần tử y1=(0, 2, 1), y2=(3, 4, 0 ).
Anh(chị) hãy cho biết khoảng cách d giữa cụm C1 và C2 có giá trị là gì?
A.  
d=5
B.  
d=4
C.  
d=3
D.  
Giá trị khác
Câu 37: 0.2 điểm
Cho đồ thị như hình vẽ. Anh (chị) hãy cho biết nhận xét nào sau đây là sai?
A.  
Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth.
B.  
Với cùng ngưỡng độ hỗ trợ, thời gian thức thi thuật toán FP-Growth luôn ít hơn thời gian thực thi thuật toán Apriori.
C.  
Khi số ngưỡng của độ hỗ trợ rất lớn, thời gian thực thi của 2 thuật toán FP-Growth và Apriori là tương đương.
D.  
Thuật toán FP-Growth thực hiện nhanh hơn thuật toán Apriori.
Câu 38: 0.2 điểm
Anh (chị) hãy cho biết đồ thị sau biểu diễn điều gì?
A.  
So sánh giữa Thời gian thực thi (tính bằng giây) của 2 thuật toán FP-Growth và Apriori theo số lượng giao dịch (nghìn giao dịch).
B.  
So sánh Thời gian thực thi với số lượng giao dịch.
C.  
So sánh 2 thuật toán FP-Growth và Apriori.
D.  
Mối quan hệ giữa 2 thuật toán FP-Growth và Apriori.
Câu 39: 0.2 điểm

Khoảng cách Ơclit giữa 2 cụm C1, C2 được định nghĩa là khoảng cách bé nhất giữa phần tử x thuộc C1 và y thuộc C2 (x, y bất kỳ).

Cho C1 gồm các phần tử x1=(1,1,0), x2=(2, 0, 0), x3=(0, 0, 0); C2 gồm các phần tử y1=(0, 2, 1), y2=(2, 2, 0 ).

 Anh (chị) hãy cho biết khoảng cách d giữa cụm C1 và C2 có giá trị là bao nhiêu?

A.  
d=1.414
B.  
d=2.000
C.  
d=4.353
D.  
d=1.021
Câu 40: 0.2 điểm
Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).

Nếu sử dụng thuật toán Apriori để tìm các tập mục thường xuyên thì số lần duyệt CSDL là bao nhiêu?

A.  
3 lần
B.  
2 lần
C.  
4 lần
D.  
1 lần
Câu 41: 0.2 điểm
Anh (chị) hãy cho biết độ phân biệt (độ lộn xộn) của kết luận C với thuộc tính A được tính theo công thức nào?
A.  
Gain(C,A)=Entropy(C)-Entropy(A)
B.  
Gain(C,A)=Entropy(C)+Entropy(A)
C.  
Gain(C,A)=Entropy(A)-Entropy(C)
D.  
Gain(C,A)=Entropy(C)*Entropy(A)
Câu 42: 0.2 điểm

Khoảng cách Ơclit giữa 2 cụm C1, C2 được định nghĩa là khoảng cách giữa các vector đại diện của cụm.

 Giả sử vector đại diện của cụm là vector trung bình của cụm.

 Cho C1 gồm x1=(1,0), x2=(3,2) ; C2 gồm y1=(3, 2) , y2=(7, 8).

Anh (chị) hãy cho biết khoảng cách d giữa cụm C1 và C2 có giá trị là bao nhiêu ?

A.  
d=5
B.  
d=6
C.  
d=2
D.  
d=1
Câu 43: 0.2 điểm
Anh (chị) hãy cho biết trong thuật toán k-mean, sau khi gán các đối tượng vào k cụm cần phải là gì?
A.  
Tính lại tâm của các cụm.
B.  
Tính khoảng cách giữa các phần tử trong cụm.
C.  
Tìm một số phần tử đại diện của cụm.
D.  
Trộn các cụm lại với nhau để số cụm sinh ra là ít nhất.
Câu 44: 0.2 điểm
Cho FP-Tree như hình vẽ, Anh (chị) hãy cho biết mũi tên nét đứt biểu thị cho điều gì?
A.  
Con trỏ xuất phát từ bảng đầu mục, trỏ vào nút sinh ra đầu tiên có cùng tên. Nút sinh ra sau có con trỏ từ nút cùng tên sinh ra ngay trước đó trỏ vào.
B.  
Đường đi trên cây.
C.  
Nút sinh ra sau trỏ vào nút cùng tên sinh ra trước.
D.  
Hướng để duyệt cây.
Câu 45: 0.2 điểm
Cho tập L3={abc, abd, ade, ace} là các tập mục thường xuyên chứa 3-item. Để tạo các ứng viên chứa 4-item abcd, ta cần ghép các tập chứa 3-item nào với nhau?
A.  
abc và abd
B.  
abc và ade
C.  
abc và ace
D.  
abd và ade
Câu 46: 0.2 điểm
Cho cây quyết định như hình sau, Anh (chị) hãy cho biết có bao nhiêu luật sinh ra từ cây quyết định trên?
A.  
5 luật
B.  
3 luật
C.  
2 luật
D.  
4 luật
Câu 47: 0.2 điểm
Thuật toán Apriori : Cho 2 tập mục L1={abcd}, L2={abck}. Ghép L1 và L2 với nhau thành tập mục L, ta được tập mục nào sau đây?
A.  
L={abcdk}
B.  
L={abc}
C.  
L={dk}
D.  
L={abck}
Câu 48: 0.2 điểm
Anh (chị) hãy cho biết có những cách nào để chọn đại diện cho các cụm gì?
A.  
Đại diện điểm, đại diện siêu phẳng và đại diện siêu cầu.
B.  
Đại diện điểm, đại diện siêu cầu.
C.  
Đại diện siêu phẳng, đại diện điểm.
D.  
Đại diện siêu cầu, đại siêu phẳng.
Câu 49: 0.2 điểm
Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dụng thuật toán liên kết đơn (Single Linkage), sau khi gom x1 và x2 thành cụm C={x1, x2} thì khoảng cách giữa cụm C và x3 bằng bao nhiêu ?
A.  
bằng 2.
B.  
bằng 3.
C.  
bằng 0.
D.  
bằng 9.
Câu 50: 0.2 điểm
Cho cây quyết định như hình vẽ. Anh (chị) hãy cho biết có bao nhiêu luật sinh ra từ cây quyết định trên?
A.  
4 luật.
B.  
2 luật.
C.  
1 luật.
D.  
Nhiều luật.