Đề Thi Khai Phá Dữ Liệu BMTU Đại học Y Dược Buôn Ma Thuột

Khám phá đề thi trắc nghiệm online miễn phí có đáp án chính xác cho môn Khai Phá Dữ Liệu tại BMTU - Đại học Y Dược Buôn Ma Thuột. Bộ đề được biên soạn tỉ mỉ nhằm củng cố kiến thức về phân tích dữ liệu, rèn luyện kỹ năng xử lý và trực quan hoá thông tin, hỗ trợ sinh viên áp dụng lý thuyết vào thực tiễn. Tài liệu ôn tập chất lượng này giúp bạn tự tin vượt qua kỳ thi và nâng cao năng lực nghiên cứu.

Từ khoá: đề thi online miễn phí đáp án khai phá dữ liệu BMTU Đại học Y Dược Buôn Ma Thuột ôn tập trắc nghiệm phân tích dữ liệu kỹ năng xử lý dữ liệu

Số câu hỏi: 154 câuSố mã đề: 4 đềThời gian: 1 giờ

56,552 lượt xem 4,371 lượt làm bài

Xem trước nội dung
Câu 1: 0.25 điểm
Phát biểu nào đúng về Phương pháp phân tích thành phần chính (Principal Component Analysis-PCA):
A.  
Chỉ áp dụng cho dữ liệu số và dùng khi số chiều vector lớn
B.  
Chỉ áp dụng cho dữ liệu văn bản và dùng khi số chiều vector lớn
C.  
áp dụng cho mọi loại dữ liệu
D.  
Tìm đặc trưng quan trọng của tập dữ liệu
Câu 2: 0.25 điểm
Một số phương pháp loại bỏ dữ liệu nhiễu là:
A.  
Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động
B.  
Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng
C.  
Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng
D.  
Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp
Câu 3: 0.25 điểm
Phần mềm Weka cài đặt một số thuật toán trong lĩnh vực nào?
A.  
Data Mining
B.  
Tìm kiếm văn bản
C.  
Trí tuệ nhân tạo
D.  
Học máy
Câu 4: 0.25 điểm
Thuật toán Quilan là thuật toán dùng để:
A.  
Xây dựng cây quyết định
B.  
Tìm các luật
C.  
Tìm độ phân biệt của các thuộc tính
D.  
Giúp ta tìm ra 1 thuộc tính làm gốc cây quyết định
Câu 5: 0.25 điểm
Cho các điểm A(1, 1), B(2, 1), C(4, 3), D(5, 4), E(0,0). Sử dụng thuật toán phân cụm k-mean để chia 5 điểm vào 2 cụm. Cụm C1 được hình thành gồm 3 phần tử A, B, E. Vector trung bình (trọng tâm) của cụm là:
A.  
mC1=(1, 2/3)
B.  
mC1=(0, 2/3)
C.  
mC1=(1, 3)
D.  
mC1=(1, 2)
Câu 6: 0.25 điểm
Một số lĩnh vực liên quan đến khai phá tri thức – KDD là:
A.  
Machine Learning, Visualization, Statistics, Databases…
B.  
Machine Learning, Programming, Statistics, Databases…
C.  
Machine Learning, Visualization, Statistics, BioInfomatics…
D.  
Support Vector Machine, Clustering, Statistics, Databases…
Câu 7: 0.25 điểm
Với công thức tính Gain thông thường không phù hợp với tình huống nào ?
A.  
Với các thuộc tính có rấất nhiềều giá trị
B.  
Không phụ hợp với ba thuộc tính
C.  
Không phù hợp với tập chỉ có duy nhất một mẫu
D.  
Mọi trường hợp đều phù hợp
Câu 8: 0.25 điểm
Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được sinh ra (không tính tập rỗng) là:
A.  
2^N - 1
B.  
2^N
C.  
N
D.  
Vô số tập mục
Câu 9: 0.25 điểm
Cho X ={A, B} không là tập mục thường xuyên, Y = {A, B, C} ta có kết luận:
A.  
Y không là tập mục thường xuyên
B.  
Y là tập mục thường xuyên
C.  
X là tập mục thường xuyên
D.  
C không là tập mục thường xuyên
Câu 10: 0.25 điểm
Khoảng cách giữa 2 cụm C1, C2 được định nghĩa là khoảng cách giữa 2 phần tử x thuộc C1 và y thuộc C2 sao khoảng cách giữa x và y là lớn nhất. Cho 2 cụm C1={x1, x2}, C2={x3, x4, x5}, với x1(0, 0), x2(1, 0), x3(6, 0), x4(4, 0), x5(3,0), khoảng cách giữa 2 cụm này là:
A.  
d=6
B.  
d=4
C.  
d=2
D.  
d=1
Câu 11: 0.25 điểm
Có N phần tử cần chia thành 1 cụm. Hỏi có bao nhiêu cách chia cụm:
A.  
1 cách
B.  
0 cách
C.  
2 cách
D.  
N cách
Câu 12: 0.25 điểm
Cho tập dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34. Chia tập dữ liệu trên thành 3 thùng theo chiều sâu. Kết quả chia thùng làm trơn theo trung bình là:
A.  
Bin 1: 9, 9, 9, 9; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
B.  
Bin 1: 4, 4, 4, 4; Bin 2: 21, 21, 21, 21; Bin 3: 26, 26, 26, 26
C.  
Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34
D.  
Bin 1: 15, 15, 15, 15; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
Câu 13: 0.25 điểm
Thuật ngữ tiếng Anh nào có nghĩa là Khai phá dữ liệu
A.  
. Data Mining
B.  
Data Clustering
C.  
Data Classification
D.  
Association Rule
Câu 14: 0.25 điểm
Kết quả của quá trình phân cụm phân cấp là:
A.  
Một sơ đồ ngưỡng tương tự (hoặc không tương tự).
B.  
Một danh sách các cụm
C.  
Một cây nhị phân biểu diễn quá trình gom cụm
D.  
. k cụm được sinh ra, với k cho trước
Câu 15: 0.25 điểm
Các bài toán thuộc làm sạch dữ liệu là:
A.  
Xử lý giá trị thiếu, Dữ liệu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sửa dữ liệu không nhất quán, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
B.  
Làm trơn theo biên, phương pháp đóng thùng, điền giá trị thiếu, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
C.  
Phân cụm, phân lớp, hồi quy, biểu diễn dữ liệu.
D.  
Phân cụm, tìm luật kết hợp, tìm kiếm đặc trưng
Câu 16: 0.25 điểm
Có thể sử dụng phân lớp dựa trên mạng Nơron nhân tạo. Vậy mạng Nơron nhân tạo là gì?
A.  
Là mô hình toán học mô phỏng theo mạng Nơron sinh học để giải quyết các bài toán
B.  
Là mạng máy tính có tốc độ truyền thông cao
C.  
Là mạng Nơron do con người tạo ra
D.  
Là một phương pháp để phân loại Gen của các loài sinh vật
Câu 17: 0.25 điểm
Độ đo ‘gần gũi’ gồm có:
A.  
Độ đo tương tự và độ đo không tương tự
B.  
Độ đo khoảng cách và độ đo tình cảm
C.  
Độ đo Ơclit và độ đo phi Ơclit
D.  
Độ đo tương tự và độ đo khoảng cách trong không gian 2 chiều
Câu 18: 0.25 điểm
Hãy chọn định nghĩa đúng về Ma trận không tương tự:
A.  
Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận không tương tự P(X) là ma trận cấp N N mà phần tử nằm ở vị trí (i, j) có giá trị là i*j
B.  
Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận không tương tự P(X) là ma trận cấp N N mà phần tử nằm ở vị trí (i, j) bằng 0
C.  
Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận không tương tự P(X) là ma trận cấp N N mà phần tử nằm ở vị trí (i, j) bằng độ không tương tự d(xi,xj) giữa hai vector xi và xj.
D.  
Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận không tương tự P(X) là ma trận cấp N N mà phần tử nằm trên đường chéo chính bằng 0, các phần tử khác có giá trị bất kỳ
Câu 19: 0.25 điểm
Phương pháp Xếp thùng - Binning là phương pháp:
A.  
Sắp xếp dữ liệu tăng dần và chia đều vào các thùng, sau đó sử dụng phương pháp làm trơn theo trung bình, theo biên, theo trung tuyến.
B.  
Chia đều dữ liệu vào các thùng, sau đó sử dụng phương pháp làm trơn theo trung bình, theo biên, theo trung tuyến.
C.  
Sắp xếp dữ liệu tăng dần và chia vào các thùng, mỗi thùng có số phần tử tùy ý, sau đó sử dụng phương pháp làm trơn theo trung bình, theo biên, theo trung tuyến.
D.  
Sắp xếp dữ liệu giảm dần và chia đều vào N thùng, loại bỏ các thùng không cần thiết
Câu 20: 0.25 điểm
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ tin cậy tối thiểu. X, Y là tập chứa các mục thuộc I. Luật kết hợp XY được chọn nếu:
A.  
Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf
B.  
Support(XY)=Min_Supp, Confidence(XY)=Min_Conf
C.  
Support(XY)
D.  
Support(XY)>Min_Supp, Confidence(XY)=Min_Conf
Câu 21: 0.25 điểm
Độ đo khoảng cách trong không gian Ơclit là độ đo:
A.  
Độ đo không tương tự
B.  
Độ đo tương tự
C.  
Độ đo giữa 2 đối tượng cùng loại
D.  
Độ đo giữa 2 đối tượng khác loại
Câu 22: 0.25 điểm
Sử dụng thuật toán k-mean để chia N điểm vào k cụm, khi đó:
A.  
k<=N
B.  
k=N
C.  
k>N
D.  
k khác N
Câu 23: 0.25 điểm
Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X. Độ hỗ trợ của tập mục X được định nghĩa là:
A.  
Support(X)=Số lượng giao dịch hỗ trợ X / N
B.  
Support(X)=Số lượng giao dịch hỗ trợ X
C.  
Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong CSDL
D.  
Support(X)=Số lượng giao dịch hỗ trợ X *100%
Câu 24: 0.25 điểm
FP-Tree: Có 2 đường đi từ gốc tới nút p là: abcd:2 và abce:2. Cây điều kiện FP của nút p là:
A.  
{abc:4}|p
B.  
{abc:2}|p
C.  
{abcde:4}|p
D.  
{de:4}|p
Câu 25: 0.25 điểm
Phương pháp nào không phải là phương pháp phân lớp:
A.  
Chia các đối tượng thành từng lớp để giảng dạy
B.  
Phân lớp dựa trên Cây quyết định
C.  
Phân lớp dựa trên xác suất Bayes
D.  
Phân lớp dựa trên Mạng Nơron
Câu 26: 0.25 điểm
Thuật toán Apriori : Ghép 2 tập mục có 4-tems với nhau, ta sẽ được tập mục có bao nhiêu item :
A.  
5-items
B.  
6-items
C.  
7-items
D.  
8-items
Câu 27: 0.25 điểm
Một số bài toán điển hình trong khai phá dữ liệu là:
A.  
Khai phá luật kết hợp, phân loại, phân cụm, hồi qui...
B.  
Khai phá luật kết hợp, xây dựng máy tìm kiếm...
C.  
Web mining, Text mining, mạng nơron…
D.  
Bài toán nhận dạng, bài toán tìm kiếm thông tin, bài toán lựa chọn đặc trưng...
Câu 28: 0.25 điểm
Khai phá dữ liệu có lợi ích gì?
A.  
Cung cấp hỗ trợ ra quyết định, dự báo, khái quát dữ liệu...
B.  
Tìm kiếm các quy luật, tìm kiếm các cụm và phân loại dữ liệu
C.  
Tìm kiếm nhanh thông tin, thống kê dữ liệu, chọn đặc trưng của dữ liệu...
D.  
Tạo ra cơ sở tri thức mới, hỗ trợ dự báo thời tiết, dự báo động đất, dự báo sóng thần...
Câu 29: 0.25 điểm
Cho tập dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34. Chia thành 3 thùng theo chiều sâu. Kết quả phương pháp chia thùng làm trơn theo biên là:
A.  
Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34
B.  
Bin 1: 4, 4, 4, 4; Bin 2: 21, 21, 21, 21; Bin 3: 26, 26, 26, 26
C.  
Bin 1: 9, 9, 9, 9; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
D.  
Bin 1: 15, 15, 15, 15; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
Câu 30: 0.25 điểm
Làm sạch dữ liệu (Data Cleaning) là quá trình:
A.  
Loại bỏ nhiễu và dữ liệu không nhất quán
B.  
Tìm kiếm dữ liệu có ích
C.  
Tìm kiếm dữ liệu có ích trong cơ sở dữ liệu lớn
D.  
Tổ hợp nhiều nguồn dữ liệu khác nhau
Câu 31: 0.25 điểm
Các cơ sở dữ liệu cần khai phá là:
A.  
Quan hệ, Giao tác, Hướng đối tượng, Không gian, Thời gian, Text, XML, Multi- media, WWW, …
B.  
Text, XML, Multi-media, WWW, …
C.  
Cơ sở dữ liệu khách hàng, cơ sở dữ liệu nghiên cứu không gian, cơ sở dữ liệu trong ngân hàng, cơ sở dữ liệu thống kê…
D.  
Cơ sở dữ liệu tuyển sinh đại học, cơ sở dữ liệu dự báo thời tiết, cơ sở dữ liệu thống kê dân số…
Câu 32: 0.25 điểm
Có 4 phần tử cần chia thành 2 cụm, mỗi cụm có ít nhất 1 phần tử. Hỏi có bao nhiêu cách chia cụm:
A.  
16 cách
B.  
15 cách
C.  
7 cách
D.  
1 cách
Câu 33: 0.25 điểm
Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5, ?). Dấu hỏi là giá trị của thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có, hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu:
A.  
5
B.  
6
C.  
9
D.  
Giá trị khác
Câu 34: 0.25 điểm
Trong thuật toán phân cụm k-mean, sau khi chọn được k điểm làm tâm, phần tử x sẽ được gán vào cụm C sao cho:
A.  
Khoảng cách từ x đến tâm cụm C là nhỏ nhất
B.  
Khoảng cách từ x đến tâm cụm C là lớn nhất
C.  
Khoảng cách từ x đến tâm cụm C bằng 0
D.  
Khoảng cách từ x đến tâm cụm C bằng k
Câu 35: 0.25 điểm
Phát biểu nào sai về ‘Tiền xử lí dữ liệu’:
A.  
Dữ liệu sau khi Tiền xử lí sẽ thành tri thức mới
B.  
Không có dữ liệu tốt, không thể có kết quả khai phá tốt
C.  
Phân lớn công việc xây dựng một kho dữ liệu là trích chọn, làm sạch và chuyển đổi dữ liệu —Bill Inmon
D.  
Dữ liệu có chất lượng cao nếu như phù hợp với mục đích sử dụng trong điều hành, ra quyết định, và lập kế hoạch.
Câu 36: 0.25 điểm
Đầu ra của thuật toán FP_growth là gì?
A.  
Tập các mục thường xuyên
B.  
Một CSDL giao dịch, min_sup_count
C.  
Support
D.  
Độ hỗ trợ
Câu 37: 0.25 điểm
Có N phần tử cần chia thành m cụm, với m>N. Hỏi có bao nhiêu cách chia cụm:
A.  
0 cách
B.  
m cách
C.  
2 cách
D.  
N cách
Câu 38: 0.25 điểm
Khi sử dụng thuật toán Quilan để xây dựng cây quyết định. Tại mỗi bước của thuật toán ta chọn thuộc tính nào trong số các thuộc tính còn lại để làm gốc phân nhánh?
A.  
Thuộc tính có độ phân biệt cao nhất
B.  
Thuộc tính có độ phân biệt thấp nhất
C.  
Thuộc tính có Entropy cao nhất
D.  
Chọn ngẫu nhiên
Câu 39: 0.25 điểm
Giả sử ta có các tập mục thường xuyên {A,B}, {A,C}, {B,D} chứa 2-item. Sử dụng thuật toán Apriori để ghép các tập mục có 2-item thành các tập mục có 3-item , các ứng viên sinh ra có 3-item là:
A.  
{A, B, C}, {A, B, D}
B.  
{A, B, C}, {A, B, D}, {A, B, C, D}
C.  
{A, B, C}, {B, C, D}
D.  
{A, B, C}, {C, B, D}
Câu 40: 0.25 điểm
Phương pháp xếp thùng phân hoạch cân bằng theo bề rộng là:
A.  
Chi miền giá trị thành N đoạn có độ dài như nhau
B.  
Chia miền xác định thành N đoạn ‘’đều nhau về số lượng’’ các đoạn có xấp xỉ số ví dụ mẫu.
C.  
Lựa chọn số phần tử ngẫu nhiên và xếp và N thùng
D.  
Các phần tử có giá trị như nhau sẽ được xếp vào cùng 1 thùng