Đề Thi Ôn Luyện Big Data Mở Rộng - Đại Học Bách Khoa Hà Nội Miễn Phí, Có Đáp Án Bạn đang tìm kiếm đề thi ôn luyện Big Data mở rộng từ Đại Học Bách Khoa Hà Nội? Tại đây, chúng tôi cung cấp tài liệu ôn tập chuyên sâu và đề thi Big Data mở rộng với đầy đủ đáp án chi tiết, hoàn toàn miễn phí. Bộ tài liệu giúp sinh viên nắm vững kiến thức từ cơ bản đến nâng cao về Big Data, từ xử lý dữ liệu lớn, phân tích dữ liệu đến các thuật toán phức tạp. Đây là tài liệu lý tưởng để ôn luyện và làm quen với cấu trúc đề thi mở rộng. Phù hợp cho sinh viên ngành Công nghệ Thông tin và những người muốn nâng cao kiến thức về Big Data. Tải ngay để chuẩn bị tốt nhất cho kỳ thi sắp tới.
Từ khoá: đề thi Big Data mở rộng ôn luyện Big Data mở rộng tài liệu Big Data Đại Học Bách Khoa đề thi Big Data có đáp án tài liệu ôn tập Big Data miễn phí Big Data mở rộng Bách Khoa học Big Data mở rộng ôn thi Big Data mở rộng Bách Khoa xử lý dữ liệu lớn mở rộng đề thi Big Data mở rộng kèm đáp án
Bạn chưa làm đề thi này!
Bắt đầu làm bài
Câu 1: Trong hệ sinh thái của Spark không có công cụ hay thành phần nào sau đây:
Câu 2: Spark Streaming trừu tượng hóa cũng như thao tác với các dòng dữ liệu (data stream) dựa trên khái niệm nào:
Câu 3: Spark hỗ trợ các cluster manager nào
A. Standalone Cluster manager
D. tất cả đáp án trên
Câu 4: Đáp án nào không phải là một “output operation ” khi thao tác với DStream
Câu 5: Đáp án nào không phải là một “Transformation” khi thao tác với DStream
Câu 6: Mục đích của sử dụng sparkML là gì ?
B. chạy các thuật toán dự đoán
C. tính toán phân toán
Câu 7: dữ liệu đầu vào được gán là feature và dự đoán được gán vào label
A. dữ liệu đầu vào được gán là label và kết quả của dữ liệu đầu vào đó được gán vào feature
B. dữ liệu đầu vào được gán là feature và kết quả của dữ liệu đầu vào được gán
D. dữ liệu đầu vào được gán là label và kết quả dự đoán được gán vào feature
Câu 8: Đâu là lệnh lưu trữ dữ liệu ra ngoài chương trình Spark:
A. input.saveAsTextFile(‘file:///usr/momoinu/mon_loz/hihi.txt’)
B. input.saveAsTextFile(‘/usr/momoinu/mon_loz/hihi.txt’)
C. input.saveAs (‘file:///usr/momoinu/mon_loz/hihi.txt’)
D. input.saveAsTextFile: ‘file:///usr/momoinu/mon_loz/hihi.txt’
Câu 9: Đâu là cách submit đúng 1 job lên Spark cluster hoặc chế độ local
A. ./spark-submit wordcount.py README.md
B. ./spark-submit README.md wordcount.py
C. spark-submit README.md wordcount.py
Câu 10: Câu lệnh MapReduce trong Spark dưới đây, chia mỗi dòng thành từ dựa vào
A. delimiter nào : input.flatMap( lambda x: x.split(“\t”) ).map(lambda x: (x, 1)).reduceByKey(add)
Câu 11: Cơ chế chịu lỗi của datanode trong HDFS
A. dử dụng ZooKeeper để quản lý các thành viên datanode trong cụm
B. sử dụng cơ chế heartbeat, định kỳ các datanode thông báo về trạng thái cho Namenode
C. sử dụng cơ chế heartbeat, Namenode định kỳ hỏi các datanode về trạng thái tồn tại của datanode
Câu 12: Cơ chế tổ chức dữ liệu của Datanode trong HDFS
A. các chunk là các tệp tin trong hệ thống tệp tin cục bộ của máy chủ datanode
B. các chunk là các vùng dữ liệu liên tục trên ổ cứng của máy chủ data node
C. các chunk được lưu trữ tin cậy trên datanode theo cơ chế RAID
Câu 13: Bản chất DStream:
A. là một chuỗi liên tục RDD
B. Là một chuỗi liên tục DataFrame
C. Là một chuỗi liên tục DataSet
Câu 14: Đầu vào dữ liệu cho chương trình Spark có thể là:
C. Amazon S3, Elasticsearch
D. Cả 3 phương án trên
Câu 15: Đâu là lệnh lưu dữ liệu ra ngoài chương trình Spark:
A. input.saveAsTextFile('file:///usr/zeppelin/notebook/dataset/new.txt')
B. input.saveAsTextFile('/usr/zeppelin/notebook/dataset/new.txt')
C. input.saveAs('file:///usr/zeppelin/notebook/dataset/new.txt')
D. input.saveAsTextFile:'file:///usr/zeppelin/notebook/dataset/new.txt'
Câu 16: Đâu là cách submit đúng một job lên Spark cluster hoặc chế độ local:
A. ./spark-submit wordcount.py README.md
B. ./spark-submit README.md wordcount.py
C. spark-submit README.md wordcount.py
Câu 17: Data Pipeline nào sau đây là đúng trên Spark
A. Spark -> RabbitMQ -> Elasticsearch -> Hiển thị
B. Dữ liệu sensor -> RabbitMQ -> Elasticsearch -> Spark ->Hiển thị
C. Dữ liệu sensor -> Elasticserach -> RabbitMQ -> Spark ->Hiển thị
D. Spark -> Elasticsearch ->Hiển thị (đ biết có đúng ko)
Câu 18: Mục đích của sử dụng RabbitMQ là gì?
A. Lưu trữ dữ liệu
B. Tránh dữ liệu bị mất mát
C. Hiển thị dữ liệu
D. Phân tích dữ liệu
Câu 19: Spark có thể chạy ở chế độ nào khi chạy trên nhiều máy?
C. Phương án A và B đều sai
D. Cả 2 phương án A và B
Câu 20: Mục đích của sử dụng Spark ML là gì?
B. Chạy các thuật toán dự đoán
C. Tính toán phân tán
Câu 21: Cái nào trong số này cung cấp hệ thống xử lý Luồng được sử dụng trong hệ
Câu 22: Chế độ nào sau đây không phải là chế độ hoạt động của Hadoop?
A. Pseudo distributed mode
B. Globally distributed mode
D. Fully-Distributed mode
Câu 23: Chọn phát biểu đúng khi nói về MongoDB
A. MongoDB có các trình điều khiển driver cho nhiều ngôn ngữ lập trình khác nhau.
B. các văn bản có thể chứa nhiều cặp key-value hoặc key-array, hoặc các văn bản lồng (nested documents)
C. tất cả các phương án trên
D. MongoDB hay các NoSQL có khả năng khả mở tốt hơn các CSDL quan hệ truyền thống
Câu 24: Công cụ Hadoop được sử dụng để phân tán dữ liệu một cách đồng nhất trên các DataNode được đặt tên là:
Câu 25: Thuộc tính được sử dụng để đặt hệ thống tệp mặc định cho Hadoop trong
Câu 26: Tùy chọn nào trong số này không phải là tùy chọn lập lịch có sẵn với YARN?