Khai phá dữ liệu – Data Mining là gì?

data-mining-la-gi

Dữ liệu do con người tạo ra ngày càng nhiều hơn về số lượng, tăng nhanh về khối lượng, phát triển mạnh về quy mô khiến việc phân loại, lựa chọn, khai thác, sử dụng gặp những khó khăn nhất định. Khái niệm Data Mining ra đời hỗ trợ công việc này; vậy cụ thể Data Mining là gì, Data Mining được khai thác như thế nào, công nghệ Data Mining sử dụng là gì…

data-mining-la-gi

Data Mining là gì | Khái niệm Data Mining | Định nghĩa Data Mining

Data Mining là một trong những thuật ngữ mới xuất hiện đầu thế kỷ 21, nó là hệ quả của sự bùng nổ Internet đạt tới đỉnh điểm. Theo một công bố của Intel vào tháng 9 năm 2013 cứ 11 giây trôi qua chúng ta có thêm 1 Petabybe dữ liệu, nó tương đương với một video chất lượng HD dài… 13 năm. Và để khai phá, trích xuất nó Data Mining ra đời, dưới đây là khái niệm Data Mining là gì.

Data Mining là quá trình khai phá, trích xuất, khai thác và sử dụng những dữ liệu có giá trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu, trung tâm dữ liệu… lớn hơn là Big Data dựa trên kĩ thuật như mạng nơ ron, lí thuyết tập thô, tập mờ, biểu diễn tri thức… Đây là một công đoạn trong hoạt động “làm sạch” dữ liệu.

Để dễ hình dung rõ hơn Data Mining là gì bạn đọc có thể hiểu đơn giản nó chính là một phần của quá trình trích xuất những dữ liệu có giá trị tốt, loại bỏ dữ liệu giá trị xấu trong bộn bề thông tin trên Internet và các nguồn dữ liệu đang có.

TÓM TẮT KHÁI NIỆM DATA MINING

Data Mining là quá trình:
+ khai phá
+ trích xuất
+ khai thác và sử dụng dữ liệu có giá trị trong các CSDL đang có (kể cả Big Data)
– Đây là công đoạn đưa ra dữ liệu đã được “làm sạch”
– Dựa trên kĩ thuật như mạng nơ ron, lí thuyết tập thô, tập mờ, biểu diễn tri thức…

Quá trình chọn lọc dữ liệu của Data Mining dựa trên các phương pháp: Phân loại (Classification), Phân nhóm (Clustering), Tổng hợp (Summarization), Mô hình ràng buộc (Dependency modeling), Hồi qui (Regression), Dò tìm biến đổi và độ lệch (Change and Deviation Dectection).

 

Để có nguồn Data Mining chúng ta cần thực hiện các công đoạn: Làm sạch dữ liệu (Data Cleaning); Tích hợp dữ liệu (Data Integration); Chọn dữ liệu (Data Selection); Chuyển đổi dữ liệu (Data Transformation). Công đoạn sau của Data Mining chính là: Đánh giá mẫu (Pattern Evaluation); Trình diễn dữ liệu (Knowlegde Presentation). Chúng tôi sẽ sơ đồ hóa để bạn đọc dễ hiểu hơn Data Mining là gì, Data Mining là công đoạn thứ bao nhiêu trong quá trình  làm sạch dữ liệu.

Data Cleaning => Data Integration => Data Selection => Data Transformation => Data Mining => Pattern Evaluation => Knowlegde Presentation.

Như vậy có thể thấy Data Mining chính là một “mắt xích” trong quá trình làm sạch dữ liệu trong các cơ sở dữ liệu. Nếu bạn đọc đang sử dụng nguồn dữ liệu lớn – Big Data thì quá trình khai phá chúng quả không dễ dàng gì bạn có thể mất nhiều thời gian hơn, nhiều nhân lực, chi phí cho hoạt động Data Mining trong Big Data của mình.

Tuy nhiên trường hợp một cá nhân sở hữu Big Data là khá hiếm nó chỉ thuộc về một doanh nghiệp tầm cỡ, rộng hơn là quy mô toàn cầu, dữ liệu toàn cầu… để giải thích khái niệm Big Data có nghĩa là gì bạn đọc có thể tham khảo bài viết Big Data là gì mà chúng tôi kỳ công nghiện cứu, thực hiện mới đây.