c0behaykh0c118
New Member
Link tải luận văn miễn phí cho ae Kết Nối
BẢN TÓM TẮT
This paper introduces fundamentals of Data Mining, including recommended definitions and
applied process. Common tasks and applications in Data Mining are also mentioned. Finally, the paper
discusses research trends in our faculty.
ABSTRACT
Bài báo giới thiệu những nét cơ bản của Khai phá Dữ liệu, bao gồm các định nghĩa đã được đề
nghị và quá trình áp dụng. Các bài toán và các ứng dụng thông dụng trong Khai phá Dữ liệu cũng
được đề cập đến. Cuối cùng, bài báo trình bày các hướng nghiên cứu đang được quan tâm phát triển
tại khoa chúng tôi.
1. GIỚI THIỆU
Trong thời đại ngày nay, với sự phát triển
vượt bật của công nghệ thông tin, các hệ thống
thông tin có thể lưu trữ một khối lượng lớn dữ
liệu về hoạt động hàng ngày của chúng. Từ khối
dữ liệu này, các kỹ thuật trong Khai Phá Dữ
Liệu (KPDL) và Máy Học (MH) có thể dùng để
trích xuất những thông tin hữu ích mà chúng ta
chưa biết. Các tri thức vừa học được có thể vận
dụng để cải thiện hiệu quả hoạt động của hệ
thống thông tin ban đầu.
Giáo sư Tom Mitchell [15] đã đưa ra định
nghĩa của KPDL như sau: “KPDL là việc sử
dụng dữ liệu lịch sử để khám phá những qui tắc
và cải thiện những quyết định trong tương lai.”
Với một cách tiếp cận ứng dụng hơn, Tiến sĩ
Fayyad [5] đã phát biểu: “KPDL, thường được
xem là việc khám phá tri thức trong các cơ sở dữ
liệu, là một quá trình trích xuất những thông tin
ẩn, trước đây chưa biết và có khả năng hữu ích,
dưới dạng các qui luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.” Nói tóm lại, KPDL là một quá
trình học tri thức mới từ những dữ liệu đã thu
thập được [7, 8, 12].
Nội dung của bài báo này được tổ chức như
sau. Phần 2 trình bày về quá trình KPDL. Các
bài toán thông dụng trong KPDL được trình bày
trong phần 3. Các môi trường KPDL được giới
thiệu trong phần 4. Phần 5 bàn về sự khác biệt
và tương đồng giữa KPDL và MH. Các ứng
dụng của KPDL được nói trong phần 6. Phần 7
nêu kết luận và những hướng nghiên cứu đang
được quan tâm ở khoa chúng tôi.
2. QUÁ TRÌNH KPDL
Một quá trình KPDL bao gồm năm giai đoạn
chính sau [3]:
(1) Tìm hiểu nghiệp vụ và dữ liệu
(2) Chuẩn bị dữ liệu
(3) Mô hình hóa dữ liệu
(4) Hậu xử lý và đánh giá mô hình
(5) Triển khai tri thức
Quá trình này có thể được lặp lại nhiều lần
một hay nhiều giai đoạn dựa trên phản hồi từ kết
quả của các giai đoạn sau. Tham gia chính trong
quá trình KPDL là các nhà tư vấn (NTV) và
phát triển chuyên nghiệp trong lĩnh vực KPDL.
Doc.edu.vnKỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp. HCM, Phân ban CNTT
12
Trong giai đoạn đầu tiên, Tìm hiểu nghiệp
vụ và dữ liệu, NTV nghiên cứu kiến thức về
lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu
trúc về hệ thống và tri thức, các nguồn dữ liệu
hiện hữu, ý nghĩa, vai trò và tầm quan trọng của
các thực thể dữ liệu. Việc nghiên cứu này được
thực hiện qua việc tiếp xúc giữa NTV và người
dùng. Khác với phương pháp giải quyết vấn đề
truyền thống khi bài toán được xác định chính
xác ở bước đầu tiên, NTV tìm hiểu các yêu cầu
sơ khởi của người dùng và đề nghị các bài toán
tiềm năng có thể giải quyết với nguồn dữ liệu
hiện hữu. Tập các bài toán tiềm năng được tinh
chỉnh và làm hẹp lại trong các giai đoạn sau.
Các nguồn và đặc tả dữ liệu có liên quan đến tập
các bài toán tiềm năng cũng được xác định.
Giai đoạn Chuẩn bị dữ liệu sử dụng các kỹ
thuật tiền xử lý để biến đổi và cải thiện chất
lượng dữ liệu để thích hợp với những yêu cầu
của các giải thuật học. Phần lớn các giải thuật
KPDL hiện nay chỉ làm việc trên một tập dữ liệu
đơn và phẳng, do đó dữ liệu phải được trích xuất
và biến đối từ các dạng cơ sơ dữ liệu phân bố,
quan hệ hay hướng đối tượng sang dạng cơ sở
dữ liệu quan hệ đơn giản với một bảng dữ liệu.
Các giải thuật tiền xử lý tiêu biểu bao gồm:
(a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu
bị thiếu sẽ được thay thế bởi các giá trị
thích hợp.
(b) Khử sự trùng lắp: các đối tượng dữ liệu
trùng lắp sẽ bị loại bỏ đi. Kỹ thuật này
không được sử dụng cho các tác vụ có
quan tâm đến phân bố dữ liệu.
(c) Giảm nhiễu: nhiễu và các đối tượng tách
rời (outlier) khỏi phân bố chung sẽ bị
loại đi khỏi dữ liệu.
(d) Chuẩn hóa: miền giá trị của dữ liệu sẽ
được chuẩn hóa.
(e) Rời rạc hóa: các dữ liệu số sẽ được biến
đổi ra các giá trị rời rạc.
(f) Rút trích và xây dựng đặc trưng mới từ
các thuộc tính đã có.
(g) Giảm chiều: các thuộc tính chứa ít thông
tin sẽ được loại bỏ bớt.
Các bài toán được giải quyết trong giai đoạn
Mô hình hóa dữ liệu. Các giải thuật học sử
dụng các dữ liệu đã được tiền xử lý trong giai
đoạn hai để tìm kiếm các qui tắc ẩn và chưa biết.
Công việc quan trọng nhất trong giai đoạn này là
lựa chọn kỹ thuật phù hợp để giải quyết các vấn
đề đặt ra. Các bài toán được phân loại vào một
trong những nhóm bài toán chính trong KPDL
dựa trên đặc tả của chúng. Các bài toán chính
trong KPDL sẽ được trình bày chi tiết trong
phần 3 của bài báo.
Các mô hình kết quả của giai đoạn ba sẽ
được hậu xử lý và đánh giá trong giai đoạn 4.
Dựa trên các đánh giá của người dùng sau khi
kiểm tra trên các tập thử, các mô hình sẽ được
tinh chỉnh và kết hợp lại nếu cần. Chỉ các mô
hình đạt được mức yêu cầu cơ bản của người
dùng mới đưa ra triển khai trong thực tế. Trong
giai đoạn này, các kết quả được biến đổi từ dạng
học thuật sang dạng phù hợp với nghiệp vụ và
dễ hiểu hơn cho người dùng.
Trong giai đoạn cuối, Triển khai tri thức,
các mô hình được đưa vào những hệ thống
thông tin thực tế dưới dạng các môđun hỗ trợ
việc đưa ra quyết định.
Mối quan hệ chặt chẽ giữa các giai đoạn
trong quá trình KPDL là rất quan trọng cho việc
nghiên cứu trong KPDL. Một giải thuật trong
KPDL không thể được phát triển độc lập, không
quan tâm đến bối cảnh áp dụng mà thường được
xây dựng để giải quyết một mục tiêu cụ thể. Do
đó, sự hiểu biết bối cảnh vận dụng là rất cần
thiết. Thêm vào đó, các kỹ thuật được sử dụng
trong các giai đoạn trước có thể ảnh hưởng đến
hiệu quả của các giải thuật sử dụng trong các
giai đoạn tiếp theo.
3. CÁC BÀI TOÁN THÔNG DỤNG
TRONG KPDL
Trong KPDL, các bài toán có thể phân thành
bốn loại chính [18].
Bài toán thông dụng nhất trong KPDL là
Phân lớp (Classification). Với một tập các dữ
liệu huấn luyện cho trước và sự huấn luyện của
con người, các giải thuật phân loại sẽ học ra bộ
phân loại (classifier) dùng để phân các dữ liệu
mới vào một trong những lớp (còn gọi là loại)
đã được xác định trước. Nhận dạng cũng là một
bài toán thuộc kiểu Phân loại.
Với mô hình học tương tự như bài toán Phân
loại, lớp bài toán đoán (Prediction) sẽ học ra
các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự
đoán sẽ dựa trên thông tin đang có để đưa ra một
giá trị số học cho hàm cần dự đoán. Bài toán
Doc.edu.vn
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phiKỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp. HCM, Phân ban CNTT
13
tiêu biểu trong nhóm này là đoán giá sản
phẩm để lập kế hoạch trong kinh doanh.
Các giải thuật Tìm luật liên kết
(Association Rule) tìm kiếm các mối liên kết
giữa các phần tử dữ liệu, ví dụ như nhóm các
món hàng thường được mua kèm với nhau trong
siêu thị.
Các kỹ thuật Phân cụm (Clustering) sẽ
nhóm các đối tượng dữ liệu có tính chất giống
nhau vào cùng một nhóm. Có nhiều cách tiếp
cận với những mục tiêu khác nhau trong phân
loại. Các tài liệu [1, 4, 6, 7, 11] giới thiệu khá
đầy đủ và chi tiết về các cách tiếp cận trong
Phân cụm. Các kỹ thuật trong bài toán này
thường được vận dụng trong vấn đề phân hoạch
dữ liệu tiếp thị hay khảo sát sơ bộ các dữ liệu.
4. CÁC MÔI TRƯỜNG KPDL
Do các đặc tính được nêu ra trong phần 2,
các công cụ KPDL thường được xây dựng theo
dạng môi phát triển, dễ thử nghiệm và thay đổi
các tác vụ KPDL. Hình 1 giới thiệu giao diện
trực quan của một quá trình KPDL trong môi
trường Clementine [10].
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
BẢN TÓM TẮT
This paper introduces fundamentals of Data Mining, including recommended definitions and
applied process. Common tasks and applications in Data Mining are also mentioned. Finally, the paper
discusses research trends in our faculty.
ABSTRACT
Bài báo giới thiệu những nét cơ bản của Khai phá Dữ liệu, bao gồm các định nghĩa đã được đề
nghị và quá trình áp dụng. Các bài toán và các ứng dụng thông dụng trong Khai phá Dữ liệu cũng
được đề cập đến. Cuối cùng, bài báo trình bày các hướng nghiên cứu đang được quan tâm phát triển
tại khoa chúng tôi.
1. GIỚI THIỆU
Trong thời đại ngày nay, với sự phát triển
vượt bật của công nghệ thông tin, các hệ thống
thông tin có thể lưu trữ một khối lượng lớn dữ
liệu về hoạt động hàng ngày của chúng. Từ khối
dữ liệu này, các kỹ thuật trong Khai Phá Dữ
Liệu (KPDL) và Máy Học (MH) có thể dùng để
trích xuất những thông tin hữu ích mà chúng ta
chưa biết. Các tri thức vừa học được có thể vận
dụng để cải thiện hiệu quả hoạt động của hệ
thống thông tin ban đầu.
Giáo sư Tom Mitchell [15] đã đưa ra định
nghĩa của KPDL như sau: “KPDL là việc sử
dụng dữ liệu lịch sử để khám phá những qui tắc
và cải thiện những quyết định trong tương lai.”
Với một cách tiếp cận ứng dụng hơn, Tiến sĩ
Fayyad [5] đã phát biểu: “KPDL, thường được
xem là việc khám phá tri thức trong các cơ sở dữ
liệu, là một quá trình trích xuất những thông tin
ẩn, trước đây chưa biết và có khả năng hữu ích,
dưới dạng các qui luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.” Nói tóm lại, KPDL là một quá
trình học tri thức mới từ những dữ liệu đã thu
thập được [7, 8, 12].
Nội dung của bài báo này được tổ chức như
sau. Phần 2 trình bày về quá trình KPDL. Các
bài toán thông dụng trong KPDL được trình bày
trong phần 3. Các môi trường KPDL được giới
thiệu trong phần 4. Phần 5 bàn về sự khác biệt
và tương đồng giữa KPDL và MH. Các ứng
dụng của KPDL được nói trong phần 6. Phần 7
nêu kết luận và những hướng nghiên cứu đang
được quan tâm ở khoa chúng tôi.
2. QUÁ TRÌNH KPDL
Một quá trình KPDL bao gồm năm giai đoạn
chính sau [3]:
(1) Tìm hiểu nghiệp vụ và dữ liệu
(2) Chuẩn bị dữ liệu
(3) Mô hình hóa dữ liệu
(4) Hậu xử lý và đánh giá mô hình
(5) Triển khai tri thức
Quá trình này có thể được lặp lại nhiều lần
một hay nhiều giai đoạn dựa trên phản hồi từ kết
quả của các giai đoạn sau. Tham gia chính trong
quá trình KPDL là các nhà tư vấn (NTV) và
phát triển chuyên nghiệp trong lĩnh vực KPDL.
Doc.edu.vnKỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp. HCM, Phân ban CNTT
12
Trong giai đoạn đầu tiên, Tìm hiểu nghiệp
vụ và dữ liệu, NTV nghiên cứu kiến thức về
lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu
trúc về hệ thống và tri thức, các nguồn dữ liệu
hiện hữu, ý nghĩa, vai trò và tầm quan trọng của
các thực thể dữ liệu. Việc nghiên cứu này được
thực hiện qua việc tiếp xúc giữa NTV và người
dùng. Khác với phương pháp giải quyết vấn đề
truyền thống khi bài toán được xác định chính
xác ở bước đầu tiên, NTV tìm hiểu các yêu cầu
sơ khởi của người dùng và đề nghị các bài toán
tiềm năng có thể giải quyết với nguồn dữ liệu
hiện hữu. Tập các bài toán tiềm năng được tinh
chỉnh và làm hẹp lại trong các giai đoạn sau.
Các nguồn và đặc tả dữ liệu có liên quan đến tập
các bài toán tiềm năng cũng được xác định.
Giai đoạn Chuẩn bị dữ liệu sử dụng các kỹ
thuật tiền xử lý để biến đổi và cải thiện chất
lượng dữ liệu để thích hợp với những yêu cầu
của các giải thuật học. Phần lớn các giải thuật
KPDL hiện nay chỉ làm việc trên một tập dữ liệu
đơn và phẳng, do đó dữ liệu phải được trích xuất
và biến đối từ các dạng cơ sơ dữ liệu phân bố,
quan hệ hay hướng đối tượng sang dạng cơ sở
dữ liệu quan hệ đơn giản với một bảng dữ liệu.
Các giải thuật tiền xử lý tiêu biểu bao gồm:
(a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu
bị thiếu sẽ được thay thế bởi các giá trị
thích hợp.
(b) Khử sự trùng lắp: các đối tượng dữ liệu
trùng lắp sẽ bị loại bỏ đi. Kỹ thuật này
không được sử dụng cho các tác vụ có
quan tâm đến phân bố dữ liệu.
(c) Giảm nhiễu: nhiễu và các đối tượng tách
rời (outlier) khỏi phân bố chung sẽ bị
loại đi khỏi dữ liệu.
(d) Chuẩn hóa: miền giá trị của dữ liệu sẽ
được chuẩn hóa.
(e) Rời rạc hóa: các dữ liệu số sẽ được biến
đổi ra các giá trị rời rạc.
(f) Rút trích và xây dựng đặc trưng mới từ
các thuộc tính đã có.
(g) Giảm chiều: các thuộc tính chứa ít thông
tin sẽ được loại bỏ bớt.
Các bài toán được giải quyết trong giai đoạn
Mô hình hóa dữ liệu. Các giải thuật học sử
dụng các dữ liệu đã được tiền xử lý trong giai
đoạn hai để tìm kiếm các qui tắc ẩn và chưa biết.
Công việc quan trọng nhất trong giai đoạn này là
lựa chọn kỹ thuật phù hợp để giải quyết các vấn
đề đặt ra. Các bài toán được phân loại vào một
trong những nhóm bài toán chính trong KPDL
dựa trên đặc tả của chúng. Các bài toán chính
trong KPDL sẽ được trình bày chi tiết trong
phần 3 của bài báo.
Các mô hình kết quả của giai đoạn ba sẽ
được hậu xử lý và đánh giá trong giai đoạn 4.
Dựa trên các đánh giá của người dùng sau khi
kiểm tra trên các tập thử, các mô hình sẽ được
tinh chỉnh và kết hợp lại nếu cần. Chỉ các mô
hình đạt được mức yêu cầu cơ bản của người
dùng mới đưa ra triển khai trong thực tế. Trong
giai đoạn này, các kết quả được biến đổi từ dạng
học thuật sang dạng phù hợp với nghiệp vụ và
dễ hiểu hơn cho người dùng.
Trong giai đoạn cuối, Triển khai tri thức,
các mô hình được đưa vào những hệ thống
thông tin thực tế dưới dạng các môđun hỗ trợ
việc đưa ra quyết định.
Mối quan hệ chặt chẽ giữa các giai đoạn
trong quá trình KPDL là rất quan trọng cho việc
nghiên cứu trong KPDL. Một giải thuật trong
KPDL không thể được phát triển độc lập, không
quan tâm đến bối cảnh áp dụng mà thường được
xây dựng để giải quyết một mục tiêu cụ thể. Do
đó, sự hiểu biết bối cảnh vận dụng là rất cần
thiết. Thêm vào đó, các kỹ thuật được sử dụng
trong các giai đoạn trước có thể ảnh hưởng đến
hiệu quả của các giải thuật sử dụng trong các
giai đoạn tiếp theo.
3. CÁC BÀI TOÁN THÔNG DỤNG
TRONG KPDL
Trong KPDL, các bài toán có thể phân thành
bốn loại chính [18].
Bài toán thông dụng nhất trong KPDL là
Phân lớp (Classification). Với một tập các dữ
liệu huấn luyện cho trước và sự huấn luyện của
con người, các giải thuật phân loại sẽ học ra bộ
phân loại (classifier) dùng để phân các dữ liệu
mới vào một trong những lớp (còn gọi là loại)
đã được xác định trước. Nhận dạng cũng là một
bài toán thuộc kiểu Phân loại.
Với mô hình học tương tự như bài toán Phân
loại, lớp bài toán đoán (Prediction) sẽ học ra
các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự
đoán sẽ dựa trên thông tin đang có để đưa ra một
giá trị số học cho hàm cần dự đoán. Bài toán
Doc.edu.vn
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phiKỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp. HCM, Phân ban CNTT
13
tiêu biểu trong nhóm này là đoán giá sản
phẩm để lập kế hoạch trong kinh doanh.
Các giải thuật Tìm luật liên kết
(Association Rule) tìm kiếm các mối liên kết
giữa các phần tử dữ liệu, ví dụ như nhóm các
món hàng thường được mua kèm với nhau trong
siêu thị.
Các kỹ thuật Phân cụm (Clustering) sẽ
nhóm các đối tượng dữ liệu có tính chất giống
nhau vào cùng một nhóm. Có nhiều cách tiếp
cận với những mục tiêu khác nhau trong phân
loại. Các tài liệu [1, 4, 6, 7, 11] giới thiệu khá
đầy đủ và chi tiết về các cách tiếp cận trong
Phân cụm. Các kỹ thuật trong bài toán này
thường được vận dụng trong vấn đề phân hoạch
dữ liệu tiếp thị hay khảo sát sơ bộ các dữ liệu.
4. CÁC MÔI TRƯỜNG KPDL
Do các đặc tính được nêu ra trong phần 2,
các công cụ KPDL thường được xây dựng theo
dạng môi phát triển, dễ thử nghiệm và thay đổi
các tác vụ KPDL. Hình 1 giới thiệu giao diện
trực quan của một quá trình KPDL trong môi
trường Clementine [10].
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links
Last edited by a moderator: