Link tải luận văn miễn phí cho ae Kết nối
Chương 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 Giới thiệu về khai phá dữ liệu:
Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn
bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Cụ thể hơn
đó là tiến trình trích lọc, sản sinh những tri thức hay những mẫu tiềm ẩn, chưa biết nhưng
hữu ích từ các cơ sở dữ liệu lớn. Đồng thời là tiến trình khái quát các sự kiện rời rạc trong
dữ liệu thành các tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực cho các tiến
trình ra quyết định. Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số
thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining
from database), trích lọc dữ liệu (Knowlegde extraction), phân tích dữ liệu/mẫu
(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data
dredredging). Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là
khám phá tri thức trong CSDL (Knowledge Discovery in Databases- KDD) là như nhau.
Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá
tri thức trong CSDL.
Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ
liệu được ví như tìm một cây kim trong đống cỏ khô. Trong ví dụ này, cây kim là một
mảnh nhỏ tri thức hay một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệu
rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ được chiết
xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu. Chức năng khai phá dữ liệu gồm
có gộp nhóm phân loại, dự báo, đoán và phân tích các liên kết.
Nguồn dữ liệu phục vụ cho KTDL có thể là các CSDL lớn hay các kho dữ liệu
(Datawarehouse) có hay không có cấu trúc. Các tác vụ khai phá dữ liệu có thể được phân
thành hai loại: miêu tả và dự báohay các đặc tính chung của dữ liệu trong CSDL hiện có.
Các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hoá
(visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân
tích luật kết hợp (association rules)…
- Các tác vụ khai phá miêu tả mô tả các đặc tính chung của dữ liệu trong cơ sở dữ liệu.
Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hay các đặc tính
chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm (clustering),
tóm tắt (summerization), trực quan hoá (visualiztion), phân tích sự phát triển và độ lệch
(Evolution and deviation analyst), phân tích luật kết hợp (association rules)…
-Các tác vụ khai phá dự báo thực hiện việc suy luận trên dữ liệu hiện thời để đưa ra
các dự báo. Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các đoán dựa vào
các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (classification), hồi
quy (regression)…
1.2 Các nhiệm vụ của khai phá dữ liệu:
Cho đến nay đã có rất nhiều công trình nghiên cứu và phát triển trong lĩnh vực khai phá
dữ liệu. Dựa trên những loại tri thức được khám phá, chúng ta có thể phân loại như theo
các nhiệm cụ như sau:
Khai phá luật thuộc tính: tóm tắt những thuộc tính chung của tập dữ liệu nào đó trong cơ
sở dữ liệu. Ví dụ như những triệu chứng của một căn bệnh S thì thường có thể được thể
hiện qua một tâp các thuộc tính A.
Khai phá những luật phân biệt: khai phá những đặc trưng, những thuộc tính để phân biệt
giữa tập dữ liệu này với tập dữ liệu khác. Ví dụ như nhằm phân biệt giữa các chứng bệnh
thì một luật phân biệt được dùng để tóm tắt những triệu chứng nhằm phân biệt chứng bệnh
xác định với những chứng bệnh khác.
Khám phá luật kết hợp: khai phá sự kết hợp giữa những đối tượng trong một tập dữ liệu.
Giả sử hai tập đối tượng {A1, A2,… ,An} và {B1, B2,… ,Bn} thì luật kết hợp có dạng
{A1^A2^…^ An) →{B1^ B2^… ^Bn).
Khám phá luật phân lớp: phân loại dữ liệu vào trong tập những lớp đã biết. Ví dụ như
một số chiếc xe có những đặc tính chung để phân vào các lớp dựa trên cách tiêu thụ nhiên
liệu hay có thể phân vào các lớp dựa trên trọng tải…
Phân nhóm: xác định một nhóm cho một tập các đối tượng dựa trên thuộc tính của
chúng. Một số các tiêu chuẩn được sử dụng để xác định đối tượng có thuộc về nhóm hay
không.
Dự báo: dự báo giá trị có thể đúng cuỷa những dữ liệu bị thiếu hay sự phân bố thuộc
tính nào đó trong tập dữ liệu.
Khám phá quy luật biến đổi: tìm những tập luật phản ánh những hành vi tiến hóa, biến
đổi chung của một tập dữ liệu. Ví dụ như luật khám phá những yếu tố chính tác động lên
sự thay đổi của những giá cổ phiếu nào đó.
1.3 Các loại dữ liệu được khai phá:
Khai phá dữ liệu thường làm việc với nhiều kiểu dữ liệu khác nhau. Hầu hết các
kiểu dữ liệu được khai phá là những kiểu sau:
Cơ sở dữ liệu quan hệ: những cơ sở dữ liệu được tổ chức theo mô hình quan hệ. Hầu hết
những hệ quản trị cơ sở dữ liệu hiện nay đều hỗ trợ mô hình
này như: Oracle, IBM DB2, MS SQL Server, MS Access…
Cơ sở dữ liệu đa chiều: cơ sở dữ liệu này được gọi là nhà kho dữ liệu,trong đó dữ liệu
được chọn từ nhiều ngồn khác nhau và chứa những đặc tính lịch sử thông qua thuộc tính
thời gian tường minh hay ngầm định.
Cơ sở dữ liệu giao tác: đây là loại cơ sở dữ liệu được sử dụng nhiều trong siêu thị,
thương mại, tài chính, ngân hàng…
Cơ sở dữ liệu quan hệ - hướng đố tượng: mô hình cơ sở dữ liệu này lai giữa mô hình
hướng đối tượng và mô hình cơ sở dữ liệu quan hệ.
Cơ sở dữ liệu thời gian, không gian: chứa những thông tin về không gian địa lý hay
thông tin theo thời gian.
Cơ sở dữ liệu đa phương tiện: loại dữ liệu này bao gồm: âm thanh, ảnh,video, văn bản và
nhiều kiểu dữ liệu định dạng khác. Ngày nay loại dữ liệu này được sử dụng nhiều trên
mạng Internet.
1.4 Lịch sử phát triển của Khai phá dữ liệu:
- Những năm 1960: Xuất hiện CSDL theo mô hình mạng và mô hình phân cấp.
- Những năm 1970: Thiết lập nền tẩng lý thuyết cho CSDL quan hệ, các hệ quản trị
CSDL quan hệ.
- Những năm 1980: Hoàn thiện lý thuyết về CSDL quan hệ và các hệ quản trị CSDL
quan hệ, xuất hiện các hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, ) và hệ
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
Chương 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 Giới thiệu về khai phá dữ liệu:
Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn
bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Cụ thể hơn
đó là tiến trình trích lọc, sản sinh những tri thức hay những mẫu tiềm ẩn, chưa biết nhưng
hữu ích từ các cơ sở dữ liệu lớn. Đồng thời là tiến trình khái quát các sự kiện rời rạc trong
dữ liệu thành các tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực cho các tiến
trình ra quyết định. Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số
thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining
from database), trích lọc dữ liệu (Knowlegde extraction), phân tích dữ liệu/mẫu
(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data
dredredging). Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là
khám phá tri thức trong CSDL (Knowledge Discovery in Databases- KDD) là như nhau.
Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá
tri thức trong CSDL.
Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ
liệu được ví như tìm một cây kim trong đống cỏ khô. Trong ví dụ này, cây kim là một
mảnh nhỏ tri thức hay một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệu
rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ được chiết
xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu. Chức năng khai phá dữ liệu gồm
có gộp nhóm phân loại, dự báo, đoán và phân tích các liên kết.
Nguồn dữ liệu phục vụ cho KTDL có thể là các CSDL lớn hay các kho dữ liệu
(Datawarehouse) có hay không có cấu trúc. Các tác vụ khai phá dữ liệu có thể được phân
thành hai loại: miêu tả và dự báohay các đặc tính chung của dữ liệu trong CSDL hiện có.
Các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hoá
(visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân
tích luật kết hợp (association rules)…
- Các tác vụ khai phá miêu tả mô tả các đặc tính chung của dữ liệu trong cơ sở dữ liệu.
Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hay các đặc tính
chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm (clustering),
tóm tắt (summerization), trực quan hoá (visualiztion), phân tích sự phát triển và độ lệch
(Evolution and deviation analyst), phân tích luật kết hợp (association rules)…
-Các tác vụ khai phá dự báo thực hiện việc suy luận trên dữ liệu hiện thời để đưa ra
các dự báo. Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các đoán dựa vào
các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (classification), hồi
quy (regression)…
1.2 Các nhiệm vụ của khai phá dữ liệu:
Cho đến nay đã có rất nhiều công trình nghiên cứu và phát triển trong lĩnh vực khai phá
dữ liệu. Dựa trên những loại tri thức được khám phá, chúng ta có thể phân loại như theo
các nhiệm cụ như sau:
Khai phá luật thuộc tính: tóm tắt những thuộc tính chung của tập dữ liệu nào đó trong cơ
sở dữ liệu. Ví dụ như những triệu chứng của một căn bệnh S thì thường có thể được thể
hiện qua một tâp các thuộc tính A.
Khai phá những luật phân biệt: khai phá những đặc trưng, những thuộc tính để phân biệt
giữa tập dữ liệu này với tập dữ liệu khác. Ví dụ như nhằm phân biệt giữa các chứng bệnh
thì một luật phân biệt được dùng để tóm tắt những triệu chứng nhằm phân biệt chứng bệnh
xác định với những chứng bệnh khác.
Khám phá luật kết hợp: khai phá sự kết hợp giữa những đối tượng trong một tập dữ liệu.
Giả sử hai tập đối tượng {A1, A2,… ,An} và {B1, B2,… ,Bn} thì luật kết hợp có dạng
{A1^A2^…^ An) →{B1^ B2^… ^Bn).
Khám phá luật phân lớp: phân loại dữ liệu vào trong tập những lớp đã biết. Ví dụ như
một số chiếc xe có những đặc tính chung để phân vào các lớp dựa trên cách tiêu thụ nhiên
liệu hay có thể phân vào các lớp dựa trên trọng tải…
Phân nhóm: xác định một nhóm cho một tập các đối tượng dựa trên thuộc tính của
chúng. Một số các tiêu chuẩn được sử dụng để xác định đối tượng có thuộc về nhóm hay
không.
Dự báo: dự báo giá trị có thể đúng cuỷa những dữ liệu bị thiếu hay sự phân bố thuộc
tính nào đó trong tập dữ liệu.
Khám phá quy luật biến đổi: tìm những tập luật phản ánh những hành vi tiến hóa, biến
đổi chung của một tập dữ liệu. Ví dụ như luật khám phá những yếu tố chính tác động lên
sự thay đổi của những giá cổ phiếu nào đó.
1.3 Các loại dữ liệu được khai phá:
Khai phá dữ liệu thường làm việc với nhiều kiểu dữ liệu khác nhau. Hầu hết các
kiểu dữ liệu được khai phá là những kiểu sau:
Cơ sở dữ liệu quan hệ: những cơ sở dữ liệu được tổ chức theo mô hình quan hệ. Hầu hết
những hệ quản trị cơ sở dữ liệu hiện nay đều hỗ trợ mô hình
này như: Oracle, IBM DB2, MS SQL Server, MS Access…
Cơ sở dữ liệu đa chiều: cơ sở dữ liệu này được gọi là nhà kho dữ liệu,trong đó dữ liệu
được chọn từ nhiều ngồn khác nhau và chứa những đặc tính lịch sử thông qua thuộc tính
thời gian tường minh hay ngầm định.
Cơ sở dữ liệu giao tác: đây là loại cơ sở dữ liệu được sử dụng nhiều trong siêu thị,
thương mại, tài chính, ngân hàng…
Cơ sở dữ liệu quan hệ - hướng đố tượng: mô hình cơ sở dữ liệu này lai giữa mô hình
hướng đối tượng và mô hình cơ sở dữ liệu quan hệ.
Cơ sở dữ liệu thời gian, không gian: chứa những thông tin về không gian địa lý hay
thông tin theo thời gian.
Cơ sở dữ liệu đa phương tiện: loại dữ liệu này bao gồm: âm thanh, ảnh,video, văn bản và
nhiều kiểu dữ liệu định dạng khác. Ngày nay loại dữ liệu này được sử dụng nhiều trên
mạng Internet.
1.4 Lịch sử phát triển của Khai phá dữ liệu:
- Những năm 1960: Xuất hiện CSDL theo mô hình mạng và mô hình phân cấp.
- Những năm 1970: Thiết lập nền tẩng lý thuyết cho CSDL quan hệ, các hệ quản trị
CSDL quan hệ.
- Những năm 1980: Hoàn thiện lý thuyết về CSDL quan hệ và các hệ quản trị CSDL
quan hệ, xuất hiện các hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, ) và hệ
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links
Tags: Tài liệu giáo trình môn kho và khai phá dữ liệu, BÁO CÁO GIỚI THIỆU VỀ DỮ LIỆU LỚN, bài tập lớn môn khai phá dữ liệu, Mô tả về kiểu dữ liệu và ý nghĩa các thuộc tính trong tập dữ liệu, bài tập lớn khai phá dữ liệu, kết quả báo cáo khai phá dữ liệu, ôn tập nhập môn kho dữ liệu và khai phá dữ liệu, báo cáo môn khai phá dữ liệu