Link tải luận văn miễn phí cho ae Kết Nối
GIỚI THIỆU
Chúng ta đang sống trong thời đại của nền kinh tế trí thức. Mọi hoạt động của ta muốn đạt hiệu quả cao thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác.
Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của thực tế nghiên cứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công vượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ giải quyết những xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn. Các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Những hệ thống thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin.
Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống thông tin hiện thời.
Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhiều lĩnh vực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu lớn và đa dạng đó được?
Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệu cần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau. Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Không thể sử dụng được dữ liệu tìm thấy
Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau là không đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rất khó khăn.
Duy trì những chương trình này gặp rất nhiều vấn đề. Một thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ. Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ ràng hay là không xác định được. Do sự phức tạp của công việc chuyển đổi cũng như toàn bộ quá trình bảo trì dẫn đến mã nguồn của các chương trình trở nên hết sức phức tạp. Khối lượng dữ liệu lưu trữ tăng rất nhanh. Không kiểm soát được khả năng chồng chéo dữ liệu trong các môi trường thông tin dẫn đến khối lượng dữ liệu tăng nhanh. Quản trị dữ liệu phức tạp. Thiếu những định nghĩa chuẩn, thống nhất về dữ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin. Một thành phần dữ liệu tồn tại ở nhiều nguồn khác nhau
Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa dữ liệu
CHƯƠNG 1: KHO DỮ LIỆU
I. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
1.1 Kho dữ liệu
Kho dữ liệu (Data Warehouse - DW) là tập hợp các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng tạo quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể.
Kho dữ liệu thường rất lớn, nó được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các hoạt động hàng ngày và được thu thập xử lí để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp (operational data) và hoạt động thu thập xử lí loại dữ liệu này được gọi là xử lí giao dịch trực tuyến (On_line Transaction Processing - OLPT). Ngược lại, kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập xử lí dữ liệu loại này còn gọi là hệ xử lí phân tích trực tuyến (On_Line Analytical Processing - OLAP).
Theo John Ladley, công nghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau.
1.2 Mục đích của kho dữ liệu
Mục đích của kho dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin của NSD. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình. Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.
Yêu cầu đối với kho dữ liệu: Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định. Tổng hợp và kết nối dữ liệu. Đồng bộ hoá các nguồn dữ liệu với DW. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. Quản lí siêu dữ liệu. Cung cấp thông tin được tích hợp, tóm tắt hay được liên kết, tổ chức theo các chủ đề. Dùng trong các hệ thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hay hỗ trợ cho các truy vấn đặc biệt.
1.3 Đặc điểm của dữ liệu trong kho dữ liệu
1.3.1/ Tính tích hợp (Integration):
Dữ liệu trong DW được tổ chức theo nhiều cách khác nhau sao cho phù hợp với các qui ước đặt tên, thống nhất về số đo, cơ cấu mã hoá và cấu trúc vật lý của dữ liệu, v.v. Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó.
Tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ liệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
1.3.2/ Hướng chủ đề
Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ chức dễ dàng xác định được những thông tin cần thiết trong từng hoạt động của mình. Điều này dẫn đến nội dung dữ liệu được lưu trữ trong DW không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định.
1.3.3/ Dữ liệu có tính lịch sử
Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Dữ liệu được lưu trữ thành một loạt các snapshot (ảnh chụp dữ liệu), mỗi bản ghi phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn của một chủ điểm trong một giai đoạn. Do vậy cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu.
Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu. Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ.
1.3.4/ Dữ liệu có tính ổn định (nonvolatility)
Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai thao tác cơ bản: Nạp dữ liệu vào kho và truy cập vào vào các vùng trong DW.
1.3.5/ Dữ liệu không biến động
Thông tin trong DW được tải vào sau khi dữ liệu trong hệ thống điều hành được đánh giá là quá cũ. Tính không biến động thể hiện ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời
8.3 Các server OLAP và các công cụ
1/ Đặc điểm và các chức năng: OLAP là công nghệ xử lí phân tích trực tuyến tạo ra và đưa ra những thông tin mới từ những dữ liệu đang tồn tại thông qua những công thức tính toán và những luật chuyển đổi. Các công cụ và OLAP Server thực hiện các công việc sau:
-Hỗ trợ nhiều chiều và sự phân cấp của mỗi một trong những chiều đó.
-Kết hợp, tổng kết, tính toán trước và kết xuất ra những dữ liệu theo một chiều hay một tập các chiều đã được lựa chọn.
-Áp dụng những tính toán logic, công thức và những thủ tục phân tích đối với một hay một tập các chiều đã được lựa chọn.
-Hỗ trợ khái niệm về mô hình phân tích tập các chiều và những nguyên tố cấu thành, logic tính toán, các công thức, các thủ tục phân tích và những dữ liệu kết xuất, tổng kết, kết hợp.
-Cung cấp một thư viện chức năng.
-Cung cấp khả năng tính toán và so sánh phân tích mạnh
-Thực hiện những tính toán chéo giữa các chiều
-Cung cấp những dịch vụ thông minh về thời gian
-Chuyển đổi một chiều thành một chiều khác, cụ thể rất có ích sau khi hoà hợp hay thu nhận.
-Định hướng xem xét và phân tích sử dụng quay, xem chéo, khoan sâu, kéo lên theo một hay nhiều chiều.
-Những xử lí phân tích là nhu cầu rất cần thiết của ngưới sử dụng vì vậy những xử lí phân tích cần trơn tru không bị ngắt quãng.
2/ Truy nhập tới những đặc tính và chức năng: Giao diện và truy nhập tới các dịch vụ của OLAP của người sử dụng phải cung cấp nhiều lựa chọn và phải thúc đẩy sự hiểu biết của người sử dụng và khả năng nhúng tri thức vào mô hình phân tích OLAP. Những khả năng lựa chọn bao gồm:
• Bảng tính: ít nhất người sử dụng phải có thể tải dữ liệu OLAP vào công cụ bảng tính của họ cho việc tạo báo cáo và phân tích thêm.
• Các công cụ Client độc quyền: tuỳ từng trường hợp vào một ứng công cụ thể
• Các công cụ thuộc nhóm thứ 3: Hỗ trợ API (Application Programming Interface) của Server OLAP (nếu API là độc quyền thì cần có một cơ chế khoá cho OLAP server đó).
• Môi trường 4 GL (môi trường dùng ngôn ngữ lập trình thế hệ thứ 4): phải hỗ trợ cho tất cả các chức năng và đặc điểm của OLAP Server.
• Giao tiếp với chuẩn defacto: là những môi trường ứng dụng ví dụ như VB, Power Builder và những giao diện như OLE, DDE...
• Client định hướng khối: Những công cụ thuộc nhóm thứ 3 mà giao tiếp được với các dịch vụ của OLAP.
Để tạo khả năng nhúng tri thức vào mô hình phân tích, giao diện truy nhập phải thực hiện các công việc sau:
• Truy nhập và lọc ra những tập con dữ liệu dựa vào sự phân cấp, mô hình, thời gian và những chiều được lựa chọn khác.
• Truy nhập tới nhiều mức của sự phân cấp với một yêu cầu chiết lọc đơn.
• Nhận thức được những dữ liệu tổng kết và kết hợp, phân chia và những tệp chỉ số để tạo ra những truy vấn đúng.
• Tối ưu một cơ sở dữ liệu quan hệ cụ thể bao gồm những mở rộng SQL của nó khi truy nhập vào một kho dữ liệu quan hệ.
1. Mô tơ dịch vụ OLAP: Mô tơ của các dịch vụ OLAP trong kiến trúc với một kho dữ liệu quan hệ hay một kho dữ liệu đa chiều đều phải thoả những đặc điểm về công nghệ, tính ổn định và năng suất của mô hình và ứng dụng phân tích đã được lập. Vấn đề năng suất và tính ổn định đã được bàn tới trong những phần trên. Còn những đặc điểm về công nghệ phụ thuộc vào mô hình phân tích và việc sử dụng đã được dự định từ trước. Một số những đặc điểm đó là:
• Khả năng ghi-đọc: liên quan tới các ứng dụng tương tác giữa dự báo và điều chỉnh ngân sách.
• Nhiều người cùng ghi: để hỗ trợ cho sự cùng phân tích đa chiều của một nhóm người. Giải quyết điều này khó khăn hơn là đối với cơ sở dữ liệu quan hệ. Thay vì công việc chỉ liên quan tới một hàng hay một bảng, một yêu cầu cập nhật hay yêu cầu ghi của OLAP đòi hỏi việc tính toán lại những giá trị đã được kết xuất và tính toán, ảnh hưởng nhiều tới các chiều và sự phân cấp trong các chiều đó. Phạm vi của khoá ghi có thể rất rông và việc tính toán lại có thể tập trung vào các phép toán nên thời gian khoá rất dài khiến cho công suất thực hiện thấp.
• Nhiều cơ sở dữ liệu: Nếu chỉ có một cơ sở dữ liệu cho mỗi ứng dụng OLAP thì đòi hỏi một cơ chế tương tác bởi vì dữ liệu được kết xuất từ một cơ sở dữ liệu cho ứng dụng này có thể là đầu vào của một ứng dụng khác.
• Phạm vi của kiểu dữ liệu: xuất phát từ số, tới thời gian, tới những mô tả (cho những mục đích báo cáo và hiển thị) tới BLOB. Hơn nữa là các kiểu hình ảnh có thể cải thiện sự giao tiếp của những phân tích phức tạp.
2. Khả năng quản trị: Những chức năng quản trị cần cho việc chuẩn bị, cài đặt và các mục đích thực hiện sẽ diễn ra sau đó bao gồm:
• Định nghĩa mô hình phân tích theo chiều.
• Tạo ra và duy trì kho siêu dữ liệu
• Kiểm soát truy nhập và mức ưu tiên sử dụng. Vấn đề cần quan tâm ở đây là người sử dụng muốn làm gì và những ai có thể truy nhập vào mô hình phân tích và dữ liệu của nó.
• Tải mô hình phân tích từ DW hay DM.
• Điều chỉnh công suất tới mức chấp nhận được cho phép những quá trình phân tích không bị ngắt quãng.
• Tổ chức lại cơ sở dữ liệu để cải thiện công suất, thay đổi mô hình theo chiều hay cập nhật dữ liệu.
• Quản lí tất cả các phần của hệ thống bao gồm cả phần cứng trung gian. Kiến trúc tham chiếu cung cấp một cách để hiểu được phạm vi của nhiệm vụ quản lí các hệ thống một cách có trật tự.
• Phân tán dữ liệu tới các client để dùng cho những phân tích thêm ở địa phương (Client đó)
3. Kiến trúc tổng thể: Từ khung nhìn kiến trúc tổng thể, không thể có một sự lựa chọn đơn giản giữa một kho dữ liệu đa chiều với kho dữ liệu quan hệ. Người sử dụng cần cung cấp những tiêu chí để có thể tạo ra một sự lựa chọn đúng đắn.
Xu hướng hiện nay là cung cấp những dịch vụ OLAP kết hợp với Server OLAP ở một đầu và một kho dữ liệu quan hệ ở đầu kia (với những dữ liệu chi tiết đã được làm sạch). Trong thực tế đã có một số công ty bắt đầu với một kho dữ liệu quan hệ sau đó tạo thêm một kho dữ liệu đa chiều khi cần thiết.
Trong cấu hình kiến trúc này, thông tin được truy nhập và những câu truy vấn một cách thường xuyên được tính toán trước, được tổng kết và kết hợp sau đó được lưu trữ trong kho dữ liệu đa chiều của OLAP Server. Nó có thể được thực hiện trong lần tải mô hình phân tích đầu tiên từ kho dữ liệu quan hệ DW hay DM. Những truy vấn phức tạp và tập trung nhiều vào tính toán hay những dữ liệu phức tạp được tính toán tạo ra từ những dữ liệu khác cũng được xử lí truớc và lưu trữ. Điều này làm cho tốc độ thực hiện rất nhanh.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
GIỚI THIỆU
Chúng ta đang sống trong thời đại của nền kinh tế trí thức. Mọi hoạt động của ta muốn đạt hiệu quả cao thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác.
Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của thực tế nghiên cứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công vượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ giải quyết những xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn. Các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường thông tin tăng lên. Những hệ thống thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin.
Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống thông tin hiện thời.
Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhiều lĩnh vực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu lớn và đa dạng đó được?
Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệu cần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau. Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Không thể sử dụng được dữ liệu tìm thấy
Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau là không đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rất khó khăn.
Duy trì những chương trình này gặp rất nhiều vấn đề. Một thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ. Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ ràng hay là không xác định được. Do sự phức tạp của công việc chuyển đổi cũng như toàn bộ quá trình bảo trì dẫn đến mã nguồn của các chương trình trở nên hết sức phức tạp. Khối lượng dữ liệu lưu trữ tăng rất nhanh. Không kiểm soát được khả năng chồng chéo dữ liệu trong các môi trường thông tin dẫn đến khối lượng dữ liệu tăng nhanh. Quản trị dữ liệu phức tạp. Thiếu những định nghĩa chuẩn, thống nhất về dữ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin. Một thành phần dữ liệu tồn tại ở nhiều nguồn khác nhau
Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa dữ liệu
CHƯƠNG 1: KHO DỮ LIỆU
I. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
1.1 Kho dữ liệu
Kho dữ liệu (Data Warehouse - DW) là tập hợp các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng tạo quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể.
Kho dữ liệu thường rất lớn, nó được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các hoạt động hàng ngày và được thu thập xử lí để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp (operational data) và hoạt động thu thập xử lí loại dữ liệu này được gọi là xử lí giao dịch trực tuyến (On_line Transaction Processing - OLPT). Ngược lại, kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập xử lí dữ liệu loại này còn gọi là hệ xử lí phân tích trực tuyến (On_Line Analytical Processing - OLAP).
Theo John Ladley, công nghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau.
1.2 Mục đích của kho dữ liệu
Mục đích của kho dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin của NSD. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình. Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.
Yêu cầu đối với kho dữ liệu: Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định. Tổng hợp và kết nối dữ liệu. Đồng bộ hoá các nguồn dữ liệu với DW. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. Quản lí siêu dữ liệu. Cung cấp thông tin được tích hợp, tóm tắt hay được liên kết, tổ chức theo các chủ đề. Dùng trong các hệ thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hay hỗ trợ cho các truy vấn đặc biệt.
1.3 Đặc điểm của dữ liệu trong kho dữ liệu
1.3.1/ Tính tích hợp (Integration):
Dữ liệu trong DW được tổ chức theo nhiều cách khác nhau sao cho phù hợp với các qui ước đặt tên, thống nhất về số đo, cơ cấu mã hoá và cấu trúc vật lý của dữ liệu, v.v. Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó.
Tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ liệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
1.3.2/ Hướng chủ đề
Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ chức dễ dàng xác định được những thông tin cần thiết trong từng hoạt động của mình. Điều này dẫn đến nội dung dữ liệu được lưu trữ trong DW không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định.
1.3.3/ Dữ liệu có tính lịch sử
Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Dữ liệu được lưu trữ thành một loạt các snapshot (ảnh chụp dữ liệu), mỗi bản ghi phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn của một chủ điểm trong một giai đoạn. Do vậy cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu.
Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu. Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ.
1.3.4/ Dữ liệu có tính ổn định (nonvolatility)
Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai thao tác cơ bản: Nạp dữ liệu vào kho và truy cập vào vào các vùng trong DW.
1.3.5/ Dữ liệu không biến động
Thông tin trong DW được tải vào sau khi dữ liệu trong hệ thống điều hành được đánh giá là quá cũ. Tính không biến động thể hiện ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời
8.3 Các server OLAP và các công cụ
1/ Đặc điểm và các chức năng: OLAP là công nghệ xử lí phân tích trực tuyến tạo ra và đưa ra những thông tin mới từ những dữ liệu đang tồn tại thông qua những công thức tính toán và những luật chuyển đổi. Các công cụ và OLAP Server thực hiện các công việc sau:
-Hỗ trợ nhiều chiều và sự phân cấp của mỗi một trong những chiều đó.
-Kết hợp, tổng kết, tính toán trước và kết xuất ra những dữ liệu theo một chiều hay một tập các chiều đã được lựa chọn.
-Áp dụng những tính toán logic, công thức và những thủ tục phân tích đối với một hay một tập các chiều đã được lựa chọn.
-Hỗ trợ khái niệm về mô hình phân tích tập các chiều và những nguyên tố cấu thành, logic tính toán, các công thức, các thủ tục phân tích và những dữ liệu kết xuất, tổng kết, kết hợp.
-Cung cấp một thư viện chức năng.
-Cung cấp khả năng tính toán và so sánh phân tích mạnh
-Thực hiện những tính toán chéo giữa các chiều
-Cung cấp những dịch vụ thông minh về thời gian
-Chuyển đổi một chiều thành một chiều khác, cụ thể rất có ích sau khi hoà hợp hay thu nhận.
-Định hướng xem xét và phân tích sử dụng quay, xem chéo, khoan sâu, kéo lên theo một hay nhiều chiều.
-Những xử lí phân tích là nhu cầu rất cần thiết của ngưới sử dụng vì vậy những xử lí phân tích cần trơn tru không bị ngắt quãng.
2/ Truy nhập tới những đặc tính và chức năng: Giao diện và truy nhập tới các dịch vụ của OLAP của người sử dụng phải cung cấp nhiều lựa chọn và phải thúc đẩy sự hiểu biết của người sử dụng và khả năng nhúng tri thức vào mô hình phân tích OLAP. Những khả năng lựa chọn bao gồm:
• Bảng tính: ít nhất người sử dụng phải có thể tải dữ liệu OLAP vào công cụ bảng tính của họ cho việc tạo báo cáo và phân tích thêm.
• Các công cụ Client độc quyền: tuỳ từng trường hợp vào một ứng công cụ thể
• Các công cụ thuộc nhóm thứ 3: Hỗ trợ API (Application Programming Interface) của Server OLAP (nếu API là độc quyền thì cần có một cơ chế khoá cho OLAP server đó).
• Môi trường 4 GL (môi trường dùng ngôn ngữ lập trình thế hệ thứ 4): phải hỗ trợ cho tất cả các chức năng và đặc điểm của OLAP Server.
• Giao tiếp với chuẩn defacto: là những môi trường ứng dụng ví dụ như VB, Power Builder và những giao diện như OLE, DDE...
• Client định hướng khối: Những công cụ thuộc nhóm thứ 3 mà giao tiếp được với các dịch vụ của OLAP.
Để tạo khả năng nhúng tri thức vào mô hình phân tích, giao diện truy nhập phải thực hiện các công việc sau:
• Truy nhập và lọc ra những tập con dữ liệu dựa vào sự phân cấp, mô hình, thời gian và những chiều được lựa chọn khác.
• Truy nhập tới nhiều mức của sự phân cấp với một yêu cầu chiết lọc đơn.
• Nhận thức được những dữ liệu tổng kết và kết hợp, phân chia và những tệp chỉ số để tạo ra những truy vấn đúng.
• Tối ưu một cơ sở dữ liệu quan hệ cụ thể bao gồm những mở rộng SQL của nó khi truy nhập vào một kho dữ liệu quan hệ.
1. Mô tơ dịch vụ OLAP: Mô tơ của các dịch vụ OLAP trong kiến trúc với một kho dữ liệu quan hệ hay một kho dữ liệu đa chiều đều phải thoả những đặc điểm về công nghệ, tính ổn định và năng suất của mô hình và ứng dụng phân tích đã được lập. Vấn đề năng suất và tính ổn định đã được bàn tới trong những phần trên. Còn những đặc điểm về công nghệ phụ thuộc vào mô hình phân tích và việc sử dụng đã được dự định từ trước. Một số những đặc điểm đó là:
• Khả năng ghi-đọc: liên quan tới các ứng dụng tương tác giữa dự báo và điều chỉnh ngân sách.
• Nhiều người cùng ghi: để hỗ trợ cho sự cùng phân tích đa chiều của một nhóm người. Giải quyết điều này khó khăn hơn là đối với cơ sở dữ liệu quan hệ. Thay vì công việc chỉ liên quan tới một hàng hay một bảng, một yêu cầu cập nhật hay yêu cầu ghi của OLAP đòi hỏi việc tính toán lại những giá trị đã được kết xuất và tính toán, ảnh hưởng nhiều tới các chiều và sự phân cấp trong các chiều đó. Phạm vi của khoá ghi có thể rất rông và việc tính toán lại có thể tập trung vào các phép toán nên thời gian khoá rất dài khiến cho công suất thực hiện thấp.
• Nhiều cơ sở dữ liệu: Nếu chỉ có một cơ sở dữ liệu cho mỗi ứng dụng OLAP thì đòi hỏi một cơ chế tương tác bởi vì dữ liệu được kết xuất từ một cơ sở dữ liệu cho ứng dụng này có thể là đầu vào của một ứng dụng khác.
• Phạm vi của kiểu dữ liệu: xuất phát từ số, tới thời gian, tới những mô tả (cho những mục đích báo cáo và hiển thị) tới BLOB. Hơn nữa là các kiểu hình ảnh có thể cải thiện sự giao tiếp của những phân tích phức tạp.
2. Khả năng quản trị: Những chức năng quản trị cần cho việc chuẩn bị, cài đặt và các mục đích thực hiện sẽ diễn ra sau đó bao gồm:
• Định nghĩa mô hình phân tích theo chiều.
• Tạo ra và duy trì kho siêu dữ liệu
• Kiểm soát truy nhập và mức ưu tiên sử dụng. Vấn đề cần quan tâm ở đây là người sử dụng muốn làm gì và những ai có thể truy nhập vào mô hình phân tích và dữ liệu của nó.
• Tải mô hình phân tích từ DW hay DM.
• Điều chỉnh công suất tới mức chấp nhận được cho phép những quá trình phân tích không bị ngắt quãng.
• Tổ chức lại cơ sở dữ liệu để cải thiện công suất, thay đổi mô hình theo chiều hay cập nhật dữ liệu.
• Quản lí tất cả các phần của hệ thống bao gồm cả phần cứng trung gian. Kiến trúc tham chiếu cung cấp một cách để hiểu được phạm vi của nhiệm vụ quản lí các hệ thống một cách có trật tự.
• Phân tán dữ liệu tới các client để dùng cho những phân tích thêm ở địa phương (Client đó)
3. Kiến trúc tổng thể: Từ khung nhìn kiến trúc tổng thể, không thể có một sự lựa chọn đơn giản giữa một kho dữ liệu đa chiều với kho dữ liệu quan hệ. Người sử dụng cần cung cấp những tiêu chí để có thể tạo ra một sự lựa chọn đúng đắn.
Xu hướng hiện nay là cung cấp những dịch vụ OLAP kết hợp với Server OLAP ở một đầu và một kho dữ liệu quan hệ ở đầu kia (với những dữ liệu chi tiết đã được làm sạch). Trong thực tế đã có một số công ty bắt đầu với một kho dữ liệu quan hệ sau đó tạo thêm một kho dữ liệu đa chiều khi cần thiết.
Trong cấu hình kiến trúc này, thông tin được truy nhập và những câu truy vấn một cách thường xuyên được tính toán trước, được tổng kết và kết hợp sau đó được lưu trữ trong kho dữ liệu đa chiều của OLAP Server. Nó có thể được thực hiện trong lần tải mô hình phân tích đầu tiên từ kho dữ liệu quan hệ DW hay DM. Những truy vấn phức tạp và tập trung nhiều vào tính toán hay những dữ liệu phức tạp được tính toán tạo ra từ những dữ liệu khác cũng được xử lí truớc và lưu trữ. Điều này làm cho tốc độ thực hiện rất nhanh.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links
Last edited by a moderator: