Download Luận án Tiếp cận máy học và hệ chuyên gia để nhận dạng, phát hiện virus máy tính

Download miễn phí Luận án Tiếp cận máy học và hệ chuyên gia để nhận dạng, phát hiện virus máy tính





MỤC LỤC
DANH MỤC BẢNG BIỂU. vi
DANH MỤC HÌNH ẢNH. vii
KÝ HIỆU VÀ VIẾT TẮT. ix
CHƯƠNG 1 - MỞ ĐẦU.1
1.1. Giới thiệu đềtài .1
1.1.1. Lý do chọn đềtài .1
1.1.2. Mục tiêu của đềtài.2
1.1.3. Các giai đoạn thực hiện đềtài.2
1.2. Đối tượng, phạm vi nghiên cứu của đềtài.3
1.2.1. Virus máy tính và các hệthống đích .3
1.2.2. Các hệhọc và khám phá tri thức .3
1.2.3. Các hệchuyên gia .4
1.3. Ý nghĩa khoa học và thực tiễn của đềtài .4
1.4. Cấu trúc của luận án.5
CHƯƠNG 2 – CÁC CƠCHẾCHẨN ĐOÁN VIRUS MÁY TÍNH VÀ MỘT
SỐVẤN ĐỀLIÊN QUAN.7
2.1. Khảo sát virus máy tính .7
2.2. Các cơchếchẩn đoán virus máy tính .9
2.2.1. Phát hiện virus dựa vào chuỗi nhận dạng .11
2.2.2. Phát hiện virus dựa vào hành vi.11
2.2.3. Phát hiện virus dựa vào ý định .12
2.3. Các hệphòng chống virus máy tính.12
2.3.1. Các sản phẩm trong nước .12
2.3.2. Các sản phẩm nước ngoài .13
2.4. Tình hình nghiên cứu virus máy tính.13
2.4.1. Tình hình nghiên cứu, ứng dụng trong nước .14
2.4.2. Tình hình nghiên cứu, ứng dụng ởnước ngoài .15
2.4.3. Các vấn đềmởcủa công nghệanti-virus.15
2.5. Hướng giải quyết của đềtài .16
2.5.1. Các luận điểm của đềtài .17
2.5.2. Giải pháp của đềtài .18
2.6. Các hệcơsởtri thức .19
2.6.1. Các Hệchuyên gia .19
2.6.1.1. Cơsởtri thức.20
2.6.1.2. Động cơsuy diễn .20
2.6.2. Các hệKhám phá tri thức từcơsởdữliệu .20
2.6.2.1. Giới thiệu.20
2.6.2.2. Tiến trình khám phá tri thức .21
2.6.3. Các Hệhọc.22
2.6.3.1. Học giám sát.23
2.6.3.2. Học không giám sát.23
2.6.3.3. Các hình thức học.24
2.6.4. Các nghiên cứu máy học nhận dạng virus máy tính.25
2.6.5. Các nghiên cứu hệchuyên gia nhận dạng virus máy tính .27
2.7. Tổng kết chương .29
CHƯƠNG 3 – CƠCHẾMÁY HỌC CHẨN ĐOÁN VIRUS MÁY TÍNH.30
3.1. Phân hoạch bài toán chẩn đoán virus máy tính.30
3.2. Các độ đo chất lượng chẩn đoán.31
3.3. Cơchếmáy học chẩn đoán virus máy tính .31
3.3.1. Bài toán 1: Chẩn đoán lớp virus C-class .31
3.3.1.1. Phát biểu bài toán .31
3.3.1.2. Tổchức cơsởdữliệu và trích chọn đặc trưng.32
3.3.1.3. Thuật toán chẩn đoán lớp C-class .32
3.3.1.4. Phân tích, đánh giá thuật toán chẩn đoán lớp C-class.33
3.3.2. Bài toán 2: Chẩn đoán lớp virus D-class .34
3.3.2.1. Phát biểu bài toán .34
3.3.2.2. Tổchức cơsởdữliệu.35
3.3.2.3. Tổchức không gian tìm kiếm .36
3.3.2.4. Trích chọn đặc trưng .37
3.3.2.5. Luật nhận dạng virus lớp D-class.37
3.3.2.6. Thực nghiệm bài toán chẩn đoán lớp D-class.38
3.3.3. Bài toán 3: Chẩn đoán lớp virus B-class .39
3.3.3.1. Phát biểu bài toán .39
3.3.3.2. Tạo lập cơsởtri thức .40
3.3.3.3. Tổchức cơsởdữliệu.41
3.3.3.4. Trích chọn đặc trưng .41
3.3.3.5. Xây dựng không gian trạng thái.42
3.3.3.6. Cơchếphân tích.43
3.3.3.7. Đánh giá độphức tạp và kết quảthực nghiệm.44
3.3.4. Bài toán 4: Chẩn đoán lớp virus E-class.45
3.3.4.1. Phát biểu bài toán .45
3.3.4.2. Tổchức cơsởdữliệu virus, trích chọn đặc trưng .45
3.3.4.3. Xây dựng cơsởtri thức.46
3.3.4.4. Tổchức cơsởdữliệu thông tin hệthống .46
3.3.4.5. Thiết kế động cơsuy diễn .47
3.3.4.6. Giải thích thuật toán SID .47
3.3.4.7. Các tác tửhoạt động.49
3.3.4.8. Kết quảthực nghiệm .50
3.3.4.9. Đánh giá phương pháp chẩn đoán lớp virus E-class.51
3.3.5. Bài toán 5: Chẩn đoán lớp virus A-class .52
3.3.5.1. Lược sửvấn đềnhận dạng mã độc.52
3.3.5.2. Phát biểu bài toán .54
3.3.5.3. Tổchức cơsởdữliệu virus.54
3.3.5.4. Biểu diễn dữliệu virus bằng mô hình không gian vectơ.55
3.3.5.5. Rút trích đặc trưng .55
3.3.5.6. Ước lượng tỷlệmã độc.56
3.3.5.7. Ví dụminh họa bài toán A-class .57
3.3.5.8. Kết quảthực nghiệm .59
3.3.5.9. Bàn luận vềphương pháp chẩn đoán lớp A-class .59
3.4. Tổng kết chương .60
CHƯƠNG 4 – THIẾT KẾXÂY DỰNG HỆTHỐNG VÀ THỰC NGHIỆM.62
4.1. Mô hình tổng quát của hệ.62
4.2. Tổchức cơsởtri thức .62
4.2.1. Mô tả đối tượng .62
4.2.2. Luật nhận dạng virus .64
4.3. Giai đoạn Học dữliệu .65
4.3.1. Trích chọn dữliệu.65
4.3.2. Phân cụm dữliệu .65
4.3.2.1. Tổchức cấu trúc dữliệu.66
4.3.2.2. Thuật toán ACV gom cụm trên V-Tree .67
4.3.2.3. Đánh giá thuật toán ACV.71
4.3.3. Rút luật phân bốtrịthuộc tính .73
4.3.3.1. Rút luật phân cụm trên V-Tree .73
4.3.3.2. Rút luật phân cụm trên ma trận dữliệu.74
4.4. Giai đoạn Xửlý dữliệu .76
4.4.1. Phân loại dữliệu chẩn đoán.79
4.4.1.1. Phân loại đối tượng .79
4.4.1.2. So khớp luật phân nhóm .82
4.4.2. Chẩn đoán virus bằng kỹthuật hợp nhất dữliệu .83
4.4.2.1. Tinh chếdữliệu trong tiến trình khám phá tri thức .83
4.4.2.2. Tinh chếdữliệu NULL bằng kỹthuật hợp nhất dữliệu.83
4.4.2.3. Virus lạvà dữliệu NULL .84
4.4.2.4. Dựbáo virus lạbằng kỹthuật hợp nhất dữliệu .86
4.4.2.5. Kết quảthực nghiệm .88
4.4.2.6. Bàn luận vềkỹthuật DF2RV .90
4.5. Kết quảthực nghiệm .90
4.5.1. Đánh giá hiệu quảnhận dạng virus của MAV.91
4.5.2. Đánh giá tốc độthực thi của MAV.92
4.6. Tổng kết chương .94
CHƯƠNG 5 - KẾT LUẬN.95
5.1. Những đóng góp mới của đềtài.96
5.2. Hạn chếcủa đềtài, cách khắc phục .97
5.3. Hướng phát triển tương lai.98
5.4. Đềnghịvềcác nghiên cứu tiếp theo.99
CÔNG TRÌNH ĐÃ CÔNG BỐ.100
TÀI LIỆU THAM KHẢO.102
 



Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.

Tóm tắt nội dung:

Mở đầu
1.1. Giới thiệu đề tài
1.1.1. Lý do chọn đề tài
Ngày nay công nghệ thông tin trở thành một lĩnh vực mũi nhọn trong công
cuộc phát triển kinh tế xã hội. Cùng với công nghệ sinh học và năng lượng mới,
công nghệ thông tin (CNTT) vừa là công cụ, vừa là động lực thúc đẩy quá trình
công nghiệp hóa, hiện đại hóa đất nước. Trong giai đoạn hội nhập quốc tế, CNTT
giữ vai trò đặc biệt quan trọng trong việc xử lý tính toán dữ liệu, kết nối thông tin
liên lạc của các đơn vị tổ chức trong và ngoài nước. Bảo vệ an toàn dữ liệu cho các
hệ thống tính toán, giữ vững an ninh mạng, đảm bảo liên lạc thông suốt, duy trì chất
lượng phục vụ luôn là vấn đề quan tâm hàng đầu của các nhà quản trị hệ thống.
Sự phát triển của Internet tạo điều kiện cho các loại hình xâm nhập luận lý
trái phép vào các hệ thống CNTT cả chiều rộng (lây lan trên quy mô toàn thế giới)
và chiều sâu (can thiệp vào hạt nhân hệ thống đích). Mỗi ngày các hệ thống mạng
phải đối phó với hàng loạt đợt tấn công bằng mã độc (malicious, harmful code) của
tin tặc, khiến nhiều hệ thống bị đình trệ, tắc nghẽn và tê liệt; gây thiệt hại không
nhỏ. Dự án nghiên cứu về sự phát triển toàn cầu của Viện Hàn lâm Công nghệ Quốc
gia Mỹ (National Academy of Engineering, USA - 2008) nhận định vấn đề an ninh
thông tin và virus máy tính là một trong 14 thách thức công nghệ lớn nhất của thế
kỷ 21 mà nếu giải quyết được, cuộc sống con người sẽ được cải thiện đáng kể [92].
Virus máy tính (từ đây gọi tắt là virus, phân biệt với từ “virút” trong y học) thực sự
trở thành mối đe dọa thường xuyên và cấp bách của các hệ thống CNTT hiện nay.
Chương 1
- 2 -
Trong bối cảnh đó, đề tài “Tiếp cận Máy học và Hệ chuyên gia để nhận
dạng, phát hiện virus máy tính” được tiến hành nhằm góp phần giải quyết vấn đề
bảo vệ an toàn dữ liệu cho các hệ thống CNTT ở Việt Nam.
1.1.2. Mục tiêu của đề tài
Để phòng chống virus máy tính, các hệ thống CNTT sử dụng các phần mềm
chống virus (anti-virus, gọi tắt là AV). Qua khảo sát, phần lớn các AV chỉ phát huy
tác dụng trên các mẫu virus xác định, khả năng đoán virus mới còn hạn chế nên
thường bị động khi có dịch virus bùng phát.
Trên cơ sở xác định loại hình nghiên cứu của đề tài là nghiên cứu ứng dụng,
mục tiêu của đề tài là tìm giải pháp cho bài toán nhận dạng virus máy tính và lựa
chọn mô hình thích hợp để xây dựng Hệ Phòng chống virus máy tính hướng tiếp
cận Máy học và Hệ chuyên gia MAVES - Machine Learning Approach to Anti-
Virus Expert System (gọi tắt là MAV) với các chỉ tiêu cơ bản:
- Nhận dạng nhanh, phát hiện chính xác các trường hợp lây nhiễm, tiềm ẩn của
các virus đã biết trên hệ thống đích.
- Có khả năng dự báo biến thể virus; ngăn chận kịp thời, chủ động phòng tránh
các tình huống lây nhiễm khi hệ thống chưa cập nhật mẫu virus mới.
1.1.3. Các giai đoạn thực hiện đề tài
Quá trình nghiên cứu đề tài được tiến hành qua các bước như sau:
• Giai đoạn 1 - Thu thập dữ liệu: Khảo sát tình hình thực tiễn, thu thập dữ liệu
(mẫu virus, các phần mềm diệt virus trong nước và nước ngoài, các bài viết,
tài liệu liên quan…). Nghiên cứu tài liệu, tìm hiểu các phương pháp, tiếp cận
đã biết, tham khảo các anti-virus đang sử dụng phổ biến. Phác họa bức tranh
tổng thể, tìm hiểu các công nghệ nhận dạng virus máy tính qua các thời kỳ.
• Giai đoạn 2 - Phân loại dữ liệu: Sắp xếp, phân loại, tìm hiểu đặc điểm dữ
liệu, cơ chế lây nhiễm của từng loại virus trên vật chủ tương ứng. Sàng lọc,
loại bỏ dữ liệu dư thừa (các mẫu virus “chết” hay không phù hợp với môi
- 3 -
trường, điều kiện nghiên cứu…). Bổ sung, làm giàu dữ liệu từ nhiều nguồn
khác nhau (dữ liệu mẫu của các lớp vật chủ, tập chỉ thị thi hành…).
• Giai đoạn 3 - Xử lý dữ liệu: Dựa vào các lớp dữ liệu đã phân loại, lựa chọn,
sắp xếp dữ liệu, xây dựng các mô hình, công cụ xử lý thích hợp trên cơ sở lý
thuyết máy học. Phân tích, nhận xét, đánh giá hiệu quả của từng mô hình.
• Giai đoạn 4 - Tổng kết: Khái quát hóa và rút ra kết luận chung cho đề tài.
Viết báo cáo, công bố kết quả nghiên cứu đề tài.
1.2. Đối tượng, phạm vi nghiên cứu của đề tài
1.2.1. Virus máy tính và các hệ thống đích
Có ba vấn đề cân nhắc khi nghiên cứu virus máy tính là môi trường (hệ điều
hành, kiến trúc máy), phương tiện (vật chứa tin, cơ chế lan tỏa) và cơ hội (cộng
đồng sử dụng, tần suất kích hoạt, kỹ thuật lây lan…). Mặc dù có nhiều loại virus
máy tính lây nhiễm trên nhiều hệ thống và môi trường khác nhau, nhưng do tính
phổ biến của Windows nên virus máy tính trên hệ điều hành này cũng nhiều hơn.
Để đáp ứng nhu cầu thực tế bức thiết, đề tài tập trung nghiên cứu các loại virus máy
tính hoạt động trên các hệ điều hành (HĐH) Windows 9x/Me và Windows
NT/2000/XP dành cho máy tính IBM-PC (máy vi tính cá nhân để bàn hay xách
tay, sử dụng kiến trúc vi xử lý x86/Pentium hay tương thích).
Mặc dù vậy, đề tài cũng được định hướng nghiên cứu để có thể mở rộng kết
quả nghiên cứu cho các hệ anti-virus sử dụng các HĐH khác Windows.
1.2.2. Các hệ học và khám phá tri thức
Con người đã tốn rất nhiều công sức để giải quyết bài toán nhận dạng virus
máy tính. Tuy nhiên, các anti-virus vẫn chưa làm chủ được tình hình. Virus máy
tính vẫn liên tục quấy nhiễu, thâm nhập mạng, đánh cắp thông tin, làm sai lệch dữ
liệu nhiều hệ thống CNTT trên thế giới.
Virus máy tính là sản phẩm của con người. Cuộc chiến giữa AV và virus
máy tính là cuộc đấu trí giữa chuyên gia hệ thống và tin tặc, là trò chơi trí tuệ của
con người. Xuất phát từ nhận định này, đề tài chọn cách phối hợp tiếp cận dựa trên
- 4 -
tri thức (knowledge based) và tiếp cận học (machine learning) để tìm lời giải cho
bài toán nhận dạng virus máy tính. Để kiểm tra và đánh giá kết quả, một phần mềm
thực nghiệm sẽ được thiết kế trên mô hình các hệ khám phá tri thức nhằm phát hiện
các quy luật hình thành virus mới từ cơ sở dữ liệu (CSDL) virus đã biết.
1.2.3. Các hệ chuyên gia
Các hệ chuyên gia là một loại hệ cơ sở tri thức (CSTT) được thiết kế để phần
mềm máy tính hoạt động như một chuyên gia (human expert) thực thụ trong một
lĩnh vực cụ thể. Dựa trên tri thức, hệ chuyên gia cho phép mô hình hóa tri thức của
chuyên gia (kiến thức, kinh nghiệm, lời khuyên…) để giải quyết các vấn đề phức
tạp trong từng lĩnh vực.
Trong y học, bác sĩ cần khám bệnh để biết nguyên nhân (người bệnh nhiễm
loại virút gây bệnh nào, đặc điểm ra sao), chẩn đoán bệnh (dựa vào triệu chứng, xác
định bệnh), xét các điều kiện ràng buộc (sức khoẻ bệnh nhân, trang thiết bị y tế, chi
phí cho phép…) và lựa chọn phương pháp chữa trị (phác đồ điều trị, công nghệ xử
lý bệnh…).
Trong tin học, virus máy tính là tác nhân gây bệnh và các anti-virus là
“thuốc” chữa bệnh cho máy tính. Do “bệnh nhân” (máy tính nhiễm virus) không thể
đến “bệnh viện” (phòng nghiên cứu ph
 

Các chủ đề có liên quan khác

Top