daigai

Well-Known Member
Link tải luận văn miễn phí cho ae Kết Nối
HỆ THỐNG NHẬN DẠNG VÀ PHÂN LOẠI VĂN BẢN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
CHƯƠNG I. MỞ ĐẦU...................................................................................8
I.1. Giới thiệu:................................................................................................. 8
I.2. Tổng quan về phân loại văn bản và các nghiên cứu đã thực hiện ........... 9
I.3. Mục tiêu của luận văn............................................................................. 10
I.4. Nội dung nghiên cứu .............................................................................. 11
I.5. Kết quả đạt được.................................................................................... 12
CHƯƠNG II. CƠ SỞ LÝ THUYẾT..............................................................14
II.1. Một số định nghĩa trong vấn đề văn bản và ngôn ngữ: ......................... 14
II.1.1. Các cấp độ trong ngôn ngữ: ........................................................... 14
II.1.2. Các quan hệ trong ngôn ngữ .......................................................... 14
II.2. Phân loại ngôn ngữ ............................................................................... 15
II.2.1. Phân theo cội nguồn ....................................................................... 15
II.2.2. Phân theo loại hình ......................................................................... 15
II.2.3. Phân theo trật tự từ của ngôn ngữ.................................................. 16
II.3. Các đặc điểm của tiếng Anh.................................................................. 17
II.4. Tóm tắt các phương pháp phân loại văn bản bằng tiếng Anh............... 17
II.4.1. Naïve Bayes (NB) ........................................................................... 17
II.4.2. Phương pháp K–Nearest Neighbor (kNN) ...................................... 19
II.4.3. Support vector Machine (SVM)....................................................... 21
II.4.4. Neural Network (NNet).................................................................... 23
II.4.5. Linear Least Square Fit (LLSF)....................................................... 25
II.4.6. Centroid- based vector.................................................................... 26
II.5. Các đặc điểm cơ bản về tiếng Việt........................................................ 27
II.6. So sánh đối chiếu tiếng Anh-Việt........................................................... 28
II.7. Tóm tắt các phương pháp phân loại văn bản bằng tiếng Việt ............... 28
II.7.1. Phương pháp khớp tối đa Maximum Matching: forward/backward. 28
* Ưu điểm.................................................................................................. 29
* Hạn chế .................................................................................................. 30
II.7.2. Phương pháp giải thuật học cải biến (Transformation-based
Learning, TBL) .......................................................................................... 30
* Nội dung ................................................................................................. 30
* Ưu điểm.................................................................................................. 30
* Hạn chế .............................................................................................. 31
II.7.3. Mô hình tách từ bằng WFST và mạng Neural................................. 31
* Nội dung ................................................................................................. 31
* Ưu điểm.................................................................................................. 34
* Hạn chế .................................................................................................. 35 II.7.4. Phương pháp quy hoạch động (dynamic programming)................. 35
* Nội dung ................................................................................................. 35
* Ưu điểm.................................................................................................. 36
* Hạn chế .................................................................................................. 36
II.8. Mô tả phương pháp sử dụng trong đề cương ....................................... 36
II.8.1. Chọn phương án thực hiện luận văn .............................................. 36
II.8.2. Hạt nhân cho các chuỗi Text........................................................... 37
II.8.3. Cơ sở lý thuyết của Support vector Machine (SVM):...................... 43
II.8.4. Huấn luyện SVM............................................................................. 48
II.8.5. Phân loại văn bản ........................................................................... 49
CHƯƠNG III. MÔ TẢ BÀI TOÁN và XỬ LÝ BÀI TOÁN ..............................50
III.1. Các yêu cầu đối với việc phân loại văn bản ......................................... 50
III.2. Cấu trúc chương trình .......................................................................... 51
III.2.1. Bước 1: Tiền xử lý số liệu.............................................................. 51
III.2.2. Bước 2: Tách câu: ......................................................................... 52
III.2.3. Bước 3: Tách từ:............................................................................ 52
III.2.4. Bước 4: Gán nhãn từ loại – Đánh trọng số.................................... 52
III.2.5. Bước 5: Sử dụng thuật toán để phân loại văn bản cần đọc........... 52
III.3. Các bước thực hiện trong chương trình............................................... 52 III.3.1. Tiền xử lý số liệu:........................................................................... 52
III.3.2. Tách câu ........................................................................................ 55
III.3.3. Tách từ .......................................................................................... 57
III.3.4. Gán nhãn – đánh trọng số ............................................................. 60
III.3.5. Huấn luyện..................................................................................... 64
III.3.6. Phân loại văn bản .......................................................................... 66
CHƯƠNG IV. CHƯƠNG TRÌNH THỬ NGHIỆM.........................................69
IV.1.1. Chuẩn bị số liệu............................................................................. 69
IV.1.2. Mô tả chương trình:....................................................................... 71
IV.1.1. Cài đặt ........................................................................................... 71
IV.1.2. Một số giao diện của chương trình................................................ 72
IV.1.3. Cài đặt ........................................................................................... 77
IV.1.4. Các lưu ý khi chuẩn bị số liệu........................................................ 78
IV.1.5. Kết quả thử nghiệm....................................................................... 86
CHƯƠNG V. KẾT LUẬN.............................................................................89
CHƯƠNG VI. TÀI LIỆU THAM KHẢO ........................................................91
CHƯƠNG VII. PHỤ LỤC.............................................................................94
VII.1. Cấu trúc CSDL của chương trình........................................................ 94
VII.2. Kết quả nhận dạng văn bản ................................................................ 94 CHƯƠNG I. MỞ ĐẦU
I.1.Giới thiệu:
Chúng ta hãy cùng nhau xem xét các trường hợp thường hay xảy
ra trong thực tế sau:
Trong thời đại bùng nổ công nghệ thông tin hiện nay, hệ thống dữ
liệu số hoá trở nên lớn để phục vụ cho việc lưu trữ trao đổi thông
tin, Dữ liệu số hoá này rất đa dạng - nó có thể là các dữ liệu dưới dạng
tập tin văn bản text, tập tin văn bản MS Word, tập tin văn bản PDF, mail,
HTML .v.v. Các tập tin văn bản cũng được lưu trữ trên máy tính cục bộ
hay đươc truyền tải trên intenet, cùng với thời gian và/hay số lượng
người dùng tăng nhanh thì các tập tin này ngày càng nhiều và đến một
thời điểm nào đó thì số lượng tập tin này sẽ vượt quá tầm kiểm soát, do
đó khi muốn tìm kiếm lại 1 văn bản nào đó việc tìm kiếm sẽ rất khó khăn
và phức tạp, đặc biệt là trong trường hợp người cần tìm kiếm không nhớ
rõ các câu cần tìm chính xác trong văn bản
Các thông tin trên internet có rất nhiều và phong phú gần như đáp
ứng được hầu hết các nhu cầu thông tin của con người khi cần tra cứu
thông tin. Các thông tin này thường xuyên được cập nhật và thay đổi liên
tục, do vậy khi người cần tìm kiếm muốn tìm kiếm thông tin thì lượng
thông tin thỏa mãn nhu cầu tìm kiếm sẽ rất nhiều nhưng chưa đủ để trở
thành tài liệu phục vụ cho người tìm kiếm; do đó khi người sử dụng muốn
sắp xếp các thông tin tìm được theo thể loại (nhóm văn bản) thì thời gian
thực hiện sẽ mất rất nhiều (thời gian) và công sức bỏ ra cũng không phải
nhỏ
Từ các nhu cầu trên mà yêu cầu về một Hệ thống nhận dạng và
phân loại văn bản để đáp ứng yêu cầu phân loại văn bản sau đó mới
thực hiện tìm kiếm được ra đời nhằm đáp ứng yêu cầu thực tế của người
dùng. Đã có rất nhiều công trình nghiên cứu và ứng dụng thực tế dùng
để thực hiện việc phân loại văn bản, tuy nhiên các ứng dụng đó cũng
chưa thể đáp ứng hoàn toàn nhu cầu của người sử dụng, do vậy mà việc tìm kiếm, nghiên cứu các giải thuật, các phương pháp phân loại văn bản
vẫn được tiếp tục nghiên cứu và hoàn thiện
Với mục tiêu góp phần vào lĩnh vực nghiên cứu và ứng dụng phân
loại văn bản vào cuộc sống, luận văn này sẽ thực hiện các công việc sau:
- Nghiên cứu và tổng hợp một số phương pháp phân loại văn bản
(tiếng Anh và tiếng Việt) đã làm và sau đó đưa ra 1 số nhận xét
đánh giá
- Nghiên cứu và đưa vào ứng dụng trong việc phân loại văn bản
tiếng Việt bằng lý thuyết khá mới hiện nay là lý thuyết phân loại văn
bản bằng hạt nhân chuỗi (string kernels) và phương pháp hỗ trợ
vecto (Support vector Machine - SVM)
- Đưa ra một chương trình máy tính để thử nghiệm và có kết quả
đánh giá về phương pháp phân loại văn bản sử dụng Hạt nhân
chuỗi (string kernels) kết hợp với Máy hỗ trợ vecto (Support vector
Machine - SVM)
I.2. Tổng quan về phân loại văn bản và các nghiên cứu đã thực
hiện
Bài toán nhận dạng và phân loại văn bản là một trong những bài
toán kinh điển trong lĩnh vực xử lý dữ liệu văn bản. Xử lý dữ liệu văn bản
bao gồm:
- Kiểm tra lỗi chính tả (spelling-checker)
- Kiểm tra lỗi văn phạm (grammar checker)
- Từ điển đồng nghĩa (thesaurus)
- Phân tích văn bản (text analyzer)
- Phân loại văn bản (text classification)
- Tóm tắt văn bản (text summarization)
- Tổng hợp tiếng nói (voice synthesis)
- Nhận dạng giọng nói (voice recognization)
- Dịch tự động (automatic translation)
Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Nghiên cứu, thiết kế và chế tạo mô hình hệ thống truyền nhận dữ liệu sử dụng mạng Can trên Toyota Camry 2007 Khoa học kỹ thuật 0
D Thiết kế hệ thống phân loại sản phẩm bằng nhận dạng mờ Luận văn Kinh tế 0
D PHÂN TÍCH HỆ THỐNG THÔNG TIN NHẬN ĐẶT PHÒNG TẠI KHÁCH SẠN RAINBOW ĐÀ NẴNG Công nghệ thông tin 1
D Nghiên cứu xác nhận nguyên nhân và đề xuất giải pháp giảm thiểu thất thoát nước sạch cho hệ thống cấp nước đô thị TP HCM Khoa học Tự nhiên 0
R Nghiên cứu mô hình tích hợp hệ thống nhận dạng thông minh vào trong chip ARM Luận văn Sư phạm 0
D thiết kế hệ thống ghi nhận dữ liệu hành trình ứng dụng gps Công nghệ thông tin 1
D hệ thống nhận dien thương hiệu GÀ RÁN KFC Marketing 0
A Nhận diện hệ thống đổi mới trong lĩnh vực sản xuất công nghiệp ( Nghiên cứu trường hợp các doanh ngh Kinh tế quốc tế 0
B Nghiên cứu xây dựng bộ tạo mã ICAO và hệ phát băng tần L công suất lớn cho hệ thống phát tín hiệu nhận dạng Khoa học Tự nhiên 0
N Nghiên cứu, thiết kế và tích hợp các chip FPGA /PLD vào hệ thống thu nhận ảnh vệ tinh khí tượng Công nghệ thông tin 0

Các chủ đề có liên quan khác

Top