Link tải miễn phí luận văn phân tích cú pháp syntax parsing
DANH MỤC CÁC THUẬT NGỮ VÀ VIẾT TẮT 5
DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN 6
DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN 7
LỜI NÓI ĐẦU 8
TỔNG QUAN VỀ PHÂN TÍCH CÚ PHÁP 10
1.1. Tổng quan về xử lý ngôn ngữ tự nhiên 11
1.1.1. Tiền xử lý văn bản 11
1.1.2. Phân tích hình thái 12
1.1.3. Phân tích cú pháp 13
1.1.4. Phân tích ngữ nghĩa 14
1.1.4.1. Giải quyết nhập nhằng nghĩa ở mức từ vựng 14
1.1.4.2. Mức độ nhập nhằng cấu trúc 14
1.1.4.3. Mức độ nhập nhằng liên câu : 14
1.1.5. Phân tích ngữ dụng 15
1.2. Một số hệ thống xử lý văn bản 15
1.3. Vị trí và vai trò của bài toán phân tích cú pháp tiếng Việt 16
1.4. Các nghiên cứu về bài toán phân tích cú pháp 19
1.4.1. Các phương pháp tiếp cận dùng luật phi ngữ cảnh (CFG) 19
1.4.1.1. Cách tiếp cận từ trên xuống (Top-Down) 19
1.4.1.2. Quy trình phân tích cú pháp từ trên xuống (Top-Down) 21
1.4.1.3. Cách tiếp cận Từ dưới lên (Bottom-Up) 21
1.4.1.4. Thuật toán phân tích cú pháp Earley 23
1.4.1.5. Thuật toán phân tích cú pháp CYK 25
1.4.2. Phương pháp phân tích cú pháp dựa trên nguyên tắc 25
1.5. Những khó khăn của bài toán phân tích cú pháp tiếng Việt 26
1.5.1. Nhập nhằng về từ vựng 26
1.5.2. Nhập nhằng về cú pháp 27
1.5.3. Tiếng Việt chưa thống nhất 28
1.5.3.1. Chính tả chưa thống nhất 28
1.5.3.2. Chưa có quan điểm thống nhất giữa các nhà ngôn ngữ học Việt Nam 28
1.5.4. Tiếng việt thiếu những tập ngữ liệu cần thiết 29
1.6. Nhiệm vụ của đồ án tốt nghiệp 29
Kết chương 30
TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT 31
2.1. Các đặc trưng cơ bản của tiếng Việt 31
2.1.1. Các đơn vị của tiếng Việt 31
2.1.1.1. Tiếng và đặc điểm của tiếng 31
2.1.1.1.1. Tiếng và giá trị ngữ âm 31
2.1.1.1.2. Tiếng và giá trị ngữ nghĩa 31
2.1.1.1.3. Tiếng và giá trị ngữ pháp 32
2.1.1.2. Từ và các đặc điểm của từ 32
2.1.1.2.1. Từ là đơn vị nhỏ nhất để đặt câu. 32
2.1.1.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 33
2.1.1.3. Câu và các đặc điểm của câu. 33
2.1.1.3.1. Câu có ý nghĩa hoàn chỉnh 33
2.1.1.3.2. Câu có cấu tạo đa dạng. 33
2.1.2. Các đặc điểm chính tả và văn bản tiếng Việt 34
2.1.3. Các quan điểm nghiên cứu ngữ pháp tiếng Việt 35
2.1.3.1. Các nghiên cứu của các nhà ngôn ngữ nước ngoài 35
2.1.3.2. Các nghiên cứu của các nhà ngôn ngữ Việt Nam 37
2.2. Các phương tiện ngữ pháp của tiếng Việt 40
2.2.1. Trong phạm vi cấu tạo từ 40
2.2.2. Trong phạm vi cấu tạo câu. 40
2.3. Từ tiếng Việt 41
2.3.1. Từ đơn - từ ghép 41
2.3.2. Từ loại 42
2.3.2.1. Khái niệm về từ loại 42
2.3.2.2. Sự phân loại các từ thành Thực từ và Hư từ 43
2.3.2.3. Các từ loại của tiếng Việt 44
2.3.2.3.1. Danh từ 44
2.3.2.3.2. Động từ 47
2.3.2.3.3. Tính từ 49
2.3.2.3.4. Phụ từ 50
2.3.2.3.5. Kết từ 51
2.3.2.3.6. Đại từ 51
2.3.2.3.7. Trợ từ - Cảm từ 52
2.3.3. Dùng từ cấu tạo ngữ 52
2.3.3.1. Cụm danh từ ( Danh ngữ ) 53
2.3.3.2. Cụm động từ ( Động ngữ ) 54
2.3.3.3. Cụm tính từ ( Tính ngữ ) 55
2.4. Câu tiếng Việt 56
2.4.1. Câu đơn 56
2.4.2. Câu ghép 57
2.4.2.1. Câu ghép song song. 57
2.4.2.2. Câu ghép qua lại 57
2.4.3. Các thành phần câu 58
2.4.3.1. Chủ ngữ 58
2.4.3.2. Vị ngữ 58
2.4.3.3. Bổ ngữ 59
2.4.3.4. Trạng ngữ 59
2.4.3.5. Định ngữ 60
2.4.3.6. Thành phần phụ chuyển tiếp 60
2.4.3.7. Thành phần hô ngữ 60
2.5. Quan hệ ngữ pháp 60
2.5.1. Quan hệ chính phụ 60
2.5.2. Quan hệ đẳng lập 63
2.5.3. Quan hệ chủ vị 64
2.5.4. Quan hệ đề thuyết 64
Kết chương 66
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 67
3.1. Mô hình hóa tiếng Việt 67
3.1.1. Định nghĩa văn phạm sinh 67
3.1.2. Định nghĩa văn phạm đoán nhận 68
3.1.3. Phân loại văn phạm theo chuẩn CHOMSKY 68
3.2. Xây dựng từ điển luật cú pháp 68
3.2.1. Xây dựng các luật về từ loại 69
3.2.2. Xây dựng các luật về ngữ loại 71
3.2.2.1. Xây dựng luật cho tính ngữ 71
3.3.2.2. Xây dựng các luật về danh ngữ 72
3.2.3. Xây dựng các luật về thành phần câu 74
3.2.4. Xây dựng các luật về câu 74
3.2.5. Đánh giá về tập luật cú pháp 75
3.2.6. Tổng kết về tập luật cú pháp 76
3.2.6.1. Các ký hiệu trong văn phạm 76
3.2.6.2. Xây dựng các luật văn phạm 76
3.2.6.3. Tính hiệu quả và độ bão hòa của tập luật 76
3.3. Thuật toán phân tích cú pháp tiếng Việt 77
3.3.1. Mô tả giải thuật 77
3.3.2 Thuật toán phân tích cú pháp - CYK 78
3.3.2.1. Mô tả 78
3.3.2.2. Nhận xét giải thuật CYK 80
3.3.2.3. Đề xuất cải tiến 80
3.3.3. Nhận xét 82
3.4. Giải quyết nhập nhằng 82
3.4.1. Giải quyết trường hợp bùng nổ tổ hợp 82
3.4.1.1. Sử dụng bộ gán nhãn từ loại 82
3.4.1.2. Sử dụng bộ tách từ tiếng Việt 83
3.4.1.3. Nhận xét 84
3.4.2. Giải quyết trường hợp lựa chọn cây phân tích đúng 84
3.5. Mô hình xác suất PCFG 85
3.5.1. Các nghiên cứu về mô hình xác suất 85
3.5.1.1. Phân tích dựa trên cực đại Entropy 85
3.5.1.2. Mô hình thống kê Head - driven 86
3.5.1.3. Các nghiên cứu tổng quan về PCFG 86
3.5.2. Mô hình PCFG 88
3.5.2.1. Mô tả 88
3.5.2.2. Các giả thiết đối với mô hình PCFG 92
3.5.2.3. Một số đặc trưng của PCFG 92
3.5.2.4. Xác suất của một câu 93
3.5.2.4.1. Xác suất trong (Inside) 93
3.5.2.4.2. Xác suất ngoài (Outside) 95
3.5.2.5. Tìm phân tích phù hợp nhất cho một câu 97
3.5.2.6. Huấn luyện PCFG 98
3.5.2.7. Các vấn đề với giải thuật huấn luyện INSIDE – OUTSIDE 101
3.5.3. Nhận xét 101
3.5.4. Đề xuất giải pháp đối với tiếng Việt 102
3.5.4.1. Kho ngữ liệu huấn luyện 102
3.5.4.2. Mô hình thuật toán áp dụng PCFG 103
3.5.4.2.1. Mô hình Xây dựng Treebank 104
3.5.4.2.2. Mô hình phân tích cú pháp PCFG 105
Kết Chương 107
CÀI ĐẶT CHƯƠNG TRÌNH 108
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 108
4.1 Phân tích chức năng và mô hình hệ thống 108
4.1.1. Xác định yêu cầu 108
4.1.2. Mô hình hệ thống 109
4.1.3. Chức năng tiền xử lý 110
4.1.4. Chức năng xây dựng tham số PCFG 111
4.1.5. Chức năng quản lý tập mẫu – Treebank 112
4.1.6. Chức năng Phân tích cú pháp 112
4.1.6.1. Pha phân tích cơ sở 113
4.1.6.2. Pha phân tích kết hợp PCFG (có giải quyết nhập nhằng với PCFG) 114
4.2 Phân tích và thiết kế dữ liệu 116
4.2.1. Từ điển từ loại – luật cú pháp 116
4.2.2. Cấu trúc Treebank 117
4.3 Cài đặt chương trình phân tích cú pháp tiếng Việt 118
4.3.1. Công cụ lựa chọn 118
4.3.2. Từ điển và tập luật ngữ pháp 119
4.3.3. Cài đặt module tiền xử lý 121
4.3.4. Cài đặt module phân tích cú pháp 121
4.3.4.1. Pha phân tích cú pháp cơ sở 121
4.3.4.2. Pha phân tích cú pháp kết hợp – kết hợp giữa CYK và PCFG 124
Kết chương 125
KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 126
5.1. Giới thiệu chương trình 126
5.1.1. Module quản lý từ loại, ngữ loại 127
5.1.2. Module quản lý tập luật 128
5.1.3. Module quản lý từ vựng 129
5.1.4. Module quản lý tập mẫu 130
5.2. Kết quả thử nghiệm 130
5.2.1. Tập dữ liệu huấn luyện và thử nghiệm 130
5.2.2. Kết quả phân tích cú pháp 131
5.2.3. So sánh về hiệu năng của các pha phân tích cú pháp 133
5.2.3.1. Kết quả tập thử nghiệm 133
5.2.3.2. Kết quả tốc độ phân tích 135
5.2.3.3. Tổng kết các kết quả so sánh 136
5.2.4. Đánh giá độ chính xác phân tích cú pháp 136
5.2.5. Kết quả và đánh giá về tập luật PCFG 137
5.2.5.1. Kết quả tập luật PCFG 137
5.2.5.2. Đánh giá về tập mẫu và tập luật 138
Kết chương 138
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 139
Kết quả đạt được 139
Hướng phát triển 139
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 140
PHỤ LỤC: 142
BỘ LUẬT PCFG 142
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
DANH MỤC CÁC THUẬT NGỮ VÀ VIẾT TẮT 5
DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN 6
DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN 7
LỜI NÓI ĐẦU 8
TỔNG QUAN VỀ PHÂN TÍCH CÚ PHÁP 10
1.1. Tổng quan về xử lý ngôn ngữ tự nhiên 11
1.1.1. Tiền xử lý văn bản 11
1.1.2. Phân tích hình thái 12
1.1.3. Phân tích cú pháp 13
1.1.4. Phân tích ngữ nghĩa 14
1.1.4.1. Giải quyết nhập nhằng nghĩa ở mức từ vựng 14
1.1.4.2. Mức độ nhập nhằng cấu trúc 14
1.1.4.3. Mức độ nhập nhằng liên câu : 14
1.1.5. Phân tích ngữ dụng 15
1.2. Một số hệ thống xử lý văn bản 15
1.3. Vị trí và vai trò của bài toán phân tích cú pháp tiếng Việt 16
1.4. Các nghiên cứu về bài toán phân tích cú pháp 19
1.4.1. Các phương pháp tiếp cận dùng luật phi ngữ cảnh (CFG) 19
1.4.1.1. Cách tiếp cận từ trên xuống (Top-Down) 19
1.4.1.2. Quy trình phân tích cú pháp từ trên xuống (Top-Down) 21
1.4.1.3. Cách tiếp cận Từ dưới lên (Bottom-Up) 21
1.4.1.4. Thuật toán phân tích cú pháp Earley 23
1.4.1.5. Thuật toán phân tích cú pháp CYK 25
1.4.2. Phương pháp phân tích cú pháp dựa trên nguyên tắc 25
1.5. Những khó khăn của bài toán phân tích cú pháp tiếng Việt 26
1.5.1. Nhập nhằng về từ vựng 26
1.5.2. Nhập nhằng về cú pháp 27
1.5.3. Tiếng Việt chưa thống nhất 28
1.5.3.1. Chính tả chưa thống nhất 28
1.5.3.2. Chưa có quan điểm thống nhất giữa các nhà ngôn ngữ học Việt Nam 28
1.5.4. Tiếng việt thiếu những tập ngữ liệu cần thiết 29
1.6. Nhiệm vụ của đồ án tốt nghiệp 29
Kết chương 30
TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT 31
2.1. Các đặc trưng cơ bản của tiếng Việt 31
2.1.1. Các đơn vị của tiếng Việt 31
2.1.1.1. Tiếng và đặc điểm của tiếng 31
2.1.1.1.1. Tiếng và giá trị ngữ âm 31
2.1.1.1.2. Tiếng và giá trị ngữ nghĩa 31
2.1.1.1.3. Tiếng và giá trị ngữ pháp 32
2.1.1.2. Từ và các đặc điểm của từ 32
2.1.1.2.1. Từ là đơn vị nhỏ nhất để đặt câu. 32
2.1.1.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 33
2.1.1.3. Câu và các đặc điểm của câu. 33
2.1.1.3.1. Câu có ý nghĩa hoàn chỉnh 33
2.1.1.3.2. Câu có cấu tạo đa dạng. 33
2.1.2. Các đặc điểm chính tả và văn bản tiếng Việt 34
2.1.3. Các quan điểm nghiên cứu ngữ pháp tiếng Việt 35
2.1.3.1. Các nghiên cứu của các nhà ngôn ngữ nước ngoài 35
2.1.3.2. Các nghiên cứu của các nhà ngôn ngữ Việt Nam 37
2.2. Các phương tiện ngữ pháp của tiếng Việt 40
2.2.1. Trong phạm vi cấu tạo từ 40
2.2.2. Trong phạm vi cấu tạo câu. 40
2.3. Từ tiếng Việt 41
2.3.1. Từ đơn - từ ghép 41
2.3.2. Từ loại 42
2.3.2.1. Khái niệm về từ loại 42
2.3.2.2. Sự phân loại các từ thành Thực từ và Hư từ 43
2.3.2.3. Các từ loại của tiếng Việt 44
2.3.2.3.1. Danh từ 44
2.3.2.3.2. Động từ 47
2.3.2.3.3. Tính từ 49
2.3.2.3.4. Phụ từ 50
2.3.2.3.5. Kết từ 51
2.3.2.3.6. Đại từ 51
2.3.2.3.7. Trợ từ - Cảm từ 52
2.3.3. Dùng từ cấu tạo ngữ 52
2.3.3.1. Cụm danh từ ( Danh ngữ ) 53
2.3.3.2. Cụm động từ ( Động ngữ ) 54
2.3.3.3. Cụm tính từ ( Tính ngữ ) 55
2.4. Câu tiếng Việt 56
2.4.1. Câu đơn 56
2.4.2. Câu ghép 57
2.4.2.1. Câu ghép song song. 57
2.4.2.2. Câu ghép qua lại 57
2.4.3. Các thành phần câu 58
2.4.3.1. Chủ ngữ 58
2.4.3.2. Vị ngữ 58
2.4.3.3. Bổ ngữ 59
2.4.3.4. Trạng ngữ 59
2.4.3.5. Định ngữ 60
2.4.3.6. Thành phần phụ chuyển tiếp 60
2.4.3.7. Thành phần hô ngữ 60
2.5. Quan hệ ngữ pháp 60
2.5.1. Quan hệ chính phụ 60
2.5.2. Quan hệ đẳng lập 63
2.5.3. Quan hệ chủ vị 64
2.5.4. Quan hệ đề thuyết 64
Kết chương 66
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 67
3.1. Mô hình hóa tiếng Việt 67
3.1.1. Định nghĩa văn phạm sinh 67
3.1.2. Định nghĩa văn phạm đoán nhận 68
3.1.3. Phân loại văn phạm theo chuẩn CHOMSKY 68
3.2. Xây dựng từ điển luật cú pháp 68
3.2.1. Xây dựng các luật về từ loại 69
3.2.2. Xây dựng các luật về ngữ loại 71
3.2.2.1. Xây dựng luật cho tính ngữ 71
3.3.2.2. Xây dựng các luật về danh ngữ 72
3.2.3. Xây dựng các luật về thành phần câu 74
3.2.4. Xây dựng các luật về câu 74
3.2.5. Đánh giá về tập luật cú pháp 75
3.2.6. Tổng kết về tập luật cú pháp 76
3.2.6.1. Các ký hiệu trong văn phạm 76
3.2.6.2. Xây dựng các luật văn phạm 76
3.2.6.3. Tính hiệu quả và độ bão hòa của tập luật 76
3.3. Thuật toán phân tích cú pháp tiếng Việt 77
3.3.1. Mô tả giải thuật 77
3.3.2 Thuật toán phân tích cú pháp - CYK 78
3.3.2.1. Mô tả 78
3.3.2.2. Nhận xét giải thuật CYK 80
3.3.2.3. Đề xuất cải tiến 80
3.3.3. Nhận xét 82
3.4. Giải quyết nhập nhằng 82
3.4.1. Giải quyết trường hợp bùng nổ tổ hợp 82
3.4.1.1. Sử dụng bộ gán nhãn từ loại 82
3.4.1.2. Sử dụng bộ tách từ tiếng Việt 83
3.4.1.3. Nhận xét 84
3.4.2. Giải quyết trường hợp lựa chọn cây phân tích đúng 84
3.5. Mô hình xác suất PCFG 85
3.5.1. Các nghiên cứu về mô hình xác suất 85
3.5.1.1. Phân tích dựa trên cực đại Entropy 85
3.5.1.2. Mô hình thống kê Head - driven 86
3.5.1.3. Các nghiên cứu tổng quan về PCFG 86
3.5.2. Mô hình PCFG 88
3.5.2.1. Mô tả 88
3.5.2.2. Các giả thiết đối với mô hình PCFG 92
3.5.2.3. Một số đặc trưng của PCFG 92
3.5.2.4. Xác suất của một câu 93
3.5.2.4.1. Xác suất trong (Inside) 93
3.5.2.4.2. Xác suất ngoài (Outside) 95
3.5.2.5. Tìm phân tích phù hợp nhất cho một câu 97
3.5.2.6. Huấn luyện PCFG 98
3.5.2.7. Các vấn đề với giải thuật huấn luyện INSIDE – OUTSIDE 101
3.5.3. Nhận xét 101
3.5.4. Đề xuất giải pháp đối với tiếng Việt 102
3.5.4.1. Kho ngữ liệu huấn luyện 102
3.5.4.2. Mô hình thuật toán áp dụng PCFG 103
3.5.4.2.1. Mô hình Xây dựng Treebank 104
3.5.4.2.2. Mô hình phân tích cú pháp PCFG 105
Kết Chương 107
CÀI ĐẶT CHƯƠNG TRÌNH 108
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 108
4.1 Phân tích chức năng và mô hình hệ thống 108
4.1.1. Xác định yêu cầu 108
4.1.2. Mô hình hệ thống 109
4.1.3. Chức năng tiền xử lý 110
4.1.4. Chức năng xây dựng tham số PCFG 111
4.1.5. Chức năng quản lý tập mẫu – Treebank 112
4.1.6. Chức năng Phân tích cú pháp 112
4.1.6.1. Pha phân tích cơ sở 113
4.1.6.2. Pha phân tích kết hợp PCFG (có giải quyết nhập nhằng với PCFG) 114
4.2 Phân tích và thiết kế dữ liệu 116
4.2.1. Từ điển từ loại – luật cú pháp 116
4.2.2. Cấu trúc Treebank 117
4.3 Cài đặt chương trình phân tích cú pháp tiếng Việt 118
4.3.1. Công cụ lựa chọn 118
4.3.2. Từ điển và tập luật ngữ pháp 119
4.3.3. Cài đặt module tiền xử lý 121
4.3.4. Cài đặt module phân tích cú pháp 121
4.3.4.1. Pha phân tích cú pháp cơ sở 121
4.3.4.2. Pha phân tích cú pháp kết hợp – kết hợp giữa CYK và PCFG 124
Kết chương 125
KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 126
5.1. Giới thiệu chương trình 126
5.1.1. Module quản lý từ loại, ngữ loại 127
5.1.2. Module quản lý tập luật 128
5.1.3. Module quản lý từ vựng 129
5.1.4. Module quản lý tập mẫu 130
5.2. Kết quả thử nghiệm 130
5.2.1. Tập dữ liệu huấn luyện và thử nghiệm 130
5.2.2. Kết quả phân tích cú pháp 131
5.2.3. So sánh về hiệu năng của các pha phân tích cú pháp 133
5.2.3.1. Kết quả tập thử nghiệm 133
5.2.3.2. Kết quả tốc độ phân tích 135
5.2.3.3. Tổng kết các kết quả so sánh 136
5.2.4. Đánh giá độ chính xác phân tích cú pháp 136
5.2.5. Kết quả và đánh giá về tập luật PCFG 137
5.2.5.1. Kết quả tập luật PCFG 137
5.2.5.2. Đánh giá về tập mẫu và tập luật 138
Kết chương 138
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 139
Kết quả đạt được 139
Hướng phát triển 139
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 140
PHỤ LỤC: 142
BỘ LUẬT PCFG 142
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links