Download Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh – Việt dựa trên ngữ

Download miễn phí Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh – Việt dựa trên ngữ





MỤC LỤC
MỤC LỤC i
DANH SÁCH CÁC BẢNG iii
DANH SÁCH CÁC HÌNH iv
DANH SÁCH CÁC TỪ VIẾT TẮT v
CHƯƠNG 1 : GIỚI THIỆU 1
1.1 Đặt vấn đề 1
1.2 Hướng tiếp cận của đề tài 1
1.3 Nội dung của luận văn 3
CHƯƠNG 2 : TỔNG QUAN 4
2.1 Dịch máy thống kê (Statistical Machine Translation - SMT) 4
2.1.1 Dịch máy thống kê dựa trên từ (Word-based SMT) 4
2.1.2 Dịch máy thống kê dựa trên ngữ (Phrase-based SMT) 6
2.1.3 Dịch máy thống kê dựa trên cú pháp (Syntax-based SMT) 10
2.2 Các hướng tiếp cận trong chuyển đổi trật tự từ 14
2.2.1 Chuyển đổi trật tự câu ngôn ngữ đích 15
2.2.2 Chuyển đổi trật tự câu ngôn ngữ nguồn 17
CHƯƠNG 3 : MÔ HÌNH CỦA ĐỀ TÀI 28
3.1 Mô hình chung của đề tài 28
3.2 Xây dựng tập luật chuyển đổi bằng tay 29
3.2.1 Luật chuyển đổi trong danh ngữ 29
3.2.2 Luật chuyển đổi trong động ngữ 31
3.2.3 Luật chuyển đổi trong tính ngữ 32
3.3 Luật chuyển đổi dựa trên cú pháp 33
3.4 Rút trích tự động luật chuyển đổi từ ngữ liệu song ngữ 35
3.4.1 Tri thức chuyển đổi 35
3.4.2 Áp dụng tri thức chuyển đổi 37
3.4.3 Tổng quát hóa tri thức chuyển đổi 38
CHƯƠNG 4 : THỰC NGHIỆM VÀ ĐÁNH GIÁ 39
4.1 Các đặc trưng của ngữ liệu 39
4.2 Các tiêu chuẩn đánh giá 40
4.2.1 BLUE (Bilingual Evaluation Understudy) 40
4.2.2 NIST 41
4.2.3 TER (Translation Error Rate) 41
4.3 Huấn luyện cho mô hình SMT 41
4.4 Các thí nghiệm 43
4.4.1 Chuyển đổi trật tự từ theo các luật cú pháp rút trích bằng tay 43
4.4.2 Chuyển đổi trật tự từ theo luật cú pháp rút trích tự động 48
4.4.3 Giảm gióng hàng từ chéo? 55
4.5 Đánh giá chung 56
CHƯƠNG 5 : KẾT LUẬN 58
TÀI LIỆU TRÍCH DẪN 60
CÔNG TRÌNH ĐÃ CÔNG BỐ 63
PHỤ LỤC 64
A. Danh sách các luật chuyển đổi được rút bằng tay 64
B. Một số luật chuyển đổi được rút tự động từ ngữ liệu I 65
C. Kết quả phân lớp trên ngữ liệu I 66
D. Kết quả dịch ngữ liệu I sau khi dùng mô hình xác suất để chuyển đổi trật tự từ 67
 



Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung:

ngữ Anh-Việt đã được gióng hàng từ, rút trích các gióng hàng cho các thành phần trong cây cú pháp từ gióng hàng từ đã có, và một tập các luật chuyển đổi dựa vào đặc điểm cú pháp được xây dựng bằng tay. Tất cả các thông tin này được sử dụng để huấn luyện các luật ngữ pháp phi ngữ cảnh theo xác suất (Probabilistic Context Free Grammar - PCFG) dùng cho việc chuyển đổi trật tự. Cuối cùng, các thông tin này được dùng để chuyển đổi trật tự trong giai đoạn tiền xử lý, huấn luyện và giải mã của SMT.
Hình 2.13 minh họa qui trình rút luật chuyển đổi của tác giả:
Hình 2.13 Qui trình rút luật chuyển đổi của [14][15]
Hiện tượng
Mô tả
Trật tự theo tiếng Việt
Ví dụ
+pl
Danh từ số nhiều
+pl noun
+pl book
+sg3
Động từ ngôi thứ ba số ít
+sg3 verb
+sg3 like
+ed
Động từ quá khứ
+ed verb
+ed like
+ing
Hiện tại phân từ
+ing verb
+ing like
+pp
Quá khứ phân từ
+pp verb
+pp like
+er
So sánh hơn
adj/adv +er
small +er
+est
So sánh nhất
adj/adv +est
small +est
Bảng 2.3 Các luật chuyển đổi về mặt hình thái của [14][15]
Ngoài mô hình chuyển đổi trên cú pháp tác giả còn sử dụng mô hình chuyển đổi trên hình thái. Các luật chuyển đổi về mặt hình thái được tác giả tạo bằng tay và tập trung vào các hiện tượng được liệt kê trong bảng 2.3.
Tác giả đã áp dụng các mô hình đề nghị trên cho hệ dịch Anh-Pháp và Anh-Việt và đạt được kết quả khả quan, trên ngữ liệu tiếng Việt điểm BLEU tăng khoảng 2.4% và 2.5%, trên ngữ liệu của Europa (cho hệ dịch Anh-Pháp) điểm BLEU tăng khoảng 1.61%.
MÔ HÌNH CỦA ĐỀ TÀI
Trong các hướng tiếp cận của chuyển đổi trật tự từ, luận văn chọn cách tiếp cận chuyển đổi trật tự từ câu ngôn ngữ nguồn bằng cách sử dụng luật cú pháp, và áp dụng cho hệ dịch máy thống kê Anh-Việt dựa trên ngữ. Chương này trình bày chi tiết về mô hình của đề tài, định dạng luật cú pháp được sử dụng cũng như các phương pháp máy học đã được áp dụng trong quá trình rút trích tự động các luật chuyển đổi.
Mô hình chung của đề tài
Mục tiêu của đề tài là thực hiện chuyển đổi trật tự câu tiếng Anh sao cho càng giống với trật tự từ trong câu tiếng Việt càng tốt. Câu tiếng Anh sau khi được chuyển đổi sẽ được đưa vào hệ dịch SMT, và dịch sang câu tiếng Việt với chọn lựa cho bộ giải mã (decoder) là dịch mà không thay đổi trật tự từ tiếng Việt trong câu (monotone).
Hình 3.1 mô tả các bước xử lý chung trong chuyển đổi trật tự từ câu tiếng Anh.
Hình 3.1 Các bước chi tiết chuyển đổi trật tự từ dùng luật chuyển đổi theo cú pháp
Như đã trình bày trong chương 2, trong hướng tiếp cận này các câu tiếng Anh sẽ được phân tích cú pháp, sau đó các luật chuyển đổi trật tự sẽ được áp dụng cho cây cú pháp tiếng Anh. Đầu ra sẽ là câu tiếng Anh theo trật tự từ tiếng Việt.
Trong giới hạn của đề tài này luật chuyển đổi theo cú pháp sẽ được xây dựng theo hai cách:
Tập luật chuyển đổi bằng tay được tạo bằng cách dựa vào đối sánh trật tự từ giữa tiếng Anh và tiếng Việt. Trong trường hợp này xác suất áp dụng một luật chuyển đổi cho một nút trong cây cú pháp luôn luôn là 1.
Các luật chuyển đổi sẽ được rút trích từ ngữ liệu song ngữ đi kèm với xác suất tương ứng của nó. Trong trường hợp này xác suất áp dụng một luật chuyển đổi sẽ tùy thuộc vào xác suất của chính luật chuyển đổi và các đặc trưng của nút đó.
Xây dựng tập luật chuyển đổi bằng tay
Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase), tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (prepositional phrase). Trong giới hạn của đề tài, chúng tui chỉ tập trung vào 3 loại ngữ đầu tiên (danh ngữ, động ngữ và tính ngữ) được xem là có nhiều khác biệt về trật tự từ giữa tiếng Anh và tiếng Việt so với các loại còn lại.
Luật chuyển đổi trong danh ngữ
[1] đã chỉ ra các vị trí trong cấu tạo của danh ngữ tiếng Anh mà có sự khác biệt về trật tự từ với tiếng Việt.
Định từ (determiner)
Với vị trí này, chỉ có một số trường hợp đặc biệt thì trật tự từ mới thay đổi khi dịch từ tiếng Anh sang tiếng Việt.
Ví dụ xét 2 ngữ danh từ sau:
The/DT house/NN (nhà) à khi dịch sang tiếng Việt định từ “The/DT” không thay đổi vị trí.
This/DT computer/NN (cái máy_tính này) à rõ ràng vị trí của định từ “This/DT” bị hoán đổi với vị trí của “book” khi dịch sang tiếng Việt.
That/DT interesting/JJ book/NN (quyển sách thú_vị đó) à vị trí của định từ “That/DT” bị hoán đổi với các phần còn lại của danh ngữ.
Với vị trị này chúng tui rút ra một luật chuyển đổi như sau: nếu danh ngữ có chứa định từ tại vị trí bắt đầu, mà định từ đó là một trong các từ “this, that, these, those” thì hoán đổi vị trí của định từ với các thành phần còn lại trong danh ngữ. Với hai trường hợp b, c ở trên, sau khi áp dụng luật hoán đổi này ta có các kết quả tương ứng như sau:
b. computer this c. interesting book that
Tính từ bổ nghĩa trước danh từ chính (pre-modifier)
Vị trí của tính từ bổ nghĩa trước danh từ là một vị trí khác biệt quan trọng trong đối sánh trật tự từ tiếng Anh và tiếng Việt. Trong tiếng Anh tính từ bổ nghĩa luôn luôn đứng trước danh từ, trong khi tiếng Việt thì ngược lại. Điều này được nhận thấy rõ qua các ví dụ sau:
A/DT good/JJ student/NN ó 1 sinh_viên giỏi
An/DT interesting/JJ book/NN ó một quyển sách hay
A/DT small/JJ pink/JJ cup/NN ó một cái tách nhỏ màu hồng
Luật chuyển đổi tại vị trí này như sau: nếu danh ngữ có chứa tính từ hay tính ngữ đứng trước danh từ chính thì hoán đổi vị trí của tính từ/ngữ với danh từ chính. Áp dụng luật chuyển đổi này cho các trường hợp a, b, c ta được các ngữ tiếng Anh sau:
a student good b. an book intersting c. a cup small pink
Lưu ý rằng khi hoán đổi trật tự của tính ngữ với danh từ chính thì các thành phần con bên trong tính ngữ cũng sẽ đi theo nút cha của nó.
Tính từ sở hữu (possessive adjective)
Trong danh ngữ tiếng Anh tính từ sở hữu đứng đầu, trong khi đó với danh ngữ tiếng Việt tính từ sở hữu lại đứng cuối danh ngữ. Xét các ví dụ sau:
Her/PRP$ computer/NN ó cái máy_tính của cô ấy
Her/PRS$ blue/JJ eyes/NNS ó đôi mắt màu xanh của cô ấy
Luật chuyển đổi được rút ra như sau: nếu trong danh ngữ có tính từ sở hữu thì chuyển tính từ sở hữu về vị trí cuối cùng của danh ngữ. Các ví dụ trên sẽ được chuyển đổi như sau:
computer her b. blue eyes her
Sở hữu cách (possessive case)
Trường hợp sở hữu cách cũng tương tự như trường hợp tính từ sở hữu. Luật chuyển đổi khi gặp trường hợp này: khi danh ngữ có chứa thành phần sở hữu cách và danh từ chính thì hoán đổi vị trí của sở hữu cách và danh từ chính. Xét ví dụ sau:
The/DT computer/NN ’s/POS ó ’s The computer (… của máy tính)
Mary/NNP ’s/POS ó ’s Mary (… của Mary)
Danh từ phụ (sub noun)
Vị trí của danh từ phụ cũng hoàn toàn trái ngược giữa tiếng Anh và tiếng Việt nên luật chuyển đổi cho danh từ phụ cũng tương tự như luật chuyển đổi cho tính từ. Trong trường hợp có nhiều danh từ phụ cùng bổ nghĩa cho danh từ chính, thì vị trí của các danh từ phụ sẽ được đảo ngược lại theo th
 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
D Nghiên cứu, thiết kế và chế tạo mô hình hệ thống truyền nhận dữ liệu sử dụng mạng Can trên Toyota Camry 2007 Khoa học kỹ thuật 0
D Thiết kế, lắp đặt mô hình điều khiển ghế điện sử dụng điều khiển lập trình để nhớ ghế Khoa học kỹ thuật 0
D Hướng dẫn sử dụng phần mềm ansys maxwell mô phỏng động cơ Khoa học kỹ thuật 0
D SKKN sử dụng mô hình trực quan trong dạy học bài giới thiệu về máy tính - tin học 10 Luận văn Sư phạm 0
A Nghiên cứu và đề xuất mô hình chuẩn để xây dựng một ứng dụng Portal (Portlet) sử dụng JSR168 và độc lập với các Portal Engine Luận văn Kinh tế 0
H Thiết kế mô hình pha trộn dung dịch sử dụng PLC S7-200 Công nghệ thông tin 3
B Tra cứu ảnh dựa trên nội dung với phản hồi liên quan sử dụng mô hình học trên đồ thị Công nghệ thông tin 2
D Nghiên cứu triển khai thí điểm mô hình xử lý rác thải hữu cơ tại bãi rác Khánh Sơn bằng công nghệ hầm Biogas và sử dụng động cơ biogas để sản xuất điện + bản vẽ Khoa học Tự nhiên 0
T Sử dụng mô hình phân tích hiệu quả hoạt động tín dụng của Thanh Quan thuộc ngân hàng thương mại CP Nhà Hà Nội đối với các ngành xây dựng, vận tải và thông tin liên lạc Luận văn Kinh tế 0
N Nghiên cứu thống kê quy mô, cơ cấu, tình hình sử dụng và hiệu quả sử dụng tài sản cố định của công ty đúc Tân Long thời kỳ 1999 - 2005 Luận văn Kinh tế 0

Các chủ đề có liên quan khác

Top