bachmahoangtu9989
New Member
Download Luận văn Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không
MỤC LỤC
trang
Lời Thank 1
Mục lục 2
Danh mục các bảng 5
Danh mục các hình vẽ 6
Lời nói đầu 7
Chương 1: Tổng quan vềdịch máy
I) Định nghĩa dịch máy 11
II) Vai trò của dịch máy 12
III) Lịch sửdịch máy 13
1) Giai đoạn 1930 - 1940 14
2) Giai đoạn 1940 - 1970 14
3) Giai đoạn 1970 - 1990 16
4) Giai đoạn 1990 - hiện nay 17
IV) Phân loại dịch máy 18
I) Phạm vi của luận văn 19
VI) Kết chương 20
Chương 2: Các phương pháp dịch máy
I) Vấn đềngôn ngữtrong dịch máy 21
II) Kho ngữliệu 24
III) Dịch trực tiếp 25
IV) Dịch chuyển đổi 27
1) Dịch chuyển đổi cú pháp 27
2) Dịch chuyển đổi cú pháp + phân giải ngữnghĩa 29
3) Quy trình dịch chuyển đổi 30
V) Dịch máy dựa trên thống kê (Statistical Machine Translation) 29
VI) Dịch máy dựa trên mẫu ví dụ(Example-Based Machine Translation) 32
VII) Dịch dựa trên cơsởtri thức 33
VIII) Dịch dựa trên ngữliệu 33
IX) Dịch liên ngữ 33
1) Ưu điểm 34
2) Nhược điểm 35
3) Phân hoạch liên ngữ 36
X) Kết chương 38
Chương 3: Từ điển hàng không
I) Khảo sát 39
1) Tập hợp các từ điển Anh - Việt hàng không (dạng sách) 40
2) Tập hợp các từ điển Anh - Việt thông dụng (dạng phần mềm) 41
II) Biên tập đểxây dựng kho ngữliệu
1) Nhập liệu (từ, nghĩa từ, từxem thêm) 42
2) Phân nhóm từ 42
3) Biên tập 43
III) Lựa chọn mô hình, thiết kếgiải thuật, giao diện và viết chương trình 44
IV) Thiết kếvà viết mã 49
V) Xin ý kiến đóng góp của các chuyên gia và người sửdụng. Hoàn thiện từ điển và thửnghiệm dịch máy 60
VI) Tài liệu sửdụng 62
VII) Kết chương 62
Chương 4: Cài đặt chương trình thửnghiệm và đánh giá
I) Cách tiếp cận 62
II) Bộdữliệu thử 63
III) Các yêu cầu vềphần cứng, phần mềm của trình thửnghiệm 64
IV) Kết quảthực nghiệm 65
V) So sánh
1) Với EV-Trans 3.0 73
2) Với Lạc Việt từ điển (ởchức năng tra từtự động - AutoLook)
Chương 5: Kết luận - Hướng phát triển 76
Tài liệu tham khảo 78
Tóm tắt luận văn 82
Phụlục
http://cloud.liketly.com/flash/edoc/jh2i1fkjb33wa7b577g9lou48iyvfkz6-swf-2013-10-30-luan_van_tim_hieu_ky_thuat_dich_may_va_ung_dung_va.69PA0pVjUb.swf /tai-lieu/de-tai-ung-dung-tren-liketly-42759/
Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí
quy tắc dịch (cho những tình huống khác biệt giữa hai ngôn ngữ) kéo
theo rất nhiều quy tắc phân tích văn phạm (có dạng tương tự nhau trên
ngôn ngữ nguồn nhưng khác nhau về luật dịch sang ngôn ngữ đích)
• Dữ liệu chỉ sử dụng được cho dịch một chiều và cho một cặp ngôn ngữ.
Để dịch ngược lại ta phải xây dựng lại toàn bộ hệ quy tắc và từ vựng.
Con người dịch ngôn ngữ theo một cách hoàn toàn khác. Việc đọc hiểu
đúng câu văn (phân tích) không chiếm nhiều thời gian và công sức. Khó khăn
chính mà người dịch thường gặp là khi chuyển ngữ : tổng hợp câu văn của
Ngôn
ngữ
nguồn
Danh sách các
hình thái & nghĩa
Hình thái & nghĩa
thích hợp nhất
Ngôn
ngữ
đích
Từ điển song ngữ
Phân tích câu
nguồn
Tổng hợp câu
đích
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 29 -
ngôn ngữ đích. Chất lượng bản dịch phụ thuộc chủ yếu vào công việc tổng
hợp này.
Một biến thể của dịch chuyển đổi cú pháp là dịch chuyển đổi cú pháp cộng
phân giải ngữ nghĩa.
2) Dịch chuyển đổi cú pháp cộng phân giải ngữ nghĩa:
Dung hoà giữa mức độ phân tích cú pháp và phân giải ngữ nghĩa. Hệ dịch
chủ yếu dựa vào phân tích cú pháp, và chỉ phân giải ngữ nghĩa ở mức cần
thiết để khử nhập nhằng nghĩa.
3) Quy trình dịch chuyển đổi:
Thông thường, trong các hệ dịch máy theo phương pháp chuyển đổi chấp
nhận sơ đồ dịch gồm các bước sau:
• Phân tích:
- Ngắt câu để từ đoạn văn chọn ra một câu.
- Phân tích từ vựng: xử lý tiếp đầu, tiếp đuôi, ghép từ (đối với những
ngôn ngữ biến hình thì phần ghép từ là suy biến, còn đối với những
ngôn ngữ đơn lập thì phần xử lý tiếp đầu, tiếp đuôi là suy biến)
- Phân tích văn phạm: xây dựng tập các cây cú pháp của câu nguồn.
- Xử lý nhập nhằng: chọn ra cây cú pháp thích hợp nhất theo một tiêu
chí nào đó.
Nói cách khác, các bước trên sẽ dựa trên từ điển song ngữ và kiến thức
về văn phạm của ngôn ngữ nguồn, hệ phân tích câu cần dịch thành dãy
hình thái của các từ sau đó dựng cây cú pháp cho câu.
• Chuyển đổi:
- Chuyển đổi cây cú pháp : Thông thường là ứng với mỗi luật sinh
của ngôn ngữ nguồn có kèm theo một quy tắc dịch (chọn luật tương
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 30 -
ứng trong ngôn ngữ đích để xây dựng cây cú pháp của ngôn ngữ
đích từ cây cú pháp của ngôn ngữ nguồn).
• Sinh câu đích:
- Từ cây cú pháp. tổng hợp từ vựng và phát sinh bản dịch.
Ưu điểm hơn so với dịch trực tiếp, các hệ dịch chuyển đổi cho kết quả
dịch tốt hơn do câu đích sinh ra chuyển tải được cả nội dung về ngữ pháp và
ngữ nghĩa.
Nhược điểm của các hệ dịch chuyển đổi phải đối mặt với vấn đề nhập
nhằng về văn phạm và nhập nhằng về ngữ nghĩa, có nhiều phương pháp được
xây dựng để vượt qua hai vấn đề nan giải này, nhưng hiện tại chưa có một
phương pháp nào chứng tỏ sự vượt trội về mặt kết quả.
Việc phân tích văn phạm của hệ dịch chuyển đổi có thể dừng ở nhiều
mức độ, tùy vào sự chi tiết của bộ luật văn phạm mà hệ dịch sử dụng. Mức độ
chi tiết của hệ luật văn phạm càng cao thì hệ dịch càng phân tích được chính
xác các thành phần trong câu nguồn và kết quả dịch cũng càng chính xác hơn;
nhưng, mức độ chi tiết cao cũng kéo theo sự phức tạp của bộ luật văn phạm
và khả năng phải đối mặt với sự nhập nhằng của hệ dịch cũng tăng lên. Thật
vậy, cú pháp, cấu trúc, ngữ nghĩa của các ngôn ngữ khác nhau là không tương
đồng (không có tương ứng 1:1 giữa các cặp ngôn ngữ), một quy tắc trong
ngôn ngữ nguồn có thể tương ứng với nhiều quy tắc trong ngôn ngữ khác và
ngược lại Æ số quy tắc phải xây dựng để đối chiếu, so sánh giữa các cặp ngôn
ngữ tăng lên nhiều lần.
V) Dịch máy dựa trên thống kê (Statistical Machine Translation)
Tiếp cận dịch máy dựa trên thống kê xuất hiện vào cuối những năm
1980, được đề xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 31 -
máy Anh-Pháp Candide. Ý tưởng dịch máy bằng thống kê rất đơn giản và
thuần túy toán học: Thay vì xây dựng các từ điển, các quy luật chuyển đổi
bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên
thống kê. Cách tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ,
chúng thực hiện hoàn toàn tự động các quá trình phân tích, chuyển đổi, tạo
câu dựa trên kết quả thống kê có được từ kho ngữ liệu (corpus).
Phương pháp dịch dựa trên thống kê đòi hỏi phải có một tập dữ liệu cực
lớn các câu tương đương giữa ngôn ngữ nguồn và ngôn ngữ đích để có thể ra
kết quả thống kê chính xác, đây là trở ngại lớn cho các đề án dịch theo đuổi
phương pháp này vì việc xây dựng kho ngữ liệu lớn như vậy đòi hỏi công sức
và chi phí rất lớn. Chỉ một số tập đoàn, tổ chức lớn trên thế giới (như hãng
IBM, .v.v.) mới đủ sức theo đuổi đến cùng phương pháp này.
Hiện nay, do sức mạnh tính toán và lưu trữ của máy tính tăng lên rất
đáng kể, một số đề án dịch máy bằng thống kê đã cho ra nhiều kết quả đáng
giá với khối lượng tri thức lớn sử dụng trong thống kê. Nếu hệ dịch máy
bằng thống kê đầu tiên là hệ Candide của IBM sử dụng 2.205.733 cặp mẫu
câu Anh-Pháp tương đương thì hiện nay một số hệ dịch Arabian-Anh được sử
dụng trong các mục đích an ninh của cơ quan NSA sử dụng tới hơn 150 triệu
cặp mẫu câu Arập-Anh tương đương.
Một điều rất đáng ngạc nhiên nhưng rất logic là phương pháp dịch bằng
thống kê không quan tâm đến việc xử lý ngữ nghĩa nhưng chất lượng dịch của
các phương pháp này rất cao, hệ dịch Arập-Anh của NSA được đề cập ở trên
thậm chí không sử dụng từ điển nhưng vẫn có thể dịch được nghĩa bóng của
nhiều thành ngữ Arập. Vào thời điểm hiện nay, các hệ dịch bằng thống kê đi
tiên phong trong việc đạt được các câu dịch có chất lượng cao.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 32 -
VI) Dịch máy dựa trên mẫu ví dụ (Example-Based Machine Translation)
Ý tưởng về tiếp cận dịch bằng ví dụ được giới thiệu lần đầu tiên bởi
Nagao vào năm 1984 trong nỗ lực xây dựng hệ dịch tự động Nhật-Anh. Tư
tưởng của tiếp cận dịch bằng ví dụ rất đơn giản: Để dịch một câu chúng ta có
thể sử dụng kết quả dịch của một câu khác gần giống như vậy sửa đổi đi đôi
chút. Sơ đồ của một hệ dịch bằng ví dụ được thể hiện ở mô hình dưới đây:
Hình 2.3: Sơ đồ một hệ dịch dựa trên mẫu ví dụ
Tiếp cận dịch bằng ví dụ có nhiều ưu điểm:
• Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ
thống có một tập các ví dụ đủ phong phú.
• Các ngôn ngữ nguồn và đích không cần được khảo sát trước về
mặt từ vựng và ngữ pháp.
• T...
Download miễn phí Luận văn Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không
MỤC LỤC
trang
Lời Thank 1
Mục lục 2
Danh mục các bảng 5
Danh mục các hình vẽ 6
Lời nói đầu 7
Chương 1: Tổng quan vềdịch máy
I) Định nghĩa dịch máy 11
II) Vai trò của dịch máy 12
III) Lịch sửdịch máy 13
1) Giai đoạn 1930 - 1940 14
2) Giai đoạn 1940 - 1970 14
3) Giai đoạn 1970 - 1990 16
4) Giai đoạn 1990 - hiện nay 17
IV) Phân loại dịch máy 18
I) Phạm vi của luận văn 19
VI) Kết chương 20
Chương 2: Các phương pháp dịch máy
I) Vấn đềngôn ngữtrong dịch máy 21
II) Kho ngữliệu 24
III) Dịch trực tiếp 25
IV) Dịch chuyển đổi 27
1) Dịch chuyển đổi cú pháp 27
2) Dịch chuyển đổi cú pháp + phân giải ngữnghĩa 29
3) Quy trình dịch chuyển đổi 30
V) Dịch máy dựa trên thống kê (Statistical Machine Translation) 29
VI) Dịch máy dựa trên mẫu ví dụ(Example-Based Machine Translation) 32
VII) Dịch dựa trên cơsởtri thức 33
VIII) Dịch dựa trên ngữliệu 33
IX) Dịch liên ngữ 33
1) Ưu điểm 34
2) Nhược điểm 35
3) Phân hoạch liên ngữ 36
X) Kết chương 38
Chương 3: Từ điển hàng không
I) Khảo sát 39
1) Tập hợp các từ điển Anh - Việt hàng không (dạng sách) 40
2) Tập hợp các từ điển Anh - Việt thông dụng (dạng phần mềm) 41
II) Biên tập đểxây dựng kho ngữliệu
1) Nhập liệu (từ, nghĩa từ, từxem thêm) 42
2) Phân nhóm từ 42
3) Biên tập 43
III) Lựa chọn mô hình, thiết kếgiải thuật, giao diện và viết chương trình 44
IV) Thiết kếvà viết mã 49
V) Xin ý kiến đóng góp của các chuyên gia và người sửdụng. Hoàn thiện từ điển và thửnghiệm dịch máy 60
VI) Tài liệu sửdụng 62
VII) Kết chương 62
Chương 4: Cài đặt chương trình thửnghiệm và đánh giá
I) Cách tiếp cận 62
II) Bộdữliệu thử 63
III) Các yêu cầu vềphần cứng, phần mềm của trình thửnghiệm 64
IV) Kết quảthực nghiệm 65
V) So sánh
1) Với EV-Trans 3.0 73
2) Với Lạc Việt từ điển (ởchức năng tra từtự động - AutoLook)
Chương 5: Kết luận - Hướng phát triển 76
Tài liệu tham khảo 78
Tóm tắt luận văn 82
Phụlục
http://cloud.liketly.com/flash/edoc/jh2i1fkjb33wa7b577g9lou48iyvfkz6-swf-2013-10-30-luan_van_tim_hieu_ky_thuat_dich_may_va_ung_dung_va.69PA0pVjUb.swf /tai-lieu/de-tai-ung-dung-tren-liketly-42759/
Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí
Tóm tắt nội dung tài liệu:
hức tạp nhất chính là phân tích cú pháp. Kết quả là phải cần rất nhiềuquy tắc dịch (cho những tình huống khác biệt giữa hai ngôn ngữ) kéo
theo rất nhiều quy tắc phân tích văn phạm (có dạng tương tự nhau trên
ngôn ngữ nguồn nhưng khác nhau về luật dịch sang ngôn ngữ đích)
• Dữ liệu chỉ sử dụng được cho dịch một chiều và cho một cặp ngôn ngữ.
Để dịch ngược lại ta phải xây dựng lại toàn bộ hệ quy tắc và từ vựng.
Con người dịch ngôn ngữ theo một cách hoàn toàn khác. Việc đọc hiểu
đúng câu văn (phân tích) không chiếm nhiều thời gian và công sức. Khó khăn
chính mà người dịch thường gặp là khi chuyển ngữ : tổng hợp câu văn của
Ngôn
ngữ
nguồn
Danh sách các
hình thái & nghĩa
Hình thái & nghĩa
thích hợp nhất
Ngôn
ngữ
đích
Từ điển song ngữ
Phân tích câu
nguồn
Tổng hợp câu
đích
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 29 -
ngôn ngữ đích. Chất lượng bản dịch phụ thuộc chủ yếu vào công việc tổng
hợp này.
Một biến thể của dịch chuyển đổi cú pháp là dịch chuyển đổi cú pháp cộng
phân giải ngữ nghĩa.
2) Dịch chuyển đổi cú pháp cộng phân giải ngữ nghĩa:
Dung hoà giữa mức độ phân tích cú pháp và phân giải ngữ nghĩa. Hệ dịch
chủ yếu dựa vào phân tích cú pháp, và chỉ phân giải ngữ nghĩa ở mức cần
thiết để khử nhập nhằng nghĩa.
3) Quy trình dịch chuyển đổi:
Thông thường, trong các hệ dịch máy theo phương pháp chuyển đổi chấp
nhận sơ đồ dịch gồm các bước sau:
• Phân tích:
- Ngắt câu để từ đoạn văn chọn ra một câu.
- Phân tích từ vựng: xử lý tiếp đầu, tiếp đuôi, ghép từ (đối với những
ngôn ngữ biến hình thì phần ghép từ là suy biến, còn đối với những
ngôn ngữ đơn lập thì phần xử lý tiếp đầu, tiếp đuôi là suy biến)
- Phân tích văn phạm: xây dựng tập các cây cú pháp của câu nguồn.
- Xử lý nhập nhằng: chọn ra cây cú pháp thích hợp nhất theo một tiêu
chí nào đó.
Nói cách khác, các bước trên sẽ dựa trên từ điển song ngữ và kiến thức
về văn phạm của ngôn ngữ nguồn, hệ phân tích câu cần dịch thành dãy
hình thái của các từ sau đó dựng cây cú pháp cho câu.
• Chuyển đổi:
- Chuyển đổi cây cú pháp : Thông thường là ứng với mỗi luật sinh
của ngôn ngữ nguồn có kèm theo một quy tắc dịch (chọn luật tương
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 30 -
ứng trong ngôn ngữ đích để xây dựng cây cú pháp của ngôn ngữ
đích từ cây cú pháp của ngôn ngữ nguồn).
• Sinh câu đích:
- Từ cây cú pháp. tổng hợp từ vựng và phát sinh bản dịch.
Ưu điểm hơn so với dịch trực tiếp, các hệ dịch chuyển đổi cho kết quả
dịch tốt hơn do câu đích sinh ra chuyển tải được cả nội dung về ngữ pháp và
ngữ nghĩa.
Nhược điểm của các hệ dịch chuyển đổi phải đối mặt với vấn đề nhập
nhằng về văn phạm và nhập nhằng về ngữ nghĩa, có nhiều phương pháp được
xây dựng để vượt qua hai vấn đề nan giải này, nhưng hiện tại chưa có một
phương pháp nào chứng tỏ sự vượt trội về mặt kết quả.
Việc phân tích văn phạm của hệ dịch chuyển đổi có thể dừng ở nhiều
mức độ, tùy vào sự chi tiết của bộ luật văn phạm mà hệ dịch sử dụng. Mức độ
chi tiết của hệ luật văn phạm càng cao thì hệ dịch càng phân tích được chính
xác các thành phần trong câu nguồn và kết quả dịch cũng càng chính xác hơn;
nhưng, mức độ chi tiết cao cũng kéo theo sự phức tạp của bộ luật văn phạm
và khả năng phải đối mặt với sự nhập nhằng của hệ dịch cũng tăng lên. Thật
vậy, cú pháp, cấu trúc, ngữ nghĩa của các ngôn ngữ khác nhau là không tương
đồng (không có tương ứng 1:1 giữa các cặp ngôn ngữ), một quy tắc trong
ngôn ngữ nguồn có thể tương ứng với nhiều quy tắc trong ngôn ngữ khác và
ngược lại Æ số quy tắc phải xây dựng để đối chiếu, so sánh giữa các cặp ngôn
ngữ tăng lên nhiều lần.
V) Dịch máy dựa trên thống kê (Statistical Machine Translation)
Tiếp cận dịch máy dựa trên thống kê xuất hiện vào cuối những năm
1980, được đề xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 31 -
máy Anh-Pháp Candide. Ý tưởng dịch máy bằng thống kê rất đơn giản và
thuần túy toán học: Thay vì xây dựng các từ điển, các quy luật chuyển đổi
bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên
thống kê. Cách tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ,
chúng thực hiện hoàn toàn tự động các quá trình phân tích, chuyển đổi, tạo
câu dựa trên kết quả thống kê có được từ kho ngữ liệu (corpus).
Phương pháp dịch dựa trên thống kê đòi hỏi phải có một tập dữ liệu cực
lớn các câu tương đương giữa ngôn ngữ nguồn và ngôn ngữ đích để có thể ra
kết quả thống kê chính xác, đây là trở ngại lớn cho các đề án dịch theo đuổi
phương pháp này vì việc xây dựng kho ngữ liệu lớn như vậy đòi hỏi công sức
và chi phí rất lớn. Chỉ một số tập đoàn, tổ chức lớn trên thế giới (như hãng
IBM, .v.v.) mới đủ sức theo đuổi đến cùng phương pháp này.
Hiện nay, do sức mạnh tính toán và lưu trữ của máy tính tăng lên rất
đáng kể, một số đề án dịch máy bằng thống kê đã cho ra nhiều kết quả đáng
giá với khối lượng tri thức lớn sử dụng trong thống kê. Nếu hệ dịch máy
bằng thống kê đầu tiên là hệ Candide của IBM sử dụng 2.205.733 cặp mẫu
câu Anh-Pháp tương đương thì hiện nay một số hệ dịch Arabian-Anh được sử
dụng trong các mục đích an ninh của cơ quan NSA sử dụng tới hơn 150 triệu
cặp mẫu câu Arập-Anh tương đương.
Một điều rất đáng ngạc nhiên nhưng rất logic là phương pháp dịch bằng
thống kê không quan tâm đến việc xử lý ngữ nghĩa nhưng chất lượng dịch của
các phương pháp này rất cao, hệ dịch Arập-Anh của NSA được đề cập ở trên
thậm chí không sử dụng từ điển nhưng vẫn có thể dịch được nghĩa bóng của
nhiều thành ngữ Arập. Vào thời điểm hiện nay, các hệ dịch bằng thống kê đi
tiên phong trong việc đạt được các câu dịch có chất lượng cao.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 32 -
VI) Dịch máy dựa trên mẫu ví dụ (Example-Based Machine Translation)
Ý tưởng về tiếp cận dịch bằng ví dụ được giới thiệu lần đầu tiên bởi
Nagao vào năm 1984 trong nỗ lực xây dựng hệ dịch tự động Nhật-Anh. Tư
tưởng của tiếp cận dịch bằng ví dụ rất đơn giản: Để dịch một câu chúng ta có
thể sử dụng kết quả dịch của một câu khác gần giống như vậy sửa đổi đi đôi
chút. Sơ đồ của một hệ dịch bằng ví dụ được thể hiện ở mô hình dưới đây:
Hình 2.3: Sơ đồ một hệ dịch dựa trên mẫu ví dụ
Tiếp cận dịch bằng ví dụ có nhiều ưu điểm:
• Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ
thống có một tập các ví dụ đủ phong phú.
• Các ngôn ngữ nguồn và đích không cần được khảo sát trước về
mặt từ vựng và ngữ pháp.
• T...