Mod mới có tài liệu này chia sẻ miễn phí cho các bạn
Tên luận án: Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt
Chuyên ngành: Truyền dữ liệu và mạng máy tính Mã số: 62.48.15.01
Nghiên cứu sinh: Phan Thị Hà
Cán bộ hướng dẫn: 1. PGS.TS Trần Hồng Quân 2. TS. Nguyễn Thị Minh Huyền
Cơ sở đào tạo: Học viện Công nghệ Bưu chính Viễn thông
I.KẾT QUẢ MỚI CỦA LUẬN ÁN
1. Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ).
2. Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài nguyên ngôn ngữ được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp (MAF Morphosyntactic Annotation Framework) và mô hình chú giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho kho ngữ liệu tiếng Việt.
3. Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng. Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô được tách từ và gán nhãn từ loại bằng cách sử dụng công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống nghiên cứu từ vựng Sketch Engine. Kết quả thử nghiệm cho thấy bộ quan hệ ngữ pháp và kho ngữ liệu tiếng Việt thu thập từ Internet có độ phù hợp 100% trên hệ thống Sketch Engine.
4. Xây dựng thuật toán, hệ thống trích rút tự động các luật văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn bản đã gán nhãn cú pháp VietTreebank. Đồng thời xây dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp đã được cải tiến từ thuật toán PCYK của Martin. Tham gia triển khai thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ VietTreebank. Xây dựng và triển khai thuật toán trích rút cây cơ bản cho văn phạm TAG từ từ điển tiếng Việt. So sánh tập cây cơ bản trích rút từ VietTreebank và từ điển tiếng Việt để lọc ra các cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank cũng như từ điển.
II. HƯỚNG PHÁT TRIỂN
1. Triển khai mô hình bán giám sát kết hợp sử dụng kho ngữ liệu đã gán nhãn và kho ngữ liệu thô có kích thước lớn để xây dựng công cụ gán nhãn từ loại tiếng Việt đạt hiệu suất cao hơn.
2. Mở rộng VietTreebank và tìm hiểu thêm một số văn phạm cho vấn đề phân tích cú pháp. Nghiên cứu và triển khai hệ thống phân tích cú pháp trên văn phạm LTAG kết hợp xác suất.
3. Nghiên cứu xây dựng và khai thác kho ngữ liệu ngôn ngữ ở mức cao hơn đó là ngữ nghĩa.
4. Ứng dụng các chuẩn quốc tế về chú giải ngữ liệu cho tiếng Việt ở các mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v.
Đặt vấn đề
Những năm gần đây, xử lý ngôn ngữ tự nhiên (XLNNTN) đã trở thành một
lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên
quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá
văn bản, Web ngữ nghĩa, tóm tắt văn bản v.v.
Các nghiên cứu và ứng dụng về xử lý ngôn ngữ trên thế giới đã có một lịch
sử lâu dài và được chia thành các giai đoạn chính như sau [41]: Thời kỳ đầu tiên,
bắt đầu từ những năm 1940-1950 mô hình ôtomat và các mô hình xác suất có ảnh
hưởng sâu sắc đến xử lý ngôn ngữ. Giai đoạn tiếp theo (1957-1970) xử lý ngôn ngữ
được chia thành hai nhánh tách biệt, nhánh hình thức tập trung vào các vấn đề
thuộc lĩnh vực lý thuyết ngôn ngữ hình thức và trí tuệ nhân tạo; kiểu ngẫu nhiên sử
dụng trong nhận dạng như các phương pháp Bayes. Giai đoạn 1970-1983 xuất hiện
bốn trường phái xử lý ngôn ngữ chính, đó là sử dụng phương pháp ngẫu nhiên; dựa
vào logic; hiểu ngôn ngữ tự nhiên; mô hình hóa diễn ngôn. Giai đoạn 1983-1993
việc huấn luyện các mô hình trạng thái hữu hạn, các mô hình xác suất dựa vào dữ
liệu đã xuất hiện hầu hết trong các nhiệm vụ của xử lý ngôn ngữ.
Từ những năm 1990 trở lại đây, mô hình thống kê dựa vào dữ liệu đã chứng
tỏ tính vượt trội của mình trong các công việc của xử lý ngôn ngữ [98, 99]. Công
nghệ xử lý văn bản và xử lý tiếng nói không còn cách biệt, công nghệ xử lý tiếng
nói không chỉ dựa vào các kỹ thuật xử lý tín hiệu mà còn dựa vào cả việc hiểu ngôn
ngữ. Tham số của mô hình thống kê hay mô hình trạng thái có thể huấn luyện từ
các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả cao như
Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF)
[70, 71] v.v.
Vấn đề phân tích và hiểu tự động văn bản là một vấn đề lớn và phức tạp
trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lý
văn bản tự động. Quá trình này thường được chia thành các mức cơ bản [41]: Mức ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa và mức ngữ dụng.
Mức ngữ âm (phonetics and phonology). Nghiên cứu về cách phát âm, bản
chất thanh điệu, ngôn điệu, ngữ điệu, trường độ âm tiết, độ nhấn, biến thanh… của
các từ;
Mức hình thái từ (morphology). Nhằm phân tích hình thái các từ vựng tạo
nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ;
Mức cú pháp (syntax). Mô tả quan hệ vai trò ngữ pháp của các từ, các cụm
từ (hay ngữ) trong câu, từ đó xây dựng cấu trúc câu;
Mức ngữ nghĩa (semantics). Mục đích của mức này là kiểm tra ý nghĩa của
câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về
nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ
xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn;
Mức ngữ dụng (pragmatics). Mục đích là phân tích để xác định ý nghĩa của
câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc
rất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực
hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ
nghĩa, còn việc phân tích ngữ dụng do người dùng tự quyết định;
Mức diễn ngôn (discourse). Phân tích về mặt diễn đạt và ngữ cảnh tình
huống trong một đoạn phát ngôn.
Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn (corpora) đã được ra
đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ. Tuy nhiên, mỗi mức
xử lý cần các kho ngữ liệu với những yêu cầu đặc trưng riêng, ví dụ, với mức hình
thái từ thì cần có kho ngữ liệu huấn luyện (đã được chú giải hình thái) càng lớn
càng tốt, kho ngữ liệu lớn sẽ cải thiện được độ chính xác mô tả thông tin ngôn ngữ,
với mức cú pháp, đòi hỏi phải xây dựng được kho ngữ liệu đã được chú giải từ loại
hay cú pháp.
Hiện nay trên thế giới đã tồn tại nhiều kho ngữ liệu chuẩn. Nhiều kho ngữ
liệu được xây dựng cho tiếng Anh tiêu biểu là BNC [37], ANC [58], Penn Treebank
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
- Bạn nào có tài liệu gì hay thì up lên đây chia sẻ cùng anh em.
- Ai cần tài liệu gì mà không tìm thấy ở forum, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí
Tên luận án: Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt
Chuyên ngành: Truyền dữ liệu và mạng máy tính Mã số: 62.48.15.01
Nghiên cứu sinh: Phan Thị Hà
Cán bộ hướng dẫn: 1. PGS.TS Trần Hồng Quân 2. TS. Nguyễn Thị Minh Huyền
Cơ sở đào tạo: Học viện Công nghệ Bưu chính Viễn thông
I.KẾT QUẢ MỚI CỦA LUẬN ÁN
1. Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ).
2. Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài nguyên ngôn ngữ được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp (MAF Morphosyntactic Annotation Framework) và mô hình chú giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho kho ngữ liệu tiếng Việt.
3. Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng. Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô được tách từ và gán nhãn từ loại bằng cách sử dụng công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống nghiên cứu từ vựng Sketch Engine. Kết quả thử nghiệm cho thấy bộ quan hệ ngữ pháp và kho ngữ liệu tiếng Việt thu thập từ Internet có độ phù hợp 100% trên hệ thống Sketch Engine.
4. Xây dựng thuật toán, hệ thống trích rút tự động các luật văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn bản đã gán nhãn cú pháp VietTreebank. Đồng thời xây dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp đã được cải tiến từ thuật toán PCYK của Martin. Tham gia triển khai thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ VietTreebank. Xây dựng và triển khai thuật toán trích rút cây cơ bản cho văn phạm TAG từ từ điển tiếng Việt. So sánh tập cây cơ bản trích rút từ VietTreebank và từ điển tiếng Việt để lọc ra các cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank cũng như từ điển.
II. HƯỚNG PHÁT TRIỂN
1. Triển khai mô hình bán giám sát kết hợp sử dụng kho ngữ liệu đã gán nhãn và kho ngữ liệu thô có kích thước lớn để xây dựng công cụ gán nhãn từ loại tiếng Việt đạt hiệu suất cao hơn.
2. Mở rộng VietTreebank và tìm hiểu thêm một số văn phạm cho vấn đề phân tích cú pháp. Nghiên cứu và triển khai hệ thống phân tích cú pháp trên văn phạm LTAG kết hợp xác suất.
3. Nghiên cứu xây dựng và khai thác kho ngữ liệu ngôn ngữ ở mức cao hơn đó là ngữ nghĩa.
4. Ứng dụng các chuẩn quốc tế về chú giải ngữ liệu cho tiếng Việt ở các mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v.
Đặt vấn đề
Những năm gần đây, xử lý ngôn ngữ tự nhiên (XLNNTN) đã trở thành một
lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên
quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá
văn bản, Web ngữ nghĩa, tóm tắt văn bản v.v.
Các nghiên cứu và ứng dụng về xử lý ngôn ngữ trên thế giới đã có một lịch
sử lâu dài và được chia thành các giai đoạn chính như sau [41]: Thời kỳ đầu tiên,
bắt đầu từ những năm 1940-1950 mô hình ôtomat và các mô hình xác suất có ảnh
hưởng sâu sắc đến xử lý ngôn ngữ. Giai đoạn tiếp theo (1957-1970) xử lý ngôn ngữ
được chia thành hai nhánh tách biệt, nhánh hình thức tập trung vào các vấn đề
thuộc lĩnh vực lý thuyết ngôn ngữ hình thức và trí tuệ nhân tạo; kiểu ngẫu nhiên sử
dụng trong nhận dạng như các phương pháp Bayes. Giai đoạn 1970-1983 xuất hiện
bốn trường phái xử lý ngôn ngữ chính, đó là sử dụng phương pháp ngẫu nhiên; dựa
vào logic; hiểu ngôn ngữ tự nhiên; mô hình hóa diễn ngôn. Giai đoạn 1983-1993
việc huấn luyện các mô hình trạng thái hữu hạn, các mô hình xác suất dựa vào dữ
liệu đã xuất hiện hầu hết trong các nhiệm vụ của xử lý ngôn ngữ.
Từ những năm 1990 trở lại đây, mô hình thống kê dựa vào dữ liệu đã chứng
tỏ tính vượt trội của mình trong các công việc của xử lý ngôn ngữ [98, 99]. Công
nghệ xử lý văn bản và xử lý tiếng nói không còn cách biệt, công nghệ xử lý tiếng
nói không chỉ dựa vào các kỹ thuật xử lý tín hiệu mà còn dựa vào cả việc hiểu ngôn
ngữ. Tham số của mô hình thống kê hay mô hình trạng thái có thể huấn luyện từ
các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả cao như
Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF)
[70, 71] v.v.
Vấn đề phân tích và hiểu tự động văn bản là một vấn đề lớn và phức tạp
trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lý
văn bản tự động. Quá trình này thường được chia thành các mức cơ bản [41]: Mức ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa và mức ngữ dụng.
Mức ngữ âm (phonetics and phonology). Nghiên cứu về cách phát âm, bản
chất thanh điệu, ngôn điệu, ngữ điệu, trường độ âm tiết, độ nhấn, biến thanh… của
các từ;
Mức hình thái từ (morphology). Nhằm phân tích hình thái các từ vựng tạo
nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ;
Mức cú pháp (syntax). Mô tả quan hệ vai trò ngữ pháp của các từ, các cụm
từ (hay ngữ) trong câu, từ đó xây dựng cấu trúc câu;
Mức ngữ nghĩa (semantics). Mục đích của mức này là kiểm tra ý nghĩa của
câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về
nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ
xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn;
Mức ngữ dụng (pragmatics). Mục đích là phân tích để xác định ý nghĩa của
câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc
rất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực
hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ
nghĩa, còn việc phân tích ngữ dụng do người dùng tự quyết định;
Mức diễn ngôn (discourse). Phân tích về mặt diễn đạt và ngữ cảnh tình
huống trong một đoạn phát ngôn.
Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn (corpora) đã được ra
đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ. Tuy nhiên, mỗi mức
xử lý cần các kho ngữ liệu với những yêu cầu đặc trưng riêng, ví dụ, với mức hình
thái từ thì cần có kho ngữ liệu huấn luyện (đã được chú giải hình thái) càng lớn
càng tốt, kho ngữ liệu lớn sẽ cải thiện được độ chính xác mô tả thông tin ngôn ngữ,
với mức cú pháp, đòi hỏi phải xây dựng được kho ngữ liệu đã được chú giải từ loại
hay cú pháp.
Hiện nay trên thế giới đã tồn tại nhiều kho ngữ liệu chuẩn. Nhiều kho ngữ
liệu được xây dựng cho tiếng Anh tiêu biểu là BNC [37], ANC [58], Penn Treebank
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links
- Bạn nào có tài liệu gì hay thì up lên đây chia sẻ cùng anh em.
- Ai cần tài liệu gì mà không tìm thấy ở forum, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí