Link tải luận văn miễn phí cho ae Kết nối
Tập trung xây dựng kho ngữ liệu gán nhãn, cùng với các phương pháp để có thể quản lý được chất lượng của kho ngữ liệu. Nghiên cứu nhằm xây dựng các công cụ để nhận dạng và phân loại tên riêng một cách tự động cho văn bản tiếng Việt
Đăng 02 bài báo tại các hội nghị quốc tế chuyên ngành. Giúp đỡ 03 khóa luận tốt nghiệp
1 T ó m tắ t c á c k ế t q u ả n g h iên cứ u c h ín h c ủ a đ ề tài
Kêt quà vé khoa học (những đóng góp của đề tài, các công trình khoa học đã công bố)
2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)
• Dang Due Pham, Giang Binh Tran and Son Bao Pham. “A Hybrid Approach to
Vietnamese Word Segmentation using Part o f Speech tags”, Proceedings o f The first
International Conference on Knowledge and Systems Engineering (KSE 2009).
• Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham. “A Vietnamese Question
Answering S y s t e m Proceeding o f The first International Conference on Knowledge and
Systems Engineering (KSE 2009).
Két quả phục vụ thực tế (các sản phấm công nghệ, khả năng áp dụng thực tế)
Chúng tui đã nghiên cứu và phát triển một hệ thống nhận dạng thực thể có tên cho tiếng
Việt đạt kết quả khá khả quan, song song với đó là một bộ dữ liệu đã được gán nhãn chuẩn và
tài liệu định nghĩa các loại thực thể. Tất cả hệ thống và các tài liệu liên quan sẽ được mở cho
cộng đồng sử dụng và phát triển.
Kết quả đào tạo (sẻ lượng sinh viên, số lượng học viên cao học, nghiên cứu sinh tham gia
thực hiện làm việc trong đề tài, so khóa luận, luận vân đã hoàn thành và bảo vệ)
3 khóa luận tốt nghiệp CNTT:
'• Dat Ba Nguyen, "Named Entity Recognition fo r Vietnamese ”, Khóa luận tốt nghiệp
đại học, Trường Đại học Công Nghệ, 2009.
• Dai Quoc Nguyen, “Phương pháp xây dựng hệ thong hỏi đáp tiếng Việt dựa trên
Ontology”, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009.
• Dat Quoc Nguyên, “Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt ”,
Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009.
Kết quả nâng cao tiềm lực khoa học (năng cao trình độ cán bộ và trang thiết bị hợc phần
mềm đã xây dựng được giao nộp đưa vào sử dụng tại đơn vị):
Nâng cao năng lực chuyên môn cùa cán bộ phòng thí nghiệm về các lĩnh vực xử lý ngôn n»ừ
tự nhiên và trí tuệ nhân tạo.
BÁO CÁO TỔNG KẾT
1. G iói thiệu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích
chọn thông tin, tóm tát nội dung văn bản v .v ... ra đời như một nhu cầu tất yếu. Bài toán nhận
dạng thực thể là một bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin. Nó có
nhiệm vụ tìm kiểm và rút ra những thông tin liên quan đến thực thể (một đối tượng hay một
tập hợp đối tượng của thế giới tự nhiên) trong văn bản, thông thường là loại thực thể. Có thế
tùy theo từng bài toán, từng lĩnh vực cụ thể, người ta đưa ra danh sách những loại thực thể
được nhận dạng khác nhau. Các hệ thống nhận dạng thực thể trong văn bản [4], [8] thường
nhận một số loại thực thể:
• Thực thể chỉ người (Person).
• Thực thể chỉ tổ chức (Organization).
• Thực thể chỉ địa điểm (Location).
• Thực thể chỉ ngày (Date).
• Thực thể chỉ thời gian (Time).
• Thực thể chi các đơn vị tiền tệ (Money).
• Thực thể chi phần tràm (Percent).
Trong đó, loại thực thể chi ngày (Date), thực thể chỉ thời gian (Time), thực thể chi các
đượcm vị tiền tệ (M oney), thực thể chi phần trăm (Percent) thường ít mang tính nhập nhầng,
không khó để nhận dạng. Ngoài ra tùy từng lĩnh vực, người ta cỏ thể chú ý thêm vào những
loại thực thể khác đặc thù. Ví dụ hệ thống nhận dạng thực thể trong văn bản với lĩnh vực y tế
[14] sẽ nhận những thực thể chỉ tên thuốc, hay cácio ại bệnh v .v ... như những loại thực thể
chính.
Là một bài toán khá quan trọng và cơ bàn nhưng hiện nay vẫn chưa có nhiều nghiên cứu
về bài toán nhận dạng thực thể trong văn bản đối với tiếng Việt. Hơn nữa những hệ thống
hiện thời không phải là nguồn mở nên rất khó để tiếp cận sứ dụng và phát triển [4], [11].
Chính vì vậy chúng tui quyết định xây dựng một hệ thống nhận dạng thực thể sử dụng hệ
luật cho văn bản tiếng Việt trên nguồn m ở của khung làm việc GATE (General Architecture
for Text Engineering)1. Toàn bộ hệ thống sẽ được m ở cho cộng đồng sử dụng và phát triển.
1 Website chính thức của GATE: htìp://gate.ac.uk/downỉoad/index.html
2
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
Tập trung xây dựng kho ngữ liệu gán nhãn, cùng với các phương pháp để có thể quản lý được chất lượng của kho ngữ liệu. Nghiên cứu nhằm xây dựng các công cụ để nhận dạng và phân loại tên riêng một cách tự động cho văn bản tiếng Việt
Đăng 02 bài báo tại các hội nghị quốc tế chuyên ngành. Giúp đỡ 03 khóa luận tốt nghiệp
1 T ó m tắ t c á c k ế t q u ả n g h iên cứ u c h ín h c ủ a đ ề tài
Kêt quà vé khoa học (những đóng góp của đề tài, các công trình khoa học đã công bố)
2 bài báo đăng tại các hội nghị quốc tế chuyên ngành (đăng bởi IEEE CS)
• Dang Due Pham, Giang Binh Tran and Son Bao Pham. “A Hybrid Approach to
Vietnamese Word Segmentation using Part o f Speech tags”, Proceedings o f The first
International Conference on Knowledge and Systems Engineering (KSE 2009).
• Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham. “A Vietnamese Question
Answering S y s t e m Proceeding o f The first International Conference on Knowledge and
Systems Engineering (KSE 2009).
Két quả phục vụ thực tế (các sản phấm công nghệ, khả năng áp dụng thực tế)
Chúng tui đã nghiên cứu và phát triển một hệ thống nhận dạng thực thể có tên cho tiếng
Việt đạt kết quả khá khả quan, song song với đó là một bộ dữ liệu đã được gán nhãn chuẩn và
tài liệu định nghĩa các loại thực thể. Tất cả hệ thống và các tài liệu liên quan sẽ được mở cho
cộng đồng sử dụng và phát triển.
Kết quả đào tạo (sẻ lượng sinh viên, số lượng học viên cao học, nghiên cứu sinh tham gia
thực hiện làm việc trong đề tài, so khóa luận, luận vân đã hoàn thành và bảo vệ)
3 khóa luận tốt nghiệp CNTT:
'• Dat Ba Nguyen, "Named Entity Recognition fo r Vietnamese ”, Khóa luận tốt nghiệp
đại học, Trường Đại học Công Nghệ, 2009.
• Dai Quoc Nguyen, “Phương pháp xây dựng hệ thong hỏi đáp tiếng Việt dựa trên
Ontology”, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009.
• Dat Quoc Nguyên, “Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt ”,
Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, 2009.
Kết quả nâng cao tiềm lực khoa học (năng cao trình độ cán bộ và trang thiết bị hợc phần
mềm đã xây dựng được giao nộp đưa vào sử dụng tại đơn vị):
Nâng cao năng lực chuyên môn cùa cán bộ phòng thí nghiệm về các lĩnh vực xử lý ngôn n»ừ
tự nhiên và trí tuệ nhân tạo.
BÁO CÁO TỔNG KẾT
1. G iói thiệu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích
chọn thông tin, tóm tát nội dung văn bản v .v ... ra đời như một nhu cầu tất yếu. Bài toán nhận
dạng thực thể là một bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin. Nó có
nhiệm vụ tìm kiểm và rút ra những thông tin liên quan đến thực thể (một đối tượng hay một
tập hợp đối tượng của thế giới tự nhiên) trong văn bản, thông thường là loại thực thể. Có thế
tùy theo từng bài toán, từng lĩnh vực cụ thể, người ta đưa ra danh sách những loại thực thể
được nhận dạng khác nhau. Các hệ thống nhận dạng thực thể trong văn bản [4], [8] thường
nhận một số loại thực thể:
• Thực thể chỉ người (Person).
• Thực thể chỉ tổ chức (Organization).
• Thực thể chỉ địa điểm (Location).
• Thực thể chỉ ngày (Date).
• Thực thể chỉ thời gian (Time).
• Thực thể chi các đơn vị tiền tệ (Money).
• Thực thể chi phần tràm (Percent).
Trong đó, loại thực thể chi ngày (Date), thực thể chỉ thời gian (Time), thực thể chi các
đượcm vị tiền tệ (M oney), thực thể chi phần trăm (Percent) thường ít mang tính nhập nhầng,
không khó để nhận dạng. Ngoài ra tùy từng lĩnh vực, người ta cỏ thể chú ý thêm vào những
loại thực thể khác đặc thù. Ví dụ hệ thống nhận dạng thực thể trong văn bản với lĩnh vực y tế
[14] sẽ nhận những thực thể chỉ tên thuốc, hay cácio ại bệnh v .v ... như những loại thực thể
chính.
Là một bài toán khá quan trọng và cơ bàn nhưng hiện nay vẫn chưa có nhiều nghiên cứu
về bài toán nhận dạng thực thể trong văn bản đối với tiếng Việt. Hơn nữa những hệ thống
hiện thời không phải là nguồn mở nên rất khó để tiếp cận sứ dụng và phát triển [4], [11].
Chính vì vậy chúng tui quyết định xây dựng một hệ thống nhận dạng thực thể sử dụng hệ
luật cho văn bản tiếng Việt trên nguồn m ở của khung làm việc GATE (General Architecture
for Text Engineering)1. Toàn bộ hệ thống sẽ được m ở cho cộng đồng sử dụng và phát triển.
1 Website chính thức của GATE: htìp://gate.ac.uk/downỉoad/index.html
2
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links