negro_le

New Member
Download Luận văn Một giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm

Download miễn phí Luận văn Một giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm





Mục lục
Trang
LỜI CẢM ƠN. 3
Mục lục. 4
Danh mục các hình. 7
Danh mục các bảng. 8
Chương 1 : GIỚI THIỆU . 9 U
1.1 Lý do chọn đềtài. 9
1.2 Mục tiêu của luận văn . 11
1.3 Nội dung nghiên cứu. 11
Chương 2 : CÁC NGHIÊN CỨU VỀLẬP CHỈMỤC TRÊN KHÁI NIỆM . 13
2.1 Tổng quan. 13
2.2 Lập chỉmục trên khái niệm không so khớp tài liệu với Ontology. 14
2.2.1 Hướng tiếp cận xửlý phía câu truy vấn. 14
2.2.2 Hướng tiếp cận xứlý phía tài liệu. 17
2.2.3 Hướng tiếp cận phối hợp xửlý cảcâu truy vấn và tài liệu . 19
2.3 Lập chỉmục trên khái niệm có so khớp tài liệu với Ontology. 21
2.3.1 Xây dựng Ontology. 21
2.3.2 Lập chỉmục – Chỉsửdụng khái niệm . 22
2.3.3 Lập chỉmục – Sửdụng khái niệm và Mối kết hợp giữa chúng. 26
2.4 Lựa chọn của đềtài. 29
Chương 3 : PHÂN TÍCH CÚ PHÁP. 30
3.1 Tổng quan. 30
3.2 Tách từ. 31
3.3 Gán nhãn từloại . 32
3.3.1 Phát sinh tập luật điều chỉnh từloại. 32
3.3.2 Bổsung luật điều chỉnh từloại . 33
3.4 Gán nhãn ranh giới ngữ. 35
3.4.1 Phát sinh bộluật sửa nhãn ranh giới ngữ. 35
3.4.2 Bổsung luật sửa nhãn ranh giới ngữ. 37
3.5 Cấu trúc hóa cụm danh từ. 38
3.5.1 Cấu trúc của cụm danh từtiếng Việt . 38
3.5.2 Giải pháp cấu trúc hóa cụm danh từtiếng Việt . 41
Chương 4 : PHÁT SINH BIẾN THỂ. 46
4.1 Lý do phải phát sinh biến thể. 46
4.2 Các loại biến thểcủa cụm từ. 48
4.2.1 Biến thểhình thái. 48
4.2.2 Biến thểngữnghĩa . 49
4.2.3 Biến thểngữpháp. 51
4.3 Một sốkỹthuật phát sinh biến thểcho cụm từ. 53
4.3.1 Phát sinh bằng tài nguyên Ngôn ngữ. 53
4.3.2 Phát sinh bằng phương pháp thống kê . 54
4.3.3 Phát sinh bằng Heuristic. 55
4.3.4 Phát sinh bằng luật . 57
4.4 Một giải pháp phát sinh biến thểcho cụm danh từtiếng Việt. 62
4.4.1 Chiến lược phát sinh biến thể. 62
4.4.2 Bộluật phát sinh biến thể. 63
Chương 5 : ÁNH XẠTÀI LIỆU VÀO DANH MỤC KHÁI NIỆM. 73
5.1 Tổng quan. 73
5.2 Ontology sửdụng trong luận văn . 74
5.2.1 File MRCONSO.RRF . 74
5.2.2 File MRHIER.RRF. 75
5.2.3 Phạm vi của Ontology tiếng Việt. 75
5.3 Meta-map và ứng dụng cho tài liệu Y khoa tiếng Việt. 76
5.3.1 Các mức so khớp . 76
5.3.2 Các độ đo . 78
5.4 Conann và ứng dụng cho tài liệu Y khoa tiếng Việt . 83
5.4.1 Tiền xửlý. 83
5.4.2 Lần lọc thứ1 . 84
5.4.3 Lần lọc thứ2 . 84
5.4.4 Lần lọc thứ3 . 86
5.4.5 Ứng dụng cho tài liệu Y khoa tiếng Việt . 87
5.5 Kết hợp Meta-map và Conann khi ứng dụng cho tài liệu Y khoa tiếng Việt. 88
Chương 6 : KẾT QUẢTHỬNGHIỆM. 89
6.1 Mục tiêu thửnghiệm. 89
6.2 Phương pháp thửnghiệm. 89
6.2.1 Dữliệu thửnghiệm . 89
6.2.2 Dữliệu đánh giá. 90
6.2.3 Phương pháp tiến hành thửnghiệm . 91
6.3 Kết quảthửnghiệm . 94
6.3.1 Phân tích cú pháp. 94
6.3.2 Phát sinh biến thể. 95
6.3.3 Ánh xạtài liệu vào danh mục khái niệm . 95
Chương 7 : KẾT LUẬN . 99
7.1 Kết quả đạt được. 99
7.2 Những vấn đềcòn tồn tại . 99
7.3 Hướng phát triển . 100
TÀI LIỆU THAM KHẢO . 101



Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung:

Trang 9
Chương 1 : GIỚI THIỆU
1.1 Lý do chọn đề tài
Tri thức của nhân loại là một kho tàng to lớn và quý báu. Hàng ngày, một khối
lượng lớn những tri thức mới được bổ sung khiến kích thước kho tri thức nhân
loại tăng trưởng nhanh chóng. Do vậy, việc tìm kiếm các tài liệu phù hợp cho nhu
cầu thông tin của con người một cách thủ công là hoàn toàn không khả thi. Vì đó,
nhiều công cụ tìm kiếm thông tin tự động đã được phát triển để phục vụ nhu cầu
truy lục.
Tuy nhiên, các giải pháp tìm kiếm thông tin hiện nay vẫn còn gặp phải một số hạn
chế sau :
(i) Việc lập chỉ mục chủ yếu dựa trên các từ khóa mà chưa quan tâm đến ngữ cảnh
mà chúng xuất hiện cũng như mối liên hệ giữa chúng. Việc so khớp đơn thuần trên
từ khóa có thể trả ra những tài liệu không phù hợp với nhu cầu thông tin của người
dùng.
(ii) Một thách thức lớn là ngôn ngữ vừa có thể đa nghĩa (tùy vào bối cảnh và lĩnh
vực chuyên môn mà từ ngữ có thể mang các nghĩa khác nhau) lại vừa có thể đồng
nghĩa (những từ ngữ khác nhau nhưng có cùng một nghĩa). Thông tin được biểu
diễn qua ngôn ngữ bằng nhiều cách phong phú và gây nhiễu khiến tìm kiếm bằng từ
khóa không thể hiệu quả được.
(iii) Khi người dùng tìm kiếm thông tin, họ thường đồng thời quan tâm cả những
thông tin có liên quan mật thiết với thông tin cần tìm (điều này đặc biệt phổ biến đối
với nhu cầu truy lục tài liệu chuyên môn của các chuyên gia). Chẳng hạn như khi
các bạn sĩ tìm kiếm tài liệu liến quan đến “Chứng đau thắt ngực”, sẽ rất hữu ích nếu
họ được hỗ trợ tìm kiếm thêm những tài liệu liên quan đến ba nguyên nhân chính
của “Chứng đau thắt ngực” là : “Phình động mạch vành”, “Xơ cứng động mạch
Trang 10
vành” và “Huyết khối động mạch vành”. Các giải pháp tìm kiếm thông tin hiện có
chưa đáp ứng được nhu cầu này.
Từ đó mở ra hướng nghiên cứu để xây dựng một mô hình lập chỉ mục mới nhằm
khắc phục các hạn chế trên và giúp tìm kiếm thông tin hiệu quả hơn : Mô hình lập
chỉ mục dựa trên khái niệm.
Theo [11], Lập chỉ mục dựa trên khái niệm là lập chỉ mục với tập từ chỉ mục là tập
các khái niệm cho trước được tổ chức theo một cấu trúc Ontology. Các khái niệm
được tìm kiếm dựa trên ngữ nghĩa của chúng thay vì đơn thuần dựa trên từ khóa,
nhờ đó khắc phục hạn chế (i).
Đến nay, các công trình nghiên cứu lập chỉ mục trên khái niệm cho tiếng Anh đã đạt
được những thành tựu nhất định, nhưng kết quả nghiên cứu cho tiếng Việt còn hạn
chế. Đề tài của luận văn nhắm đến việc xây dựng và thử nghiệm một hệ thống lập
chỉ mục trên khái niệm cho tiếng Việt.
Các khái niệm thường được thể hiện trong văn bản dưới dạng các cụm danh từ do
đó trước hết luận văn sẽ tập trung xử lý rút trích cụm danh từ trong tài liệu như các
khái niệm ứng viên.
Trước khi tiến hành so khớp một cụm danh từ C rút trích được với các khái niệm
trong Ontology, luận văn sẽ tiến hành phát sinh các biến thể (variants) của C. Mỗi
biến thể là một cụm từ tương đương với cụm từ gốc C theo một nghĩa nào đấy và
được phát sinh dựa trên tri thức về cấu trúc ngữ pháp của C. Cách làm này khắc
phục được các hạn chế (ii).
Ngoài ra, luận văn quan tâm hỗ trợ người dùng khả năng định hướng trong không
gian khái niệm với các mối kết hợp (tổng quát hoá, chuyên biệt hóa, đồng nghĩa…)
nên khắc phục được hạn chế (iii).
Trang 11
1.2 Mục tiêu của luận văn
Mục tiêu nghiên cứu của luận văn bao gồm những điểm sau :
- Tìm hiểu các kỹ thuật và phương pháp lập chỉ mục trên khái niệm.
- Tìm hiểu các kỹ thuật và phương pháp phát sinh biến thể cho cụm từ và việc
ứng dụng nó trong lập chỉ mục trên khái niệm.
- Tìm hiểu cấu trúc đặc thù của cụm danh từ tiếng Việt và đề xuất một giải
pháp phát sinh biến thể cho cụm danh từ tiếng Việt nhằm phục vụ cho lập chỉ
mục trên khái niệm tiếng Việt.
- Tìm hiểu các phương pháp so khớp để so khớp các khái niệm trích ra từ tài
liệu với các khái niệm trong một Ontology.
- Vận dụng một số phương pháp đã tìm hiểu để xây dựng thử nghiệm một hệ
thống lập chỉ mục trên khái niệm cho các tài liệu Y khoa tiếng Việt và so
sánh kết quả.
1.3 Nội dung nghiên cứu
Bài toán Lập chỉ mục trên khái niệm đã thu hút nhiều nỗ lực của cộng đồng nghiên
cứu, nhất là khi tri thức nhân loại phát triển ngày càng đồ sộ và nhu cầu tìm kiếm
thông tin hiệu quả trở nên cần thiết hơn bao giờ hết. Có nhiều hướng tiếp cận để giải
quyết bài toán Lập chỉ mục trên khái niệm. Một bản khảo sát cô đọng các công trình
nghiên cứu liên quan sẽ được trình bày trong chương 2 của luận văn. Nó giúp ta có
được cái nhìn tổng thể về hiện trạng trong hướng nghiên cứu lập chỉ mục trên khái
niệm.
Bài toán lập chỉ mục trên khái niệm gặp một thách thức là khái niệm có thể được
nói đến bằng nhiều tên gọi khác nhau. Những tên gọi này là các biến thể của nhau.
Để rút trích hiệu quả các khái niệm từ tài liệu, cần nhận biết chúng dù chúng được
đề cập bằng tên gọi nào. Do đó luận văn quan tâm việc phát sinh biến thể của cụm
từ, cụ thể là cụm danh từ (vì người ta dùng cụm danh từ để gọi tên khái niệm). Một
Trang 12
giới thiệu tổng quan về các loại biến thể cùng với các kỹ thuật phát sinh biến thể
tương ứng được trình bày trong chương 4 của luận văn. Cũng trong chương này,
luận văn trình bày giải pháp phát sinh biến thể của mình để phục vụ cho việc lập chỉ
mục trên khái niệm.
Cụm danh từ cần được rút trích từ tài liệu trước khi các biến thể của chúng được
phát sinh và trước khi ánh xạ tài liệu vào khái niệm trong Ontology. Chương 3 của
luận văn trình bày một giải pháp rút trích cụm danh từ trong tài liệu tiếng Việt và hệ
thống cài đặt giải pháp ấy [7]. Giải pháp này có những xử lý đặc biệt phục vụ cho
mục tiêu phát sinh biến thể cho các cụm danh từ rút trích được.
Với hướng tiếp cận luận văn chọn theo, kết quả sau cùng của hệ thống lập chỉ mục
trên khái niệm biểu diễn mỗi tài liệu bằng một vector các khái niệm (trong
Ontology) liên quan. Do vậy việc ánh xạ tài liệu vào Ontology là một xử lý quan
trọng. Chương 5 của luận văn trình bày các giải pháp ánh xạ mà luận văn sử dụng
và hệ thống cài đặt thử nghiệm các giải pháp ấy [27]
Kết quả thử nghiệm của luận văn được trình bày trong chương 6. Luận văn sử dụng
bộ dữ liệu đánh giá được xây dựng bởi [11] và hiệu chỉnh lại bởi [27]. Sau cùng,
các kết luận cùng một số hướng phát triển được trình bày trong chương 7 của luận
văn.
...
 
Các chủ đề có liên quan khác
Tạo bởi Tiêu đề Blog Lượt trả lời Ngày
R Đặc điểm tiêu dùng của khách du lịch Trung Quốc và một số giải pháp thu hút khách du lịch Trung Quốc Văn hóa, Xã hội 0
R Nghiên cứu giải pháp tăng cường quản lý nhà nước về chất lượng thức ăn đối với một số cơ sở sản xuất thức ăn chăn nuôi Nông Lâm Thủy sản 0
D Một số giải pháp nhằm hoàn thiện hoạt động marketing tại Công ty TNHH TM&DV Thanh Kim Marketing 0
D Một Số Giải Pháp Nhằm Hoàn Thiện Hoạt Động Marketing Tại Công Ty TNHH Midea Consumer Electric Marketing 0
D Một Số Giải Pháp Hoàn Thiện Công Tác Tuyển Dụng, Đào Tạo Và Phát Triển Nguồn Nhân Lực Luận văn Kinh tế 0
D Một số giải pháp về thị trường tiêu thụ sản phẩm đóng tàu của Tập đoàn công nghiệp tàu thuỷ Việt Nam Luận văn Kinh tế 0
D một số giải pháp nhằm hoàn thiện hệ thống kênh phân phối tại công ty tnhh hàn việt hana Luận văn Kinh tế 0
D Phân tích tình hình tiêu thụ và một số giải pháp marketing nhằm đẩy mạnh công tác tiêu thụ sản phẩm ở công ty may xuất khẩu Luận văn Kinh tế 0
D một số giải pháp nâng cao chất lượng đào tạo, bồi dưỡng cán bộ, công chức xã Văn hóa, Xã hội 0
D Một số Giải pháp nâng cao hiệu quả kinh doanh dịch vụ ăn uống tại khách sạn Thắng Lợi Luận văn Kinh tế 0

Các chủ đề có liên quan khác

Top