young_pu_0101
New Member
Link tải miễn phí Luận văn: Nghiên cứu phát triển mô hình và giải pháp xây dựng hệ thống tìm kiếm thực thể tiếng Việt: Đề tài NCKH. QG. 10.38
Nhà xuất bản: ĐHCN
Ngày: 2011
Chủ đề: Tiếng Việt
Trí tuệ nhân tạo
Tìm kiếm thực thể
Xử lý ngôn ngữ
Miêu tả:
Nghiên cứu, phát triển một số mô hình, giải pháp trong hệ thống tìm kiếm thực thể để và xây dựng một hệ thống tìm kiếm thực thể tiếng Việt thử nghiệm thuộc miền ứng trong Thương mại điện tử, Y sinh học và chăm sóc sức khỏe, biến đổi khí hậu và bảo vệ môi trường. Đào tạo nhân lực trình độ Thạc sỹ và Tiến sỹ chất lượng cao, công bố quốc tế các kết quả nghiên cứu về trích trọn thông tin và hệ thống tìm kiếm thực thể trên Internet.
MỤC LỤC
GIẢI THÍCH CÁC CHỮ VIỆT TÁT...................
ĐANH SÁCH NHỪNG NGƯỜI TIHIAM GIÁ THỤ
DANH MỤC CÁC BẢANG SỐ LIỆ
DANH MỤC CÁC HÌNH..
TÓM TẮT CÁC KẾT QUÁ NGHIÊN CỨU CHÍNH CỦA L
1. Kết quả về khoa học.
2. Kết quả phục vụ thực
3. Kết quả đào tạo.
4. Kết quả nâng cao tiềm lực khoa học
I. ĐẶT VẤN ĐỀ
II. TÔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU....
II. MỤC TIÊU, ĐỊA ĐIỀM, THỜI GIAN VÀ PHƯƠNG PHÁP NGHIÊ
IV. NỘI DUNG NGHIÊN CỨU
ý tiếng Việt trong tìm kiếm thực thể
2. Các mô hình, giải pháp tìm kiếm thực thẻ.
3.1. Mô hình, giải pháp trích xuất thông tin thực th
2.2, Mô hình, giải pháp khai phá quan điểm theo đặc trưng sản phẩm từ các đánh giá tiếng
Việ
2.3, Một số mô hình, giải pháp tìm kiếm thực thể tiếng Việt khác .
“Triển khai các thành phần và hệ thống tìm kiếm thực thể tiếng Việ
3.1. Phát triển nâng cấp Hệ thống tìm kiếm giá cả VNGia (VnGia.com)............................... 24
3.2, Hệ thống hỏi đáp người tiếng Việt đã chạy thử nghiệm quảng bá...
3.3. Hệ thống thử nghiệm khai phá quan điểm theo đặc trưng sản phẩm t
3.4. Phần mềm tìm kiếm người cùng tên tiếng Việt
3.5. Phần mềm tìm kiếm ảnh theo nội dung.
V. KẾT QUẢ NGHIÊN CỨU
1. Kết quả công bố khoa học của đề tài
2. Kết quả đảo tạo của để tài
2.1. Đào tạo sau đại học.
2.2. Đào tạo dại học
3. Kết quả ứng dụng của đề tà
VI. THẢO LUẬN VÀ ĐÁNH GIá
1. Thảo luận
2. Đánh giá
VII KẾT LUẬN VÀ KIÊN NGHị
1. Kết luận
TÓM TẤT CÁC KẾT QUÁ NGHIÊN CỨU CHÍNH CUA ĐỀ TÀI
1. Nết quả về khoa học
“Công bố tám (8) bài báo khoa học thuộc hệ thống IE pringer được dưa vào Cơ
sở dữ liệu Seopus (7 bài báo đã đăng. ] bài báo được nhận đăng):
11]. Huyen-Trang Pham, Tien-Thanh Vụ, Mai-Vu Tran, Quang-Thuy Hà (2011). A
Soluion or rouping VieInamese Synenym Feattre Word im Product
Reviews, IEEE 1PSCC `2011, leju, Korea (in press) (HIEEE, Scopus, DBLP)
I2]. Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-
Thuy Ha (2011). An Integrated Approach Using Conditonal Random Fields
for Named Entity Recognition and Person Property Extraction in Vietnamese
Text, JALP 2017: 115-118 (IEEE, Scopus, DBLP).
(3].Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2011). Co-
referenee Resoluion in Vietnamese Documents Based on Support Vector
Machines, /ALP 2071: §9-93 (IEEE, Scopus, DBLP).
4]. Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu (2011).
An Upgrading Feature-based Opinion Mining Model on ProducL Reviews in
Vietnamese, 4AZ7”2077: 173-185, Lanzhou, China (Springer, Seopus, DBLP)
5J. Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011). A
Feature-based Opinion Mining Model on Product Reviews in Vietnamese,
Studies in Computational Intelligence, SCI 381 (Semamic Methods for
Knowledse Management and. Conununication): 23-33 (Springer, Scopus,
DBLP)
6]. Nam-Khanh Tran, Kim-Cuong Pham, Quang-Thuy Ha (2010). XPath-Wrapper
Induecton for Dati Extacton. }4LP 2010 (Harbim, Helongjiang Chỉna;
December 28-30, 2010): 150-153 (IEEE, Scopus, DBLP)
7Ị.Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le
(2010). Automatic Named Entity Set Expansion Using Semantic Rules and
Wrappers for Unary Relations, 1ALP 2070: 170-173 (IEEE, Seopus, DBLP)
§J.Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis
with Hidden Topie in News Recommendation System, /ALP 20/0: 211-214
(IEEE, Scopus, DBLP).
“ Một số báo cáo học thuật về hệ thống tìm kiếm thực thể người tiếng Việt, tìm kiếm
da phương tiện, hỏi-đáp về người, khai phá quan điểm được trình bày tại Phòng
Thí nghiệm Công nghệ tri thức (KTLab), tại Viện Tin học Quốc gia Nhật Bản (NII)
và Viện KH&CN tiên tiến Nhật Bản (JAIST).
" Giáo trình Khai phá dữ liệu (heo hợp đồng riêng, dự kiến nghiệm thu cấp Khoa
CNTT vào tháng 12/2011) và Bải giảng Nhập môn Khoa học dịch vụ (đã có, xem
tại trang web
2. Kết quả phục vụ thực tẾ
" Phát triên nâng áp Hệ thống tìm kiếm giá cả VNGia (VnGia.com).
“Hệ hỏi đáp người tiêng Việt đã chạy thử nghiệm quảng bá.
» Hệ thống thử nghiệm khai phá quan điểm theo đặc trưng sản phẩm.
à mềm thử nghiệm tìm kiếm người cùng tên tiếng Việt.
"“ Phần mềm thử nghiệm tìm kiêm ảnh. video theo nội dung.
IỊ 2011. trực tiếp tại Phòng Thí nghiệm "Công nghệ Trì thức", Khoa CNTT. Đề tài có
mục tiêu góp phần tăng cường năng lực nghiên cứu. triển khai của nhóm nghiên cứu
Khai phá dữ liệu và ứng dung tại DHCN theo một số tiêu chí cụ thẻ như sau:
- Nghiên cứu, phát triển mỏi só mô hình, giải pháp trong hệ thống tìm kiểm thực
thẻ đề và xây: dựng một hệ thống tìm kiếm thực thẻ tiếng Liệt thử nghiệm thuộc
miễn tíng trong Thương mại điền từ, Ÿ Sinh học và Chăm sóc sức khỏe. Biến đôi
khi hậu và Bảo vệ môi trưởng.
té
m thực thể trên
Đào tạo nhân lực trình độ Thạc sỹ và Tiến sỹ chất lượng cao, công bó quối
các két quả nghiên cứu vẻ trích chọn thông tìn và hệ thống tìm kiế
Tmrernel.
Đề tài kết hợp các phương pháp nghiên cứu là (1) khảo sát phân tích và hệ thống
hóa nội dung các tài liệu KH-CN cập nhật trên thế giới để đảm bảo tính tiên tiến của
các mô hình, giải pháp được đề xuất, (2) đánh giá, chọn lựa và cải tiến mô hình và
giải pháp đã có để phát triển thành các mô hình, giải pháp mới và (3) thực nghiệm
đánh giá mô hình được lựa chọn.
Hướng nghiên cứu của đề tài là thời sự, vì vậy tài liệu KH-CN liên quan là phong
phú và thời sự, tạo điều kiện thuận lợi cho nhóm nghiên cứu khi tiến hành khảo sát
phân tích, đánh giá và lựa chọn mô hình. Môi trường làm việc đễ đàng triển khai thực
nghiệm tại Phòng Thí nghiệm "Công nghệ tri thức" đã khắc phục phần nào khó khăn
về nguồn dữ liệu chuẩn khi nghiên cứu áp dụng cho dữ liệu của Việt Nam. Được truy
nhập trực tiếp tới các kho lưu trữ các công bố khoa học của ACM, Springer. IEEE
Xpore... trong mạng của ĐHQGHN cũng là một điều kiện thuận lợi của nhóm thực
hiện đề tài.
IV. NỘI DUNG NGHIÊN CỨU
Phát triển mô hình và giải pháp đối với các hệ thống tìm kiếm thực thể tiếng
Việt trong đề tài QG.10.38 được định hướng theo ba nội dung nghiên cứu chính, đó là
xử lý tiếng Việt trong tìm kiếm thực thể, đề xuất mô hình và giải pháp tìm kiếm thực
thể tiếng Việt và thi hành thử nghiệm các hệ thống tìm kiếm thực thẻ tiếng Việt. Nội
dung xử lý tiếng Việt trong tìm kiếm thực thê là khảo sát các yếu tố của xử lý ngôn
ngữ tự nhiên trong tìm kiếm thực thể trên thế giới vẫn còn phù hợp với tìm kiếm thực
thể tiếng Việt và phát hiện những yếu tố xử lý tiếng Việt đặc thù cho tìm kiếm thực
thể. Nội dung mô hình và giải pháp tìm kiếm thực thể tiếng Việt hướng tới xây dựng
các mô hình, giải pháp tìm kiếm thực thẻ tiếng Việt. Nội dung nghiên cứu cuối cùng là
thực thị kết quả nội dung nghiên cứu thứ hai thông qua một vài hệ thống tìm kiếm thực
thể thử nghiệm hay thành phần của các hệ thống như vậy.
* Sử dụng một số quy tắc cú pháp tiếng Việt thích hợp dễ nâng cao chất lượng trích
chọn thực thê tiếng Việt, Trong [FHCQTT. QTHCTT]. một số quy tắc cú pháp xác định
từ đặc trung sản phẩm. từ quan điểm và mối quan hệ giữa từ quan điểm và từ đặc
trưng sản phẩm ngâm đã được khai thác. Mô hình bán giám sát cho giải pháp dồng
tham chiếu tiếng Việt [DMTQII] có sử dụng giải pháp làm phù hợp tiếng Việt đối với
các quan hệ cụm danh từ trong giải pháp đồng tham chiếu tiếng Anh [RN09|.
2. Các mô hình, giải pháp tìm kiếm thực thể
Nhóm thực hiện đề tài đã tiến hành nghiên cứu để đề xuất một só mô hình và giải
pháp thực hiện một số chức năng trong tìm kiếm thực thê như trình bày dưới đây.
2.1. AI hình, giải pháp trích xuất thông tin thực thể
Để trích xuất đặc trưng thực thể, nhóm để tài đã đề xuất mô hình và giải pháp
sinh Xpath-wrapper [NKQ10], mô hình và giải pháp đồng tham chiếu [DMTQI1], và
mô hình CRFS trích chọn đặc trưng người [HMMNII].
Hình 3 trình bày mô hình sinh Xpath-wrapper phục vụ trích xuất đặc trưng thực
thê [NKQI0]. Từ câu hỏi của người dùng, hệ thống xác định và tỉnh chỉnh dần các X-
path ứng viên để xác định được các ứng viên X-path cho các đặc trưng. Sau đó các X-
path đặc trưng ứng viên được xếp hạng để thu được cặp (giá trị thuộc tính, X-path) để
áp dụng trích chọn câu trả lời cho tìm kiếm thực thể.
Mô hình đồng tham chiếu trích chọn thực thể người [DMTQII] gồm ba giai
đoạn. Giai đoạn tiền xử lý tiến hành trích chọn các cụm từ liên quan tới thực thể người
và đặc trưng người. Giai đoạn sinh vector đặc trưng tiến hành việc xây dựng vector
đặc trưng cho một văn bản. Giai đoạn đoán nhận thực thể kết hợp các đặc trưng của
cùng một thực thể người vào thực thể người này. Quá trình thực hiện mô hình được
trình bày tại Hình 4.
Mô hình CREs trích chọn đặc trưng người [HMMNIT] được trình bày tại Hình
5. thể hiện một quá trình thực hiện gồm ba giai đoạn là Xây dựng bộ CREFS gán thẻ đặc
trưng người, Gán thẻ, và Lọc các đặc trưng người sau khi gán thẻ. Như được giới thiệu
ở phần trên. một số từ điển được sử dụng trong giai đoạn gán thẻ.
Hình 6 trình bày một mô hình mở rộng thực thể người sử dụng các luật cú pháp
và cấu trúc Wrapper trong các trang web [MTTH10]. Một số quy tắc cú pháp được áp
dụng (chẳng hạn, tính tương đồng vị thế giữa các đối tượng trong danh sách liệt kê.
trong cùng một cột của các cấu trúc bảng) được sử dụng để tìm thêm các ứng viên thực
thẻ mở rộng. Sau đó các ứng viên được tính hạng, để chọn lựa các ứng viên tin tưởng
nhất.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
Nhà xuất bản: ĐHCN
Ngày: 2011
Chủ đề: Tiếng Việt
Trí tuệ nhân tạo
Tìm kiếm thực thể
Xử lý ngôn ngữ
Miêu tả:
Nghiên cứu, phát triển một số mô hình, giải pháp trong hệ thống tìm kiếm thực thể để và xây dựng một hệ thống tìm kiếm thực thể tiếng Việt thử nghiệm thuộc miền ứng trong Thương mại điện tử, Y sinh học và chăm sóc sức khỏe, biến đổi khí hậu và bảo vệ môi trường. Đào tạo nhân lực trình độ Thạc sỹ và Tiến sỹ chất lượng cao, công bố quốc tế các kết quả nghiên cứu về trích trọn thông tin và hệ thống tìm kiếm thực thể trên Internet.
MỤC LỤC
GIẢI THÍCH CÁC CHỮ VIỆT TÁT...................
ĐANH SÁCH NHỪNG NGƯỜI TIHIAM GIÁ THỤ
DANH MỤC CÁC BẢANG SỐ LIỆ
DANH MỤC CÁC HÌNH..
TÓM TẮT CÁC KẾT QUÁ NGHIÊN CỨU CHÍNH CỦA L
1. Kết quả về khoa học.
2. Kết quả phục vụ thực
3. Kết quả đào tạo.
4. Kết quả nâng cao tiềm lực khoa học
I. ĐẶT VẤN ĐỀ
II. TÔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU....
II. MỤC TIÊU, ĐỊA ĐIỀM, THỜI GIAN VÀ PHƯƠNG PHÁP NGHIÊ
IV. NỘI DUNG NGHIÊN CỨU
ý tiếng Việt trong tìm kiếm thực thể
2. Các mô hình, giải pháp tìm kiếm thực thẻ.
3.1. Mô hình, giải pháp trích xuất thông tin thực th
2.2, Mô hình, giải pháp khai phá quan điểm theo đặc trưng sản phẩm từ các đánh giá tiếng
Việ
2.3, Một số mô hình, giải pháp tìm kiếm thực thể tiếng Việt khác .
“Triển khai các thành phần và hệ thống tìm kiếm thực thể tiếng Việ
3.1. Phát triển nâng cấp Hệ thống tìm kiếm giá cả VNGia (VnGia.com)............................... 24
3.2, Hệ thống hỏi đáp người tiếng Việt đã chạy thử nghiệm quảng bá...
3.3. Hệ thống thử nghiệm khai phá quan điểm theo đặc trưng sản phẩm t
3.4. Phần mềm tìm kiếm người cùng tên tiếng Việt
3.5. Phần mềm tìm kiếm ảnh theo nội dung.
V. KẾT QUẢ NGHIÊN CỨU
1. Kết quả công bố khoa học của đề tài
2. Kết quả đảo tạo của để tài
2.1. Đào tạo sau đại học.
2.2. Đào tạo dại học
3. Kết quả ứng dụng của đề tà
VI. THẢO LUẬN VÀ ĐÁNH GIá
1. Thảo luận
2. Đánh giá
VII KẾT LUẬN VÀ KIÊN NGHị
1. Kết luận
TÓM TẤT CÁC KẾT QUÁ NGHIÊN CỨU CHÍNH CUA ĐỀ TÀI
1. Nết quả về khoa học
“Công bố tám (8) bài báo khoa học thuộc hệ thống IE pringer được dưa vào Cơ
sở dữ liệu Seopus (7 bài báo đã đăng. ] bài báo được nhận đăng):
11]. Huyen-Trang Pham, Tien-Thanh Vụ, Mai-Vu Tran, Quang-Thuy Hà (2011). A
Soluion or rouping VieInamese Synenym Feattre Word im Product
Reviews, IEEE 1PSCC `2011, leju, Korea (in press) (HIEEE, Scopus, DBLP)
I2]. Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-
Thuy Ha (2011). An Integrated Approach Using Conditonal Random Fields
for Named Entity Recognition and Person Property Extraction in Vietnamese
Text, JALP 2017: 115-118 (IEEE, Scopus, DBLP).
(3].Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2011). Co-
referenee Resoluion in Vietnamese Documents Based on Support Vector
Machines, /ALP 2071: §9-93 (IEEE, Scopus, DBLP).
4]. Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu (2011).
An Upgrading Feature-based Opinion Mining Model on ProducL Reviews in
Vietnamese, 4AZ7”2077: 173-185, Lanzhou, China (Springer, Seopus, DBLP)
5J. Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011). A
Feature-based Opinion Mining Model on Product Reviews in Vietnamese,
Studies in Computational Intelligence, SCI 381 (Semamic Methods for
Knowledse Management and. Conununication): 23-33 (Springer, Scopus,
DBLP)
6]. Nam-Khanh Tran, Kim-Cuong Pham, Quang-Thuy Ha (2010). XPath-Wrapper
Induecton for Dati Extacton. }4LP 2010 (Harbim, Helongjiang Chỉna;
December 28-30, 2010): 150-153 (IEEE, Scopus, DBLP)
7Ị.Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le
(2010). Automatic Named Entity Set Expansion Using Semantic Rules and
Wrappers for Unary Relations, 1ALP 2070: 170-173 (IEEE, Seopus, DBLP)
§J.Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis
with Hidden Topie in News Recommendation System, /ALP 20/0: 211-214
(IEEE, Scopus, DBLP).
“ Một số báo cáo học thuật về hệ thống tìm kiếm thực thể người tiếng Việt, tìm kiếm
da phương tiện, hỏi-đáp về người, khai phá quan điểm được trình bày tại Phòng
Thí nghiệm Công nghệ tri thức (KTLab), tại Viện Tin học Quốc gia Nhật Bản (NII)
và Viện KH&CN tiên tiến Nhật Bản (JAIST).
" Giáo trình Khai phá dữ liệu (heo hợp đồng riêng, dự kiến nghiệm thu cấp Khoa
CNTT vào tháng 12/2011) và Bải giảng Nhập môn Khoa học dịch vụ (đã có, xem
tại trang web
You must be registered for see links
]).2. Kết quả phục vụ thực tẾ
" Phát triên nâng áp Hệ thống tìm kiếm giá cả VNGia (VnGia.com).
“Hệ hỏi đáp người tiêng Việt đã chạy thử nghiệm quảng bá.
» Hệ thống thử nghiệm khai phá quan điểm theo đặc trưng sản phẩm.
à mềm thử nghiệm tìm kiếm người cùng tên tiếng Việt.
"“ Phần mềm thử nghiệm tìm kiêm ảnh. video theo nội dung.
IỊ 2011. trực tiếp tại Phòng Thí nghiệm "Công nghệ Trì thức", Khoa CNTT. Đề tài có
mục tiêu góp phần tăng cường năng lực nghiên cứu. triển khai của nhóm nghiên cứu
Khai phá dữ liệu và ứng dung tại DHCN theo một số tiêu chí cụ thẻ như sau:
- Nghiên cứu, phát triển mỏi só mô hình, giải pháp trong hệ thống tìm kiểm thực
thẻ đề và xây: dựng một hệ thống tìm kiếm thực thẻ tiếng Liệt thử nghiệm thuộc
miễn tíng trong Thương mại điền từ, Ÿ Sinh học và Chăm sóc sức khỏe. Biến đôi
khi hậu và Bảo vệ môi trưởng.
té
m thực thể trên
Đào tạo nhân lực trình độ Thạc sỹ và Tiến sỹ chất lượng cao, công bó quối
các két quả nghiên cứu vẻ trích chọn thông tìn và hệ thống tìm kiế
Tmrernel.
Đề tài kết hợp các phương pháp nghiên cứu là (1) khảo sát phân tích và hệ thống
hóa nội dung các tài liệu KH-CN cập nhật trên thế giới để đảm bảo tính tiên tiến của
các mô hình, giải pháp được đề xuất, (2) đánh giá, chọn lựa và cải tiến mô hình và
giải pháp đã có để phát triển thành các mô hình, giải pháp mới và (3) thực nghiệm
đánh giá mô hình được lựa chọn.
Hướng nghiên cứu của đề tài là thời sự, vì vậy tài liệu KH-CN liên quan là phong
phú và thời sự, tạo điều kiện thuận lợi cho nhóm nghiên cứu khi tiến hành khảo sát
phân tích, đánh giá và lựa chọn mô hình. Môi trường làm việc đễ đàng triển khai thực
nghiệm tại Phòng Thí nghiệm "Công nghệ tri thức" đã khắc phục phần nào khó khăn
về nguồn dữ liệu chuẩn khi nghiên cứu áp dụng cho dữ liệu của Việt Nam. Được truy
nhập trực tiếp tới các kho lưu trữ các công bố khoa học của ACM, Springer. IEEE
Xpore... trong mạng của ĐHQGHN cũng là một điều kiện thuận lợi của nhóm thực
hiện đề tài.
IV. NỘI DUNG NGHIÊN CỨU
Phát triển mô hình và giải pháp đối với các hệ thống tìm kiếm thực thể tiếng
Việt trong đề tài QG.10.38 được định hướng theo ba nội dung nghiên cứu chính, đó là
xử lý tiếng Việt trong tìm kiếm thực thể, đề xuất mô hình và giải pháp tìm kiếm thực
thể tiếng Việt và thi hành thử nghiệm các hệ thống tìm kiếm thực thẻ tiếng Việt. Nội
dung xử lý tiếng Việt trong tìm kiếm thực thê là khảo sát các yếu tố của xử lý ngôn
ngữ tự nhiên trong tìm kiếm thực thể trên thế giới vẫn còn phù hợp với tìm kiếm thực
thể tiếng Việt và phát hiện những yếu tố xử lý tiếng Việt đặc thù cho tìm kiếm thực
thể. Nội dung mô hình và giải pháp tìm kiếm thực thể tiếng Việt hướng tới xây dựng
các mô hình, giải pháp tìm kiếm thực thẻ tiếng Việt. Nội dung nghiên cứu cuối cùng là
thực thị kết quả nội dung nghiên cứu thứ hai thông qua một vài hệ thống tìm kiếm thực
thể thử nghiệm hay thành phần của các hệ thống như vậy.
* Sử dụng một số quy tắc cú pháp tiếng Việt thích hợp dễ nâng cao chất lượng trích
chọn thực thê tiếng Việt, Trong [FHCQTT. QTHCTT]. một số quy tắc cú pháp xác định
từ đặc trung sản phẩm. từ quan điểm và mối quan hệ giữa từ quan điểm và từ đặc
trưng sản phẩm ngâm đã được khai thác. Mô hình bán giám sát cho giải pháp dồng
tham chiếu tiếng Việt [DMTQII] có sử dụng giải pháp làm phù hợp tiếng Việt đối với
các quan hệ cụm danh từ trong giải pháp đồng tham chiếu tiếng Anh [RN09|.
2. Các mô hình, giải pháp tìm kiếm thực thể
Nhóm thực hiện đề tài đã tiến hành nghiên cứu để đề xuất một só mô hình và giải
pháp thực hiện một số chức năng trong tìm kiếm thực thê như trình bày dưới đây.
2.1. AI hình, giải pháp trích xuất thông tin thực thể
Để trích xuất đặc trưng thực thể, nhóm để tài đã đề xuất mô hình và giải pháp
sinh Xpath-wrapper [NKQ10], mô hình và giải pháp đồng tham chiếu [DMTQI1], và
mô hình CRFS trích chọn đặc trưng người [HMMNII].
Hình 3 trình bày mô hình sinh Xpath-wrapper phục vụ trích xuất đặc trưng thực
thê [NKQI0]. Từ câu hỏi của người dùng, hệ thống xác định và tỉnh chỉnh dần các X-
path ứng viên để xác định được các ứng viên X-path cho các đặc trưng. Sau đó các X-
path đặc trưng ứng viên được xếp hạng để thu được cặp (giá trị thuộc tính, X-path) để
áp dụng trích chọn câu trả lời cho tìm kiếm thực thể.
Mô hình đồng tham chiếu trích chọn thực thể người [DMTQII] gồm ba giai
đoạn. Giai đoạn tiền xử lý tiến hành trích chọn các cụm từ liên quan tới thực thể người
và đặc trưng người. Giai đoạn sinh vector đặc trưng tiến hành việc xây dựng vector
đặc trưng cho một văn bản. Giai đoạn đoán nhận thực thể kết hợp các đặc trưng của
cùng một thực thể người vào thực thể người này. Quá trình thực hiện mô hình được
trình bày tại Hình 4.
Mô hình CREs trích chọn đặc trưng người [HMMNIT] được trình bày tại Hình
5. thể hiện một quá trình thực hiện gồm ba giai đoạn là Xây dựng bộ CREFS gán thẻ đặc
trưng người, Gán thẻ, và Lọc các đặc trưng người sau khi gán thẻ. Như được giới thiệu
ở phần trên. một số từ điển được sử dụng trong giai đoạn gán thẻ.
Hình 6 trình bày một mô hình mở rộng thực thể người sử dụng các luật cú pháp
và cấu trúc Wrapper trong các trang web [MTTH10]. Một số quy tắc cú pháp được áp
dụng (chẳng hạn, tính tương đồng vị thế giữa các đối tượng trong danh sách liệt kê.
trong cùng một cột của các cấu trúc bảng) được sử dụng để tìm thêm các ứng viên thực
thẻ mở rộng. Sau đó các ứng viên được tính hạng, để chọn lựa các ứng viên tin tưởng
nhất.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links
Last edited by a moderator: