Download Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu
Mục lục
MỞ ĐẦU 1
1 Xếp hạng đối tượng 2
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6
1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Học xếp hạng 9
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11
2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13
2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Xếp hạng trong máy tìm kiếm thực thể 16
3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17
MỤC LỤC v
3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27
3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Tạo nhãn cụm tài liệu 37
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Kết luận 49
Tài liệu tham khảo
http://cloud.liketly.com/flash/edoc/jh2i1fkjb33wa7b577g9lou48iyvfkz6-swf-2013-10-28-luan_van_hoc_xep_hang_trong_tinh_hang_doi_tuong_va.rhi4tOgaMW.swf /tai-lieu/de-tai-ung-dung-tren-liketly-42637/
Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí
Không chỉ tìm được thực thể mà vấn đề của máy tìm kiếm là những thực thể phù
hợp nhất với truy vấn cần được đưa lên từ những kết quả đầu tiên trả về cho người
dùng. Do đó xếp hạng thực thể là vấn đề quan trọng, cốt lõi của máy tìm kiếm thực
thể.
Giả thiết có tập tài liệuD = {d1, d2, ..., dn}, tập các kiểu thực thểE = {E1, ..., EN},
truy vấn q = α(E1, ..., Em, k1, ..., kl) với kj là các từ khóa, và bộ các thực thể
t = (e1, ..., em). Khi đó độ phù hợp của t đối với truy vấn q trên tập tài liệu D được
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 22
xác định bởi:
Score(q(t)) = p(q(t)|D) =
∑
d∈D
p(d)× p(q(t)|d) (3.1)
Với p(q(t)|d) là xác suất xảy ra quan hệ α của t trên tài liệu d.
Giá trị của Score(q(t)) được dùng để xếp hạng các bộ kết quả trả về, do đó việc
xác định hàm Score(q(t)) là vấn đề quan trọng chúng ta quan tâm.
Những đặc điểm của tìm kiếm thực thể có ảnh hưởng tới giá trị xếp hạng Score()
đã được đưa ra trong [18]:
R-Contextual : Xác suất liên kết giữa thực thể và từ khóa phụ thuộc vào các ngữ
cảnh khác nhau và ảnh hưởng bởi hai yếu tố chính:
• Pattern: Từ khóa và thực thể có thể liên kết với nhau theo các mẫu, ví
dụ: tên thường xuất hiện liền trước số điện thoại.
• Proximity: Từ khóa và thực thể có thể xuất hiện nhiều lần trong trang
web và không giống nhau, khi chúng càng gần nhau thì mối quan hệ càng
có ý nghĩa cao hơn.
R-Holistic: Một thực thể có thể xuất hiện cùng với từ khóa nhiều lần trong một
trang, do đó cần ước lượng tìm liên kết phù hợp nhất
R-Uncertainty: Việc rút trích thực thể không chính xác tuyệt đối, do đó cần có
giá trị độ tin cậy tương ứng cho mỗi thực thể.
R-Associative: Cần phân biệt liên kết giữa từ khóa và thực thể là liên kết mang ý
nghĩa thực hay chỉ là sự xuất hiện ngẫu nhiên giữa chúng. Do đó cần có kiểm
định để loại bỏ những liên kết ngẫu nhiên.
R-Discriminative: Các thực thể trên các trang phổ biến hơn sẽ được đánh giá
cao hơn so với trên trang ít phổ biến hơn.
3.2.1 Mô hình Impression
Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[18] đã
đưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 23
Global Access Layer
Local Recognition Layer
Global Access Layer
Local Recognition Layer
Validation Layer
Collection E over D Virtual Collection E’ over D’
... ... ... ... ... ...
: ??
: ??
... ... ... ... ... ...
: ??
: ??
... ... ... ... ... ...
: ??
: ??
randomize
Hình 3.4: Impression model [18]
nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá
(Validation).
Tầng truy nhập
Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modul
này xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát,
xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổ
biến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và do
đó tác giả Tao Cheng đã chọn PageRank (PR) [43] để xác định: p(d) = PR[d]. Ta
có:
Score(q(t)) =
∑
d∈D
PR[d]× p(q(t)|d) (3.2)
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 24
DICLOFENAC
Tên gốc: Diclofenac
Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR
Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid
(NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là
những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều
nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng
bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,
O1
O2
. . .
Hình 3.5: Ví dụ rút trích thực thể thuốc
Tầng nhận dạng
Với mỗi tài liệu d được xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiện
của từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl} trong tài liệu
đó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện)
của q(t) = α(e1, ..., em, k1, ..., kl) trên d (có g = m + l). Ví dụ: trong hình 3.5 với
E = {#drug}, k ="viêm", q = {"viêm"#drug} thì ta có một quan sát γ = (o1, o2).
Trong mỗi tài liệu có thể có nhiều quan sát γ (tính chất R-Holistic) và do đó p(q(t)|d)
cần được ước lượng trên tất cả các quan sát γ đó, [18] đưa ra công thức ước lượng:
p(q(t)|d) = max
γ
p(α(γ)) (3.3)
Với p(α(γ)) là xác suất/khả năng mà một quan sát γ phù hợp với hàm ngữ cảnh α.
Tuy nhiên khi được rút trích từ tài liệu d, các quan sát oi biểu diễn một thực thể
ei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈ Ei|d) (tính
chất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khi
đánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf . Vì vậy, ta
có:
p(α(γ)) =
∏
ei∈γ
ei.conf × pcontext(α(γ) (3.4)
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25
Thay vào công thức 3.3 suy ra:
p(q(t)|d) = max
γ
(∏
ei∈γ
ei.conf × pcontext(α(γ)
)
(3.5)
Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vào
hai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữa
thực thể và từ khóa gọi là αP . Do đó ta có:
pcontext(α(γ)) = αB(γ)× αP (γ)
• αB là hàm lô-gic trả về giá trị 0 hay 1, cho biết quan sát γ với các oi có thỏa
mãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om) yêu cầu các oi
phải xuất hiện đúng thứ tự như xác định.
• αP là xác suất quan sát γ phù hợp với t trong cửa sổ quan sát s. Để đơn giản,
trong [18] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xác
suất này, và đưa ra công thức: αP (γ) = p(s|γ).
Thay vào công thức 3.5 ta được:
p(q(t)|d) = max
γ
(∏
ei∈γ
ei.conf × αB(γ)× p(s|γ)
)
(3.6)
Vậy công thức Score(q(t)) được xác định:
Score(q(t)) =
∑
d∈D
PR[d]×max
γ
(∏
ei∈γ
ei.conf × αB(γ)× p(s|γ)
)
(3.7)
Tầng đánh giá
Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D′ được
lấy ngẫu nhiên từ D để làm đối chứng so sánh những nhận định trên D. Tầng đánh
giá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) và
G-test theo [18] để đánh giá độ tin cậy thông tin nhận được từ D.
Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t =
(e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D′ được lấy ngẫu nhiên từ tập D, D′
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 26
cần "giống" với D ngoại trừ trong D′ liên kết của các từ khóa và các thực thể hoàn
toàn là ngẫu nhiên. Xây dựng tập D′ từ D bằng việc tạo các tài liệu d′ ngẫu nhiên:
Đưa ngẫu nhiên các thực thể và từ khóa vào d′, mỗi thực thể, từ khóa được đưa vào
độc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mối
liên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quan
sát một từ khóa, hay thực thể trong D′ cũng giống như trong D:
p(ei ∈ d
′) =
∑
ei∈d,d∈D
p(d) ; p(kj ∈ d
′) =
∑
kj∈d,d∈D
p(d)
Do đặc điểm của D′ trên nên giá trị trung bình của độ tin cậy của tất cả các thực
thể ej trong ...
Download miễn phí Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu
Mục lục
MỞ ĐẦU 1
1 Xếp hạng đối tượng 2
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6
1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Học xếp hạng 9
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11
2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13
2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Xếp hạng trong máy tìm kiếm thực thể 16
3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17
MỤC LỤC v
3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27
3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Tạo nhãn cụm tài liệu 37
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Kết luận 49
Tài liệu tham khảo
http://cloud.liketly.com/flash/edoc/jh2i1fkjb33wa7b577g9lou48iyvfkz6-swf-2013-10-28-luan_van_hoc_xep_hang_trong_tinh_hang_doi_tuong_va.rhi4tOgaMW.swf /tai-lieu/de-tai-ung-dung-tren-liketly-42637/
Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí
Tóm tắt nội dung:
thể trả về cho người dùng kết quả là danh sách các thực thể.Không chỉ tìm được thực thể mà vấn đề của máy tìm kiếm là những thực thể phù
hợp nhất với truy vấn cần được đưa lên từ những kết quả đầu tiên trả về cho người
dùng. Do đó xếp hạng thực thể là vấn đề quan trọng, cốt lõi của máy tìm kiếm thực
thể.
Giả thiết có tập tài liệuD = {d1, d2, ..., dn}, tập các kiểu thực thểE = {E1, ..., EN},
truy vấn q = α(E1, ..., Em, k1, ..., kl) với kj là các từ khóa, và bộ các thực thể
t = (e1, ..., em). Khi đó độ phù hợp của t đối với truy vấn q trên tập tài liệu D được
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 22
xác định bởi:
Score(q(t)) = p(q(t)|D) =
∑
d∈D
p(d)× p(q(t)|d) (3.1)
Với p(q(t)|d) là xác suất xảy ra quan hệ α của t trên tài liệu d.
Giá trị của Score(q(t)) được dùng để xếp hạng các bộ kết quả trả về, do đó việc
xác định hàm Score(q(t)) là vấn đề quan trọng chúng ta quan tâm.
Những đặc điểm của tìm kiếm thực thể có ảnh hưởng tới giá trị xếp hạng Score()
đã được đưa ra trong [18]:
R-Contextual : Xác suất liên kết giữa thực thể và từ khóa phụ thuộc vào các ngữ
cảnh khác nhau và ảnh hưởng bởi hai yếu tố chính:
• Pattern: Từ khóa và thực thể có thể liên kết với nhau theo các mẫu, ví
dụ: tên thường xuất hiện liền trước số điện thoại.
• Proximity: Từ khóa và thực thể có thể xuất hiện nhiều lần trong trang
web và không giống nhau, khi chúng càng gần nhau thì mối quan hệ càng
có ý nghĩa cao hơn.
R-Holistic: Một thực thể có thể xuất hiện cùng với từ khóa nhiều lần trong một
trang, do đó cần ước lượng tìm liên kết phù hợp nhất
R-Uncertainty: Việc rút trích thực thể không chính xác tuyệt đối, do đó cần có
giá trị độ tin cậy tương ứng cho mỗi thực thể.
R-Associative: Cần phân biệt liên kết giữa từ khóa và thực thể là liên kết mang ý
nghĩa thực hay chỉ là sự xuất hiện ngẫu nhiên giữa chúng. Do đó cần có kiểm
định để loại bỏ những liên kết ngẫu nhiên.
R-Discriminative: Các thực thể trên các trang phổ biến hơn sẽ được đánh giá
cao hơn so với trên trang ít phổ biến hơn.
3.2.1 Mô hình Impression
Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[18] đã
đưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 23
Global Access Layer
Local Recognition Layer
Global Access Layer
Local Recognition Layer
Validation Layer
Collection E over D Virtual Collection E’ over D’
... ... ... ... ... ...
: ??
: ??
... ... ... ... ... ...
: ??
: ??
... ... ... ... ... ...
: ??
: ??
randomize
Hình 3.4: Impression model [18]
nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá
(Validation).
Tầng truy nhập
Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modul
này xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát,
xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổ
biến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và do
đó tác giả Tao Cheng đã chọn PageRank (PR) [43] để xác định: p(d) = PR[d]. Ta
có:
Score(q(t)) =
∑
d∈D
PR[d]× p(q(t)|d) (3.2)
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 24
DICLOFENAC
Tên gốc: Diclofenac
Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR
Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid
(NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là
những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều
nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng
bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,
O1
O2
. . .
Hình 3.5: Ví dụ rút trích thực thể thuốc
Tầng nhận dạng
Với mỗi tài liệu d được xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiện
của từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl} trong tài liệu
đó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện)
của q(t) = α(e1, ..., em, k1, ..., kl) trên d (có g = m + l). Ví dụ: trong hình 3.5 với
E = {#drug}, k ="viêm", q = {"viêm"#drug} thì ta có một quan sát γ = (o1, o2).
Trong mỗi tài liệu có thể có nhiều quan sát γ (tính chất R-Holistic) và do đó p(q(t)|d)
cần được ước lượng trên tất cả các quan sát γ đó, [18] đưa ra công thức ước lượng:
p(q(t)|d) = max
γ
p(α(γ)) (3.3)
Với p(α(γ)) là xác suất/khả năng mà một quan sát γ phù hợp với hàm ngữ cảnh α.
Tuy nhiên khi được rút trích từ tài liệu d, các quan sát oi biểu diễn một thực thể
ei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈ Ei|d) (tính
chất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khi
đánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf . Vì vậy, ta
có:
p(α(γ)) =
∏
ei∈γ
ei.conf × pcontext(α(γ) (3.4)
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25
Thay vào công thức 3.3 suy ra:
p(q(t)|d) = max
γ
(∏
ei∈γ
ei.conf × pcontext(α(γ)
)
(3.5)
Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vào
hai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữa
thực thể và từ khóa gọi là αP . Do đó ta có:
pcontext(α(γ)) = αB(γ)× αP (γ)
• αB là hàm lô-gic trả về giá trị 0 hay 1, cho biết quan sát γ với các oi có thỏa
mãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om) yêu cầu các oi
phải xuất hiện đúng thứ tự như xác định.
• αP là xác suất quan sát γ phù hợp với t trong cửa sổ quan sát s. Để đơn giản,
trong [18] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xác
suất này, và đưa ra công thức: αP (γ) = p(s|γ).
Thay vào công thức 3.5 ta được:
p(q(t)|d) = max
γ
(∏
ei∈γ
ei.conf × αB(γ)× p(s|γ)
)
(3.6)
Vậy công thức Score(q(t)) được xác định:
Score(q(t)) =
∑
d∈D
PR[d]×max
γ
(∏
ei∈γ
ei.conf × αB(γ)× p(s|γ)
)
(3.7)
Tầng đánh giá
Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D′ được
lấy ngẫu nhiên từ D để làm đối chứng so sánh những nhận định trên D. Tầng đánh
giá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) và
G-test theo [18] để đánh giá độ tin cậy thông tin nhận được từ D.
Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t =
(e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D′ được lấy ngẫu nhiên từ tập D, D′
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 26
cần "giống" với D ngoại trừ trong D′ liên kết của các từ khóa và các thực thể hoàn
toàn là ngẫu nhiên. Xây dựng tập D′ từ D bằng việc tạo các tài liệu d′ ngẫu nhiên:
Đưa ngẫu nhiên các thực thể và từ khóa vào d′, mỗi thực thể, từ khóa được đưa vào
độc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mối
liên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quan
sát một từ khóa, hay thực thể trong D′ cũng giống như trong D:
p(ei ∈ d
′) =
∑
ei∈d,d∈D
p(d) ; p(kj ∈ d
′) =
∑
kj∈d,d∈D
p(d)
Do đặc điểm của D′ trên nên giá trị trung bình của độ tin cậy của tất cả các thực
thể ej trong ...