ducthanh1109
New Member
Download Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room
Mục lục
LỜI CẢM ƠN . i
Mục lục . ii
Danh mục các ký hiệu, các chữ viết tắt . v
Danh mục các bảng . vi
Danh mục các hình vẽ, đồ thị . vii
MỞ ĐẦU . 1
Chương 1 GIỚI THIỆU SMART MEETING ROOM . 4
1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? . 4
1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị . 4
1.2.1. Nhiều hình thức hội nghị và loại từ vựng . 4
1.2.2. Tiếng nói đồng thời/tương tác cao . 5
1.2.3. Nhiều microphone . 5
1.2.4. Nhiều góc nhìn camera . 5
1.2.5. Tích hợp thông tin đa phương tiện . 5
1.3. Giới thiệu về Smart Meeting Room (SMR) . 5
Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7
2.1. Giới thiệu bài toán . 7
2.2. Phát biểu bài toán . 9
2.3. Độ đo đánh giá . 10
2.4. Các hướng tiếp cận giải quyết bài toán . 11
2.4.1. Bài toán phân đoạn theo người nói . 11
2.4.2. Bài toán phân nhóm theo người nói. 13
2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR . 14
2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) . 15
Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17
3.1. Mô hình hệ thống xử lý đa kênh . 17
3.2. Mô hình hệ thống xử lý nhanh . 19
3.3. Các kĩ thuật tiền xử lý . 21
3.3.1. Kỹ thuật lọc nhiễu . 21
3.3.2. Kỹ thuật tính TDOA . 23
3.3.3. Đặc trưng ngữ âm . 24
3.4. Mô hình ngữ âm . 27
3.4.1. Mô hình Markov ẩn (HMM) . 27
3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28
3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) . 29
3.6. Kỹ thuật phân đoạn theo người nói . 31
3.6.1. Phân đoạn dựa trên đặc trưng . 31
3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31
3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32
3.6.2. Phân đoạn dựa trên mô hình . 32
3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33
3.7. Kỹ thuật phân nhóm theo người nói . 34
3.7.1. Phân nhóm lượng hoá vector . 34
3.7.2. Phân nhóm tích tụ . 34
3.8. Kỹ thuật post-processing . 37
3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh . 37
3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37
3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD . 38
3.9.3. Lượng giá TDOA . 39
3.9.4. Chuẩn hoá TDOA . 41
3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering . 42
Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ . 45
4.1. Dữ liệu thực nghiệm . 45
4.2. Độ đo đánh giá . 46
4.3. Các kĩ thuật áp dụng và tham số . 47
4.3.1. Kĩ thuật lọc nhiễu . 47
4.3.2. Kĩ thuật tính TDOA . 47
4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48
4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) . 48
4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói . 50
4.3.6. Kỹ thuật post-processing . 51
4.4. Kết quả thực nghiệm và thảo luận . 51
4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh . 51
4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53
4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và
Phân nhóm khác . 60
4.5. Kết luận và hướng phát triển . 62
TÀI LIỆU THAM KHẢO . 65
http://cloud.liketly.com/flash/edoc/jh2i1fkjb33wa7b577g9lou48iyvfkz6-swf-2013-10-26-luan_van_ghi_nhat_ky_nguoi_noi_cho_du_lieu_hoi_ngh.WjhawOYX66.swf /tai-lieu/de-tai-ung-dung-tren-liketly-42503/
Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí
MỞ ĐẦU
Sự tiến bộ không ngừng của lĩnh vực công nghệ số cùng với công nghệ máy
tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn và cũng nhiều tri
thức hơn. Với những thiết bị tiên tiến, ngày nay người ta dễ dàng lưu trữ và chia sẻ
những dữ liệu âm thanh trong rất nhiều lĩnh vực như bản tin thời sự, bản tin quảng
cáo, các mẫu đối thoại hằng ngày, các cuộc hội nghị... Trong số đó, lĩnh vực hội
nghị đang ngày càng được các nhà khoa học quan tâm nghiên cứu bởi những thành
tựu thu được có thể mở ra nhiều ứng dụng to lớn cho các cá nhân, tổ chức, doanh
nghiệp và cho cả chính phủ.
Smart Meeting Room là thuật ngữ dùng để mô tả những thiết kế tiên tiến áp
dụng trong lĩnh vực hội nghị. Smart Meeting Room là những phòng họp trong đó
các thiết bị tương tác người dùng được lắp đặt và bố trí sao cho người nói và người
nghe có thể phát huy tối đa năng lực của cuộc họp. Bên cạnh đó, các hệ thống hỗ trợ
cho Smart Meeting Room có thể giúp ghi lại hay theo vết, nhận dạng những hoạt
động và trạng thái của những người tham gia. Hiện nay các hệ thống xử lý tiếng nói
liên quan đến lĩnh vực hội nghị bao gồm: Nhận dạng tiếng nói (Speech-to-text), Ghi
nhật ký người nói (Speaker Diarization), Nhận dạng tiếng nói theo người nói
(Speaker Attributed Speech-to-Text, là kết hợp của Ghi nhật ký người nói và Nhận
dạng tiếng nói). Trong đó, Ghi nhật ký người nói là kỹ thuật chỉ mới được phát triển
trong vài năm trở lại đây nhưng hứa hẹn mở ra nhiều thành tựu to lớn và do đó sẽ
được tập trung nghiên cứu trong khuôn khổ luận văn này.
Ghi nhật ký người nói là quá trình chia âm thanh thành các phân đoạn và gán
nhãn theo định danh người nói cụ thể. Đầu ra của quá trình này sẽ là đầu vào cho bộ
nhận dạng tiếng nói, từ đó chúng ta có thể xây dựng những ứng dụng như ghi nhật
ký cuộc họp tự động hay tường thuật trực tiếp một trận đấu bóng đá. Xa hơn nữa,
những dữ liệu (gồm âm thanh và văn bản) thu được từ các cuộc họp sẽ tạo thành
kho dữ liệu quý giá cho các tác vụ truy vấn thông tin và tri thức trong tương lai.
2
Với mục tiêu nghiên cứu về một số kỹ thuật xử lý âm thanh trong môi trường
Smart Meeting Room, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người
nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Cụ
thể là: 1) Luận văn nghiên cứu các kỹ thuật phổ biến hiện nay cho việc Ghi nhật ký
người nói cho dữ liệu hội nghị, 2) Luận văn nghiên cứu và trình bày một phương
pháp phân nhóm cải tiến cho hệ thống Ghi nhật ký người nói, cho phép phân nhóm
nhanh với độ chính xác tương đương những phương pháp phổ biến hiện nay nhưng
chi phí tính toán rất thấp, có thể triển khai ở mức độ thời gian thực, 3) Hiện thực
hóa hệ thống Ghi nhật ký người nói.
Cấu trúc luận văn được tổ chức như sau:
Chương 1 – Giới thiệu về Smart Meeting Room
- Lý do nghiên cứu về lĩnh vực hội nghị và những thách thức của việc
xử lý tiếng nói trong lĩnh vực này.
- Giới thiệu về Smart Meeting Room và những hệ thống xử lý tiếng nói
liên quan.
Chương 2 – Phát biểu bài toán Ghi nhật ký người nói cho dữ liệu hội
nghị
- Giới thiệu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần
thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến
để giải quyết bài toán.
- Định nghĩa hai tác vụ chính của bài toán: Phân đoạn và Phân nhóm.
- Trình bày ý tưởng của phương pháp phân nhóm nhanh (Fast
Clustering) cải tiến, nhằm đưa ra một giải pháp hiệu quả và nhanh
chóng cho bài toán Ghi nhật ký người nói.
Chương 3 – Hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị
- Trình bày hai mô hình hệ thống Ghi nhật ký người nói cho dữ liệu hội
nghị mà luận văn xây dựng: mô hình xử lý đa kênh (mô hình nền –
đây là mô hình phổ biến hiện nay) và mô hình xử lý nhanh (mô hình
trực tuyến – đây là mô hình cải tiến của luận văn).
3
- Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Ghi nhật
ký người nói: phát hiện tiếng nói (Voice Activity Detection), lượng
giá TDOA (Time Delay Of Arrival), chuẩn hoá TDOA. Phần này sẽ
trình bày chi tiết về phương pháp cải tiến Fast Clustering.
Chương 4 – Kết quả thực nghiệm và đánh giá: trong chương này, luận
văn vận dụng hai hệ thống Ghi nhật ký người nói đã xây dựng để thực
hiện các thực nghiệm và đánh giá, bao gồm:
- Thử nghiệm hai hệ thống xây dựng trên các bộ dữ liệu khác nhau.
- Thử nghiệm thời gian chạy của hệ thống cải tiến.
- So sánh hiệu quả của hệ thống cải tiến và các hệ thống phổ biến khác.
Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và
hướng phát triển trong tương lai.
...
Download miễn phí Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room
Mục lục
LỜI CẢM ƠN . i
Mục lục . ii
Danh mục các ký hiệu, các chữ viết tắt . v
Danh mục các bảng . vi
Danh mục các hình vẽ, đồ thị . vii
MỞ ĐẦU . 1
Chương 1 GIỚI THIỆU SMART MEETING ROOM . 4
1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? . 4
1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị . 4
1.2.1. Nhiều hình thức hội nghị và loại từ vựng . 4
1.2.2. Tiếng nói đồng thời/tương tác cao . 5
1.2.3. Nhiều microphone . 5
1.2.4. Nhiều góc nhìn camera . 5
1.2.5. Tích hợp thông tin đa phương tiện . 5
1.3. Giới thiệu về Smart Meeting Room (SMR) . 5
Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7
2.1. Giới thiệu bài toán . 7
2.2. Phát biểu bài toán . 9
2.3. Độ đo đánh giá . 10
2.4. Các hướng tiếp cận giải quyết bài toán . 11
2.4.1. Bài toán phân đoạn theo người nói . 11
2.4.2. Bài toán phân nhóm theo người nói. 13
2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR . 14
2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) . 15
Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17
3.1. Mô hình hệ thống xử lý đa kênh . 17
3.2. Mô hình hệ thống xử lý nhanh . 19
3.3. Các kĩ thuật tiền xử lý . 21
3.3.1. Kỹ thuật lọc nhiễu . 21
3.3.2. Kỹ thuật tính TDOA . 23
3.3.3. Đặc trưng ngữ âm . 24
3.4. Mô hình ngữ âm . 27
3.4.1. Mô hình Markov ẩn (HMM) . 27
3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28
3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) . 29
3.6. Kỹ thuật phân đoạn theo người nói . 31
3.6.1. Phân đoạn dựa trên đặc trưng . 31
3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31
3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32
3.6.2. Phân đoạn dựa trên mô hình . 32
3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33
3.7. Kỹ thuật phân nhóm theo người nói . 34
3.7.1. Phân nhóm lượng hoá vector . 34
3.7.2. Phân nhóm tích tụ . 34
3.8. Kỹ thuật post-processing . 37
3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh . 37
3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37
3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD . 38
3.9.3. Lượng giá TDOA . 39
3.9.4. Chuẩn hoá TDOA . 41
3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering . 42
Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ . 45
4.1. Dữ liệu thực nghiệm . 45
4.2. Độ đo đánh giá . 46
4.3. Các kĩ thuật áp dụng và tham số . 47
4.3.1. Kĩ thuật lọc nhiễu . 47
4.3.2. Kĩ thuật tính TDOA . 47
4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48
4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) . 48
4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói . 50
4.3.6. Kỹ thuật post-processing . 51
4.4. Kết quả thực nghiệm và thảo luận . 51
4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh . 51
4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53
4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và
Phân nhóm khác . 60
4.5. Kết luận và hướng phát triển . 62
TÀI LIỆU THAM KHẢO . 65
http://cloud.liketly.com/flash/edoc/jh2i1fkjb33wa7b577g9lou48iyvfkz6-swf-2013-10-26-luan_van_ghi_nhat_ky_nguoi_noi_cho_du_lieu_hoi_ngh.WjhawOYX66.swf /tai-lieu/de-tai-ung-dung-tren-liketly-42503/
Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí
Tóm tắt nội dung:
1MỞ ĐẦU
Sự tiến bộ không ngừng của lĩnh vực công nghệ số cùng với công nghệ máy
tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn và cũng nhiều tri
thức hơn. Với những thiết bị tiên tiến, ngày nay người ta dễ dàng lưu trữ và chia sẻ
những dữ liệu âm thanh trong rất nhiều lĩnh vực như bản tin thời sự, bản tin quảng
cáo, các mẫu đối thoại hằng ngày, các cuộc hội nghị... Trong số đó, lĩnh vực hội
nghị đang ngày càng được các nhà khoa học quan tâm nghiên cứu bởi những thành
tựu thu được có thể mở ra nhiều ứng dụng to lớn cho các cá nhân, tổ chức, doanh
nghiệp và cho cả chính phủ.
Smart Meeting Room là thuật ngữ dùng để mô tả những thiết kế tiên tiến áp
dụng trong lĩnh vực hội nghị. Smart Meeting Room là những phòng họp trong đó
các thiết bị tương tác người dùng được lắp đặt và bố trí sao cho người nói và người
nghe có thể phát huy tối đa năng lực của cuộc họp. Bên cạnh đó, các hệ thống hỗ trợ
cho Smart Meeting Room có thể giúp ghi lại hay theo vết, nhận dạng những hoạt
động và trạng thái của những người tham gia. Hiện nay các hệ thống xử lý tiếng nói
liên quan đến lĩnh vực hội nghị bao gồm: Nhận dạng tiếng nói (Speech-to-text), Ghi
nhật ký người nói (Speaker Diarization), Nhận dạng tiếng nói theo người nói
(Speaker Attributed Speech-to-Text, là kết hợp của Ghi nhật ký người nói và Nhận
dạng tiếng nói). Trong đó, Ghi nhật ký người nói là kỹ thuật chỉ mới được phát triển
trong vài năm trở lại đây nhưng hứa hẹn mở ra nhiều thành tựu to lớn và do đó sẽ
được tập trung nghiên cứu trong khuôn khổ luận văn này.
Ghi nhật ký người nói là quá trình chia âm thanh thành các phân đoạn và gán
nhãn theo định danh người nói cụ thể. Đầu ra của quá trình này sẽ là đầu vào cho bộ
nhận dạng tiếng nói, từ đó chúng ta có thể xây dựng những ứng dụng như ghi nhật
ký cuộc họp tự động hay tường thuật trực tiếp một trận đấu bóng đá. Xa hơn nữa,
những dữ liệu (gồm âm thanh và văn bản) thu được từ các cuộc họp sẽ tạo thành
kho dữ liệu quý giá cho các tác vụ truy vấn thông tin và tri thức trong tương lai.
2
Với mục tiêu nghiên cứu về một số kỹ thuật xử lý âm thanh trong môi trường
Smart Meeting Room, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người
nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Cụ
thể là: 1) Luận văn nghiên cứu các kỹ thuật phổ biến hiện nay cho việc Ghi nhật ký
người nói cho dữ liệu hội nghị, 2) Luận văn nghiên cứu và trình bày một phương
pháp phân nhóm cải tiến cho hệ thống Ghi nhật ký người nói, cho phép phân nhóm
nhanh với độ chính xác tương đương những phương pháp phổ biến hiện nay nhưng
chi phí tính toán rất thấp, có thể triển khai ở mức độ thời gian thực, 3) Hiện thực
hóa hệ thống Ghi nhật ký người nói.
Cấu trúc luận văn được tổ chức như sau:
Chương 1 – Giới thiệu về Smart Meeting Room
- Lý do nghiên cứu về lĩnh vực hội nghị và những thách thức của việc
xử lý tiếng nói trong lĩnh vực này.
- Giới thiệu về Smart Meeting Room và những hệ thống xử lý tiếng nói
liên quan.
Chương 2 – Phát biểu bài toán Ghi nhật ký người nói cho dữ liệu hội
nghị
- Giới thiệu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần
thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến
để giải quyết bài toán.
- Định nghĩa hai tác vụ chính của bài toán: Phân đoạn và Phân nhóm.
- Trình bày ý tưởng của phương pháp phân nhóm nhanh (Fast
Clustering) cải tiến, nhằm đưa ra một giải pháp hiệu quả và nhanh
chóng cho bài toán Ghi nhật ký người nói.
Chương 3 – Hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị
- Trình bày hai mô hình hệ thống Ghi nhật ký người nói cho dữ liệu hội
nghị mà luận văn xây dựng: mô hình xử lý đa kênh (mô hình nền –
đây là mô hình phổ biến hiện nay) và mô hình xử lý nhanh (mô hình
trực tuyến – đây là mô hình cải tiến của luận văn).
3
- Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Ghi nhật
ký người nói: phát hiện tiếng nói (Voice Activity Detection), lượng
giá TDOA (Time Delay Of Arrival), chuẩn hoá TDOA. Phần này sẽ
trình bày chi tiết về phương pháp cải tiến Fast Clustering.
Chương 4 – Kết quả thực nghiệm và đánh giá: trong chương này, luận
văn vận dụng hai hệ thống Ghi nhật ký người nói đã xây dựng để thực
hiện các thực nghiệm và đánh giá, bao gồm:
- Thử nghiệm hai hệ thống xây dựng trên các bộ dữ liệu khác nhau.
- Thử nghiệm thời gian chạy của hệ thống cải tiến.
- So sánh hiệu quả của hệ thống cải tiến và các hệ thống phổ biến khác.
Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và
hướng phát triển trong tương lai.
...