Link tải luận văn miễn phí cho ae Kết Nối
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. 1
MỤC LỤC.............................................................................................................. 2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH ........ 8
MỞ ĐẦU.............................................................................................................. 10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ... 13
1.1 Giới thiệu chương ................................................................................ 13
1.2 Nâng cao chất lượng tiếng nói là gì ? .................................................. 13
1.3 Lý thuyết về tín hiệu và nhiễu ............................................................. 15
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu ...................................................15
1.3.1.1 Tín hiệu .............................................................................................. 15
1.3.1.2 Nguồn tín hiệu.................................................................................... 15
1.3.1.3 Hệ thống và xử lý tín hiệu.................................................................. 16
1.3.1.4 Phân loại tín hiệu................................................................................ 16
1.4 Lý thuyết về nhiễu ............................................................................... 17
1.4.1 Nguồn nhiễu .......................................................................................17
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau.....19
1.5 Tín hiệu rời rạc theo thời gian ............................................................. 20
1.5.1 Tín hiệu bước nhảy đơn vị .................................................................21
1.5.2 Tín hiệu xung đơn vị ..........................................................................21
1.5.3 Tín hiệu hàm mũ ................................................................................21
1.5.4 Tín hiệu hàm sin rời rạc .....................................................................21
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT ................................ 22
1.6.1 Sự hội tụ của phép biến đổi Fourier ...................................................22
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier .....................................22
1.6.3 Phép biến đổi Fourier ngược ..............................................................23
1.6.4 Các tính chất của phép biến đổi Fourier ............................................23
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc .........................................24
1.6.6 Phổ tín hiệu và phổ pha ......................................................................25
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói........................ 26
1.7.1 Trừ phổ ...............................................................................................26
1.7.2 Mô hình thống kê ...............................................................................26
1.8 Tín hiệu tiếng nói................................................................................. 26
1.9 Cơ chế tạo tiếng nói............................................................................. 28
1.9.1.1 Bộ máy phát âm của con người.......................................................... 28
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói.............................................28
1.9.3 Phân loại âm .......................................................................................29
1.9.4 Thuộc tính âm học của tiếng nói ........................................................29
1.10 Kết luận chương .................................................................................. 29
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI .................................. 30
2.1 Giới thiệu chương ................................................................................ 30
2.2 Phương pháp đánh giá chủ quan.......................................................... 30
2.2.1 Các phương pháp đánh giá tuyệt đối..................................................31
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR ............................................... 31
2.2.2 Các phương pháp đánh giá tương đối ................................................31
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu ...................... 31
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng ......................... 32
2.3 Phương pháp đánh giá khách quan...................................................... 33
2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung .....................................33
2.3.2 Đo khoảng cách phổ dựa trên LPC ....................................................35
2.3.2.1 Phương pháp đo LLR ......................................................................... 35
2.3.2.2 Phương pháp đo IS ............................................................................. 36
2.3.2.3 Phương pháp đo theo khoảng cách cepstrum..................................... 36
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người ...................37
2.3.3.1 Phương pháp đo Weighted Spectral Slope......................................... 37
2.3.3.2 Phương pháp đo Bark Distortion ....................................................... 38
2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ ................. 39
2.4 Kết luận chương .................................................................................. 39
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING ......................................................................................................... 41
3.1 Giới thiệu chương ................................................................................ 41
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering ........ 41
3.3 Thuật toán Spectral Subtraction .......................................................... 41
3.3.1 Giới thiệu chung.................................................................................41
3.3.2 Spectral subtraction đối với phổ biên độ ...........................................42
3.3.3 Spectral subtraction đối với phổ công suất ........................................43
3.4 Thuật toán Wiener Filtering ................................................................ 45
3.4.1 Giới thiệu chung.................................................................................45
3.4.2 Nguyên lý cơ bản của Wiener Filtering .............................................46
3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói ................ 48
3.5.1 Phân tích tín hiệu theo từng frame .....................................................48
3.5.2 Overlap và Adding .............................................................................49
3.6 Ước lượng và cập nhật nhiễu............................................................... 50
3.6.1 Voice activity detection .....................................................................51
3.6.2 Quá trình ước lượng và cập nhật nhiễu ..............................................51
3.7 Kết luận chương .................................................................................. 52
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN .................. 53
4.1 Giới thiệu chương ................................................................................ 53
4.2 Quy trình thực hiện và đánh giá thuật toán ......................................... 53
4.3 Lưu đồ thuật toán Spectral Subtraction ............................................... 55
4.4 Lưu đồ thuật toán Wiener Filtering ..................................................... 56
4.5 Thực hiện thuật toán ............................................................................ 57
4.6 Đánh giá chất lượng tiếng nói đã được xử lý ...................................... 59
4.6.1 Cơ sở dữ liệu cho việc đánh giá .........................................................59
4.6.2 Tổng quan về quy trình đánh giá .......................................................59
4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá ...........................60
4.6.4 Thực hiện đánh giá.............................................................................62
4.6.4.1 Đánh giá thuật toán với các hệ số đoán ban đầu........................... 62
4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF ............................................... 65
4.6.4.3 Hệ số gamma cho thuật toán SS......................................................... 67
4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu................................................. 68
4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác..... 69
4.6.5 Kết luận chương .................................................................................71
TÀI LIỆU THAM KHẢO ............................................................................... 72
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI ............................... 75
PHỤ LỤC ............................................................................................................. 76
DANH MỤC CÁC HÌNH VẼ VÀ BẢNG
Hình 1.1 Tín hiệu tiếng nói [2]. ........................................................................... 15
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4]....... 18
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4].
.............................................................................................................................. 18
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4]. ................................................................................................................ 19
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4]. ....................................................................................................... 20
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11]. ...... 25
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11]................................................................................................ 27
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11]........................................... 28
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11]. ...................................................... 28
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] ................. 29
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] .................. 31
Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR ............ 32
Bảng 2.5. Thang đánh giá DCR ........................................................................... 32
Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF.............................................. 41
Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26]. ........................... 45
Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering. ........................................ 48
Hình 3.4 Phân tích tín hiệu thành các frame [31]................................................ 49
Hình 3.5 quá trình thực hiện overlap và adding [32]. ......................................... 50
Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường ............................ 53
Hình 4.2 Lưu đồ thuật toán SS ............................................................................ 55
Hình 4.3 Lưu đồ thuật toán WF........................................................................... 56
Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch ........................................ 57
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB ........ 57
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
SS với SNR = 10dB. ............................................................................................ 58
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
WF với SNR = 10dB. ........................................................................................... 58
Hình 4.8 Quy trình thực hiện đánh giá ................................................................ 60
Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi...... 61
Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói xung quanh ........................................................................................................... 61
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3............ 63
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2.......... 64
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và
NoiseMargin = 2 .................................................................................................. 66
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2. ........ 67
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS.................................................................... 69
Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh. ....................... 70
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
tắt
Tiếng Anh
Nghĩa tiếng Việt
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
PC Personal Computer Máy tính cá nhân
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE
Minium Mean-Squared Error Tối thiểu hoá sai lệch trung
bình bình phương
SVD Singular Value Decomposition Phép phân tích giá trị đơn
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
DTFT
Discrete-Time Fourier Transform Phép biến đổi Fourier của tín hiệu rời rạc.
ZT Z Transform Phép biến đổi Z
ROC Region of Convergence Miền hội tụ
IDTFT Inverse Discrete Fourier
Transform Phép biến đổi ngược Fourier
rời rạc
LTI
Linear Time-Invariant Hệ thống tuyến tính và bất
biến theo thời gian
ITU-T InternationalTelecommunications
Union-Telecommunication Hiệp hội tiêu chuẩn viễn
thông quốc tế
ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối
MOS
Mean Opinion Scores Đánh giá theo quan điểm
người nghe
CCR Comparison Category Rating Đánh giá bằng cách so sánh
DCR Degradation Category Rating Đánh giá suy giảm chất lượng
SE Subjective Evaluation Đánh giá chủ quan
OE Objective Evaluation Đánh giá khách quan
IS Itakura_Saito
LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo trọng số của phổ
LPC Linear Prediction Coefficients Hệ số đoán tuyến tính
VAD
Voice Activity Detection Thăm dò sự hoạt động của
tiếng nói
Speech Enhancement Nâng cao chất lượng tiếng nói
SS
Spectral Subtraction Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng phương pháp trừ phổ.
WF
Wiener Filter Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng cách sử
dụng bộ lọc Wiener.
Statistical-model-based Thuật toán giảm nhiễu tín
hiệu tiếng nói dựa trên nguyên lý thống kê
Frame Khung tín hiệu.
Hamming Cửa sổ Hamming
Overlap và Adding Xếp chồng và cộng
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại.
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế.
Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3
thành viên :
- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói
sử dụng phương pháp Spectral Subtraction.
- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử
dụng bộ lọc Wiener.
- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế.
Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương :
Phần 1 : Lý thuyết
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các
loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới
thiệu khái quát về một số thuật toán trong Speech Enhancement .
Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số
phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm
có đánh giá chủ quan và đánh giá khách quan.
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong
Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI
Chất lượng của tiếng nói bị suy giảm do sự tác động của nhiễu trong môi trường xung quanh là một vấn đề quan trọng cần được giải quyết. Việc tìm
ra các phương pháp để triệt nhiễu và giảm nhiễu trong tiếng nói luôn luôn đề tài được quan tâm rất nhiều. Trong các dịch vụ truyền thông với phương tiện ngôn ngữ là tiếng nói thì việc tăng cường, cải thiện chất lượng tiếng nói đã bị nhiễu là
rất thiết, giúp cho người nghe có thể nghe rõ và đúng những gì người nói đã nói.
Đồ án đã thực hiện được các vấn đề :
- Tìm hiểu và nghiên cứu các phương pháp cải thiện chất lượng tiếng nói, nhưng tập trung vào 2 thuật toán đã có trong Speech enhancement
là : Spectral Subtraction và Wiener Filtering
- Xây dựng được chương trình thực hiện xử lý nhiễu trong các file âm thanh đã bị nhiễu dựa trên 2 thuật toán : Spectral Subtraction và Wiener Filtering.
- Thực hiện và đánh giá tính hiệu quả của 2 thuật toán trong các môi trường nhiễu và mức độ nhiễu khác nhau, từ đó đưa ra các biện pháp
tối ưu hóa các thuật toán. Kết quả đạt được cho thấy WF là thuật toán giảm nhiễu tốt hơn SS. Các thuật toán giảm nhiễu có hiệu quả khác nhau đối với từng môi trường nhiễu khác nhau
Tuy nhiên đồ án vẫn chưa giải quyết hết được các vấn đề trong Speech enhancement nên hướng phát triển của đề tài trong tương lai sẽ là :
- Tìm hiểu, nghiên cứu và xây dựng các chương trình thực hiện xử lý nhiễu trong tiếng nói dựa trên các thuật toán khác trong Speech enhancement.
- Nghiên cứu và đưa ra thuật toán mới về xử lý nhiễu và triệt nhiễu trong
Speech enhancement.
Phát triển chương trình đã thực hiện đối với các dịch vụ ứng dụng thời gian thực và các dịch vụ trong lĩnh vực truyền thông đa phương tiện như : thoại, âm
nhạc, truyền hình hội nghị.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download.
Password giải nén nếu cần: ket-noi.com | Bấm vào Link, đợi vài giây sau đó bấm Get Website để tải:
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. 1
MỤC LỤC.............................................................................................................. 2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH ........ 8
MỞ ĐẦU.............................................................................................................. 10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ... 13
1.1 Giới thiệu chương ................................................................................ 13
1.2 Nâng cao chất lượng tiếng nói là gì ? .................................................. 13
1.3 Lý thuyết về tín hiệu và nhiễu ............................................................. 15
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu ...................................................15
1.3.1.1 Tín hiệu .............................................................................................. 15
1.3.1.2 Nguồn tín hiệu.................................................................................... 15
1.3.1.3 Hệ thống và xử lý tín hiệu.................................................................. 16
1.3.1.4 Phân loại tín hiệu................................................................................ 16
1.4 Lý thuyết về nhiễu ............................................................................... 17
1.4.1 Nguồn nhiễu .......................................................................................17
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau.....19
1.5 Tín hiệu rời rạc theo thời gian ............................................................. 20
1.5.1 Tín hiệu bước nhảy đơn vị .................................................................21
1.5.2 Tín hiệu xung đơn vị ..........................................................................21
1.5.3 Tín hiệu hàm mũ ................................................................................21
1.5.4 Tín hiệu hàm sin rời rạc .....................................................................21
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT ................................ 22
1.6.1 Sự hội tụ của phép biến đổi Fourier ...................................................22
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier .....................................22
1.6.3 Phép biến đổi Fourier ngược ..............................................................23
1.6.4 Các tính chất của phép biến đổi Fourier ............................................23
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc .........................................24
1.6.6 Phổ tín hiệu và phổ pha ......................................................................25
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói........................ 26
1.7.1 Trừ phổ ...............................................................................................26
1.7.2 Mô hình thống kê ...............................................................................26
1.8 Tín hiệu tiếng nói................................................................................. 26
1.9 Cơ chế tạo tiếng nói............................................................................. 28
1.9.1.1 Bộ máy phát âm của con người.......................................................... 28
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói.............................................28
1.9.3 Phân loại âm .......................................................................................29
1.9.4 Thuộc tính âm học của tiếng nói ........................................................29
1.10 Kết luận chương .................................................................................. 29
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI .................................. 30
2.1 Giới thiệu chương ................................................................................ 30
2.2 Phương pháp đánh giá chủ quan.......................................................... 30
2.2.1 Các phương pháp đánh giá tuyệt đối..................................................31
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR ............................................... 31
2.2.2 Các phương pháp đánh giá tương đối ................................................31
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu ...................... 31
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng ......................... 32
2.3 Phương pháp đánh giá khách quan...................................................... 33
2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung .....................................33
2.3.2 Đo khoảng cách phổ dựa trên LPC ....................................................35
2.3.2.1 Phương pháp đo LLR ......................................................................... 35
2.3.2.2 Phương pháp đo IS ............................................................................. 36
2.3.2.3 Phương pháp đo theo khoảng cách cepstrum..................................... 36
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người ...................37
2.3.3.1 Phương pháp đo Weighted Spectral Slope......................................... 37
2.3.3.2 Phương pháp đo Bark Distortion ....................................................... 38
2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ ................. 39
2.4 Kết luận chương .................................................................................. 39
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING ......................................................................................................... 41
3.1 Giới thiệu chương ................................................................................ 41
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering ........ 41
3.3 Thuật toán Spectral Subtraction .......................................................... 41
3.3.1 Giới thiệu chung.................................................................................41
3.3.2 Spectral subtraction đối với phổ biên độ ...........................................42
3.3.3 Spectral subtraction đối với phổ công suất ........................................43
3.4 Thuật toán Wiener Filtering ................................................................ 45
3.4.1 Giới thiệu chung.................................................................................45
3.4.2 Nguyên lý cơ bản của Wiener Filtering .............................................46
3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói ................ 48
3.5.1 Phân tích tín hiệu theo từng frame .....................................................48
3.5.2 Overlap và Adding .............................................................................49
3.6 Ước lượng và cập nhật nhiễu............................................................... 50
3.6.1 Voice activity detection .....................................................................51
3.6.2 Quá trình ước lượng và cập nhật nhiễu ..............................................51
3.7 Kết luận chương .................................................................................. 52
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN .................. 53
4.1 Giới thiệu chương ................................................................................ 53
4.2 Quy trình thực hiện và đánh giá thuật toán ......................................... 53
4.3 Lưu đồ thuật toán Spectral Subtraction ............................................... 55
4.4 Lưu đồ thuật toán Wiener Filtering ..................................................... 56
4.5 Thực hiện thuật toán ............................................................................ 57
4.6 Đánh giá chất lượng tiếng nói đã được xử lý ...................................... 59
4.6.1 Cơ sở dữ liệu cho việc đánh giá .........................................................59
4.6.2 Tổng quan về quy trình đánh giá .......................................................59
4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá ...........................60
4.6.4 Thực hiện đánh giá.............................................................................62
4.6.4.1 Đánh giá thuật toán với các hệ số đoán ban đầu........................... 62
4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF ............................................... 65
4.6.4.3 Hệ số gamma cho thuật toán SS......................................................... 67
4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu................................................. 68
4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác..... 69
4.6.5 Kết luận chương .................................................................................71
TÀI LIỆU THAM KHẢO ............................................................................... 72
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI ............................... 75
PHỤ LỤC ............................................................................................................. 76
DANH MỤC CÁC HÌNH VẼ VÀ BẢNG
Hình 1.1 Tín hiệu tiếng nói [2]. ........................................................................... 15
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4]....... 18
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4].
.............................................................................................................................. 18
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4]. ................................................................................................................ 19
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4]. ....................................................................................................... 20
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11]. ...... 25
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11]................................................................................................ 27
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11]........................................... 28
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11]. ...................................................... 28
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] ................. 29
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] .................. 31
Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR ............ 32
Bảng 2.5. Thang đánh giá DCR ........................................................................... 32
Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF.............................................. 41
Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26]. ........................... 45
Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering. ........................................ 48
Hình 3.4 Phân tích tín hiệu thành các frame [31]................................................ 49
Hình 3.5 quá trình thực hiện overlap và adding [32]. ......................................... 50
Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường ............................ 53
Hình 4.2 Lưu đồ thuật toán SS ............................................................................ 55
Hình 4.3 Lưu đồ thuật toán WF........................................................................... 56
Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch ........................................ 57
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB ........ 57
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
SS với SNR = 10dB. ............................................................................................ 58
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
WF với SNR = 10dB. ........................................................................................... 58
Hình 4.8 Quy trình thực hiện đánh giá ................................................................ 60
Hình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi...... 61
Hình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói xung quanh ........................................................................................................... 61
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3............ 63
Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2.......... 64
Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và
NoiseMargin = 2 .................................................................................................. 66
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2. ........ 67
Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS.................................................................... 69
Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh. ....................... 70
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
tắt
Tiếng Anh
Nghĩa tiếng Việt
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
PC Personal Computer Máy tính cá nhân
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE
Minium Mean-Squared Error Tối thiểu hoá sai lệch trung
bình bình phương
SVD Singular Value Decomposition Phép phân tích giá trị đơn
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc
FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
DTFT
Discrete-Time Fourier Transform Phép biến đổi Fourier của tín hiệu rời rạc.
ZT Z Transform Phép biến đổi Z
ROC Region of Convergence Miền hội tụ
IDTFT Inverse Discrete Fourier
Transform Phép biến đổi ngược Fourier
rời rạc
LTI
Linear Time-Invariant Hệ thống tuyến tính và bất
biến theo thời gian
ITU-T InternationalTelecommunications
Union-Telecommunication Hiệp hội tiêu chuẩn viễn
thông quốc tế
ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối
MOS
Mean Opinion Scores Đánh giá theo quan điểm
người nghe
CCR Comparison Category Rating Đánh giá bằng cách so sánh
DCR Degradation Category Rating Đánh giá suy giảm chất lượng
SE Subjective Evaluation Đánh giá chủ quan
OE Objective Evaluation Đánh giá khách quan
IS Itakura_Saito
LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo trọng số của phổ
LPC Linear Prediction Coefficients Hệ số đoán tuyến tính
VAD
Voice Activity Detection Thăm dò sự hoạt động của
tiếng nói
Speech Enhancement Nâng cao chất lượng tiếng nói
SS
Spectral Subtraction Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng phương pháp trừ phổ.
WF
Wiener Filter Thuật toán giảm nhiễu tín
hiệu tiếng nói bằng cách sử
dụng bộ lọc Wiener.
Statistical-model-based Thuật toán giảm nhiễu tín
hiệu tiếng nói dựa trên nguyên lý thống kê
Frame Khung tín hiệu.
Hamming Cửa sổ Hamming
Overlap và Adding Xếp chồng và cộng
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại.
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế.
Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3
thành viên :
- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói
sử dụng phương pháp Spectral Subtraction.
- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử
dụng bộ lọc Wiener.
- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế.
Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương :
Phần 1 : Lý thuyết
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các
loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới
thiệu khái quát về một số thuật toán trong Speech Enhancement .
Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số
phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm
có đánh giá chủ quan và đánh giá khách quan.
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong
Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI
Chất lượng của tiếng nói bị suy giảm do sự tác động của nhiễu trong môi trường xung quanh là một vấn đề quan trọng cần được giải quyết. Việc tìm
ra các phương pháp để triệt nhiễu và giảm nhiễu trong tiếng nói luôn luôn đề tài được quan tâm rất nhiều. Trong các dịch vụ truyền thông với phương tiện ngôn ngữ là tiếng nói thì việc tăng cường, cải thiện chất lượng tiếng nói đã bị nhiễu là
rất thiết, giúp cho người nghe có thể nghe rõ và đúng những gì người nói đã nói.
Đồ án đã thực hiện được các vấn đề :
- Tìm hiểu và nghiên cứu các phương pháp cải thiện chất lượng tiếng nói, nhưng tập trung vào 2 thuật toán đã có trong Speech enhancement
là : Spectral Subtraction và Wiener Filtering
- Xây dựng được chương trình thực hiện xử lý nhiễu trong các file âm thanh đã bị nhiễu dựa trên 2 thuật toán : Spectral Subtraction và Wiener Filtering.
- Thực hiện và đánh giá tính hiệu quả của 2 thuật toán trong các môi trường nhiễu và mức độ nhiễu khác nhau, từ đó đưa ra các biện pháp
tối ưu hóa các thuật toán. Kết quả đạt được cho thấy WF là thuật toán giảm nhiễu tốt hơn SS. Các thuật toán giảm nhiễu có hiệu quả khác nhau đối với từng môi trường nhiễu khác nhau
Tuy nhiên đồ án vẫn chưa giải quyết hết được các vấn đề trong Speech enhancement nên hướng phát triển của đề tài trong tương lai sẽ là :
- Tìm hiểu, nghiên cứu và xây dựng các chương trình thực hiện xử lý nhiễu trong tiếng nói dựa trên các thuật toán khác trong Speech enhancement.
- Nghiên cứu và đưa ra thuật toán mới về xử lý nhiễu và triệt nhiễu trong
Speech enhancement.
Phát triển chương trình đã thực hiện đối với các dịch vụ ứng dụng thời gian thực và các dịch vụ trong lĩnh vực truyền thông đa phương tiện như : thoại, âm
nhạc, truyền hình hội nghị.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download.
Password giải nén nếu cần: ket-noi.com | Bấm vào Link, đợi vài giây sau đó bấm Get Website để tải:
You must be registered for see links
Last edited by a moderator: