smilesmile_lita
New Member
Download miễn phí Xử lý tiếng nói qua thuật toán spectral subtraction và wiener filtering
MỤC LỤC
LỜI CAM ĐOAN1
MỤC LỤC2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH8
MỞ ĐẦU10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI12
1.1Giới thiệu chương. 12
1.2Nâng cao chất lượng tiếng nói là gì ?. 12
1.3Lý thuyết về tín hiệu và nhiễu. 14
1.3.1Tín hiệu, hệ thống và xử lý tín hiệu. 14
1.3.1.1Tín hiệu. 14
1.3.1.2Nguồn tín hiệu. 14
1.3.1.3Hệ thống và xử lý tín hiệu. 15
1.3.1.4Phân loại tín hiệu. 15
1.4Lý thuyết về nhiễu. 16
1.4.1Nguồn nhiễu. 16
1.4.2Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau. 18
1.5Tín hiệu rời rạc theo thời gian. 19
1.5.1Tín hiệu bước nhảy đơn vị20
1.5.2Tín hiệu xung đơn vị20
1.5.3Tín hiệu hàm mũ. 20
1.5.4Tín hiệu hàm sin rời rạc. 20
1.6Phép biến đổi Fourier của tín hiệu rời rạc DTFT21
1.6.1Sự hội tụ của phép biến đổi Fourier. 21
1.6.2Quan hệ giữa biến đổi Z và biến đổi Fourier. 21
1.6.3Phép biến đổi Fourier ngược. 22
1.6.4Các tính chất của phép biến đổi Fourier. 22
1.6.5Phân tích tần số (phổ) cho tín hiệu rời rạc. 23
1.6.6Phổ tín hiệu và phổ pha. 24
1.7Các thuật toán sử dụng nâng cao chất lượng tiếng nói25
1.7.1Trừ phổ. 25
1.7.2Mô hình thống kê. 25
1.8Tín hiệu tiếng nói25
1.9Cơ chế tạo tiếng nói27
1.9.1.1Bộ máy phát âm của con người27
1.9.2Mô hình kỹ thuật của việc tạo tiếng nói27
1.9.3Phân loại âm28
1.9.4Thuộc tính âm học của tiếng nói28
1.10Kết luận chương. 28
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI29
2.1Giới thiệu chương. 29
2.2Phương pháp đánh giá chủ quan. 29
2.2.1Các phương pháp đánh giá tuyệt đối30
2.2.1.1Phương pháp đánh giá tuyệt đối ACR30
2.2.2Các phương pháp đánh giá tương đối30
2.2.2.1Đánh giá bằng phương pháp so sánh các mẫu tín hiệu. 30
2.2.2.2Phương pháp đánh giá theo sự suy giảm chất lượng. 31
2.3Phương pháp đánh giá khách quan. 32
2.3.1Đo tỷ số tín hiệu trên nhiễu trên từng khung. 32
2.3.2Đo khoảng cách phổ dựa trên LPC34
2.3.2.1Phương pháp đo LLR34
2.3.2.2Phương pháp đo IS. 34
2.3.2.3Phương pháp đo theo khoảng cách cepstrum35
2.3.3Đánh giá mô phỏng theo cảm nhận nghe của con người35
2.3.3.1Phương pháp đo Weighted Spectral Slope. 36
2.3.3.2Phương pháp đo Bark Distortion. 37
2.3.3.3Phương pháp đánh giá cảm nhận chất lượng thoại PESQ37
2.4Kết luận chương. 37
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING39
3.1Giới thiệu chương. 39
3.2Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering. 39
3.3Thuật toán Spectral Subtraction. 39
3.3.1Giới thiệu chung. 39
3.3.2Spectral subtraction đối với phổ biên độ. 40
3.3.3Spectral subtraction đối với phổ công suất41
3.4Thuật toán Wiener Filtering. 43
3.4.1Giới thiệu chung. 43
3.4.2Nguyên lý cơ bản của Wiener Filtering. 44
3.5Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói46
3.5.1Phân tích tín hiệu theo từng frame. 46
3.5.2Overlap và Adding. 47
3.6Ước lượng và cập nhật nhiễu. 48
3.6.1Voice activity detection. 49
3.6.2Quá trình ước lượng và cập nhật nhiễu. 49
3.7Kết luận chương. 50
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN51
4.1Giới thiệu chương. 51
4.2Quy trình thực hiện và đánh giá thuật toán. 51
4.3Lưu đồ thuật toán Spectral Subtraction. 53
4.4Lưu đồ thuật toán Wiener Filtering. 54
4.5Thực hiện thuật toán. 55
4.6Đánh giá chất lượng tiếng nói đã được xử lý. 57
4.6.1Cơ sở dữ liệu cho việc đánh giá. 57
4.6.2Tổng quan về quy trình đánh giá. 57
4.6.3Kiểm tra độ tin cậy của các phương pháp đánh giá. 58
4.6.4Thực hiện đánh giá. 60
4.6.4.1Đánh giá thuật toán với các hệ số đoán ban đầu. 60
4.6.4.2Tối ưu hệ số alpha cho thuật toán WF. 63
4.6.4.3Hệ số gamma cho thuật toán SS. 65
4.6.4.4Đánh giá thuật toán sau khi đã tối ưu. 66
4.6.4.5Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác. 67
4.6.5Kết luận chương. 69
TÀI LIỆU THAM KHẢO70
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI73
PHỤ LỤC
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại.
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế.
Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3 thành viên :
- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói sử dụng phương pháp Spectral Subtraction.
- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử dụng bộ lọc Wiener.
- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế.
Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương :
Phần 1 : Lý thuyết
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement .
Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm có đánh giá chủ quan và đánh giá khách quan.
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điểm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
MỤC LỤC
LỜI CAM ĐOAN1
MỤC LỤC2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH8
MỞ ĐẦU10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI12
1.1Giới thiệu chương. 12
1.2Nâng cao chất lượng tiếng nói là gì ?. 12
1.3Lý thuyết về tín hiệu và nhiễu. 14
1.3.1Tín hiệu, hệ thống và xử lý tín hiệu. 14
1.3.1.1Tín hiệu. 14
1.3.1.2Nguồn tín hiệu. 14
1.3.1.3Hệ thống và xử lý tín hiệu. 15
1.3.1.4Phân loại tín hiệu. 15
1.4Lý thuyết về nhiễu. 16
1.4.1Nguồn nhiễu. 16
1.4.2Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau. 18
1.5Tín hiệu rời rạc theo thời gian. 19
1.5.1Tín hiệu bước nhảy đơn vị20
1.5.2Tín hiệu xung đơn vị20
1.5.3Tín hiệu hàm mũ. 20
1.5.4Tín hiệu hàm sin rời rạc. 20
1.6Phép biến đổi Fourier của tín hiệu rời rạc DTFT21
1.6.1Sự hội tụ của phép biến đổi Fourier. 21
1.6.2Quan hệ giữa biến đổi Z và biến đổi Fourier. 21
1.6.3Phép biến đổi Fourier ngược. 22
1.6.4Các tính chất của phép biến đổi Fourier. 22
1.6.5Phân tích tần số (phổ) cho tín hiệu rời rạc. 23
1.6.6Phổ tín hiệu và phổ pha. 24
1.7Các thuật toán sử dụng nâng cao chất lượng tiếng nói25
1.7.1Trừ phổ. 25
1.7.2Mô hình thống kê. 25
1.8Tín hiệu tiếng nói25
1.9Cơ chế tạo tiếng nói27
1.9.1.1Bộ máy phát âm của con người27
1.9.2Mô hình kỹ thuật của việc tạo tiếng nói27
1.9.3Phân loại âm28
1.9.4Thuộc tính âm học của tiếng nói28
1.10Kết luận chương. 28
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI29
2.1Giới thiệu chương. 29
2.2Phương pháp đánh giá chủ quan. 29
2.2.1Các phương pháp đánh giá tuyệt đối30
2.2.1.1Phương pháp đánh giá tuyệt đối ACR30
2.2.2Các phương pháp đánh giá tương đối30
2.2.2.1Đánh giá bằng phương pháp so sánh các mẫu tín hiệu. 30
2.2.2.2Phương pháp đánh giá theo sự suy giảm chất lượng. 31
2.3Phương pháp đánh giá khách quan. 32
2.3.1Đo tỷ số tín hiệu trên nhiễu trên từng khung. 32
2.3.2Đo khoảng cách phổ dựa trên LPC34
2.3.2.1Phương pháp đo LLR34
2.3.2.2Phương pháp đo IS. 34
2.3.2.3Phương pháp đo theo khoảng cách cepstrum35
2.3.3Đánh giá mô phỏng theo cảm nhận nghe của con người35
2.3.3.1Phương pháp đo Weighted Spectral Slope. 36
2.3.3.2Phương pháp đo Bark Distortion. 37
2.3.3.3Phương pháp đánh giá cảm nhận chất lượng thoại PESQ37
2.4Kết luận chương. 37
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING39
3.1Giới thiệu chương. 39
3.2Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering. 39
3.3Thuật toán Spectral Subtraction. 39
3.3.1Giới thiệu chung. 39
3.3.2Spectral subtraction đối với phổ biên độ. 40
3.3.3Spectral subtraction đối với phổ công suất41
3.4Thuật toán Wiener Filtering. 43
3.4.1Giới thiệu chung. 43
3.4.2Nguyên lý cơ bản của Wiener Filtering. 44
3.5Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói46
3.5.1Phân tích tín hiệu theo từng frame. 46
3.5.2Overlap và Adding. 47
3.6Ước lượng và cập nhật nhiễu. 48
3.6.1Voice activity detection. 49
3.6.2Quá trình ước lượng và cập nhật nhiễu. 49
3.7Kết luận chương. 50
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN51
4.1Giới thiệu chương. 51
4.2Quy trình thực hiện và đánh giá thuật toán. 51
4.3Lưu đồ thuật toán Spectral Subtraction. 53
4.4Lưu đồ thuật toán Wiener Filtering. 54
4.5Thực hiện thuật toán. 55
4.6Đánh giá chất lượng tiếng nói đã được xử lý. 57
4.6.1Cơ sở dữ liệu cho việc đánh giá. 57
4.6.2Tổng quan về quy trình đánh giá. 57
4.6.3Kiểm tra độ tin cậy của các phương pháp đánh giá. 58
4.6.4Thực hiện đánh giá. 60
4.6.4.1Đánh giá thuật toán với các hệ số đoán ban đầu. 60
4.6.4.2Tối ưu hệ số alpha cho thuật toán WF. 63
4.6.4.3Hệ số gamma cho thuật toán SS. 65
4.6.4.4Đánh giá thuật toán sau khi đã tối ưu. 66
4.6.4.5Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác. 67
4.6.5Kết luận chương. 69
TÀI LIỆU THAM KHẢO70
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI73
PHỤ LỤC
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại.
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế.
Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3 thành viên :
- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói sử dụng phương pháp Spectral Subtraction.
- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử dụng bộ lọc Wiener.
- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế.
Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương :
Phần 1 : Lý thuyết
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement .
Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm có đánh giá chủ quan và đánh giá khách quan.
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế.
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điểm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links