Link tải luận văn miễn phí cho ae Kết nối
Nhiều thuật toán phát hiện đầu cuối được dựa trên
độlớn của tín hiệu năng lượng thời gian ngắn và tỉ
lệqua điểm zero đểcốgắng phát hiện chính xác
đến mức có thể. Quá trình cơbản của thuật toán
nhưsau: một mẫu tín hiệu nhỏcủa nền nhiễu được
lấy trong suốt khoảng “lặng” (silence) cho đến
trước điểm bắt đầu của tín hiệu tiếng nói. Từ đây
ngưỡng tiếng nói được xác định dựa trên năng
lượng khoảng lặng và năng lượng đỉnh. Ban đầu,
những điểm kết thúc được xác định ởnhững nơi
năng lượng tín hiệu vượt qua ngưỡng này, sau đó ta
tính khoảng cách giữa hai điểm xem có thoảmãn
độdài của một từhay không. Tương tựta áp dụng
cho tỉlệqua điểm zero.
Vấn đề nghiên cứu các phương pháp nhận dạng
tiếng nói đã và đang thu hút rất nhiều sự đầu tư và
nghiên cứu của các nhà khoa học trên khắp thế
giới. Tuy nhiên cho đến nay kết quả mang lại vẫn
chưa hoàn toàn làm hài lòng những người nghiên
cứu do tính chất quá phức tạp và không cố định của
đối tượng nhận dạng là tiếng nói con người. Đặc
biệt, đối với tiếng Việt thì kết quả càng còn nhiều
hạn chế. Bài báo trình bày một hướng nhận dạng
tiếng nói tiếng Việt, dựa trên việc trích đặc trưng
tiếng nói bằng phương pháp MFCC và bộ nhận
dạng dùng mạng HMM. Kết quả được kiểm nghiệm
thực tế bằng mô hình xe điều khiển từ xa.
ABSTRACT
Researching and inventing speech recognition
methods have been paid much considerations by
many scientists over the world. However, the
achievements don’t satisfy researchers’ demands
because of the complexity and unstability of speech
until now. Especially with Vietnamese speech, the
results are more unsatisfied. The paper suggests a
synthetic method for recogniting Vietnamese
speech: extract speech’s particularities by MFCC
method and recognize by HMM network. The
results are experimented through a model of RF
controlled car.
1 ĐẶT VẤN ĐỀ
1.1 Giới thiệu
Ngày nay, cùng với sự phát triển của ngành điện tử
và tin học, các hệ thống máy tự động đã dần thay
thế con người trong nhiều công đoạn của công việc.
Máy có khả năng làm việc hiệu quả và năng suất
cao hơn con người rất nhiều. Song cho đến nay, vấn
đề giao tiếp người – máy tuy đã được cải thiện
nhiều nhưng vẫn còn rất thủ công: thông qua bàn
phím và các thiết bị nhập dữ liệu khác. Giao tiếp
với thiết bị máy bằng tiếng nói sẽ là cách
giao tiếp văn minh và tự nhiên nhất, dấu ấn giao
tiếp người – máy sẽ mất đi mà thay vào đó là cảm
nhận của sự giao tiếp giữa người với người, nếu
hoàn thiện thì đây sẽ là một cách giao tiếp
tiện lợi và hiệu quả nhất.
Do có sự khác biệt về mặt ngữ âm giữa các ngôn
ngữ nên ta không thể áp dụng các chương trình
nhận dạng khác để nhận dạng tiếng Việt. Một hệ
thống nhận dạng tiếng nói ở nước ta phải được xây
dựng trên nền tảng của tiếng nói tiếng Việt.
1.2 Tình hình nghiên cứu trong và ngoài nước
Vấn đề nhận dạng tiếng nói tiếng Việt chỉ mới được
quan tâm nghiên cứu trong những năm gần đây và
chưa có một chương trình nhận dạng hoàn chỉnh
nào được công bố.
Trên thế giới đã có rất nhiều hệ thống nhận dạng
tiếng nói (tiếng Anh) đã và đang được ứng dụng rất
hiệu quả như: Via Voice của IBM, Spoken Toolkit
của CSLU (Central of Spoken Laguage Under-
standing)… nhưng trong tiếng Việt thì còn rất nhiều
hạn chế.
1.3 Mục tiêu của đề tài
Đề tài này nghiên cứu thử nghiệm một hướng nhận
dạng tiếng nói - tiếng Việt dựa trên việc trích đặc
trưng của tiếng nói bằng phương pháp MFCC (Mel-
Frequency Ceptrums Coefficients), và nhận dạng
bằng mô hình HMM (Hidden Markov Models).
Đồng thời, một mô hình điều khiển bằng tiếng nói –
tiếng Việt được xây dựng với bộ từ vựng nhỏ, thiết
lập hệ thống điều khiển bằng tiếng nói với một tập
lệnh cố định. Tập lệnh này dùng để điều khiển
Robot, và mô hình điều khiển xe bằng tiếng nói
hoàn chỉnh là một ứng dụng thực tế mang tính thử
nghiệm của đề tài.
2 XÂY DỰNG HỆ THỐNG NHẬN DẠNG
TIẾNG NÓI
Một hệ thống nhận dạng nói chung thường bao gồm
hai phần: phần huấn luyện (training phase) và phần
nhận dạng (recognition phase). “Huấn luyện” là quá
trình hệ thống “học” những mẫu chuẩn được cung
cấp bởi những tiếng khác nhau (từ hay âm), để từ
đó hình thành bộ từ vựng của hệ thống. “Nhận
dạng” là quá trình quyết định xem từ nào được đọc
căn cứ vào bộ từ vựng đã được huấn luyện. Sơ đồ
tổng quát của hệ thống nhận dạng tiếng nói được
thể hiện trên hình 1.
Để thuận tiện cho việc kiểm tra và đánh giá kết quả,
từ sơ đồ trên chúng tui chia chương trình nhận dạng
thành ba mô-đun riêng biệt:
! Mô-đun 1: Thực hiện việc ghi âm tín hiệu tiếng
nói, tách tiếng nói khỏi nền nhiễu và lưu vào
cơ sở dữ liệu.
! Mô-đun 2: Trích đặc trưng tín hiệu tiếng nói đã
thu ở mô-đun 1 bằng phương pháp MFCC,
đồng thời thực hiện ước lượng vector các
vector đặc trưng này.
! Mô-đun 3: Xây dựng mô hình Markov ẩn với 6
trạng thái, tối ưu hóa các hệ số của HMM
tương ứng với từng từ trong bộ từ vựng, tiến
hành nhận dạng một từ được đọc vào micro.
2.1 Thực hiện mô-đun 1
Nhiệm vụ của mô-đun này là thu tín hiệu từ micro,
dùng kỹ thuật xử lý đầu cuối để phát hiện phần tín
hiệu tiếng nói và phần tín hiệu nhiễu. Từ đó ta có
thể tách tiếng nói ra khỏi nền nhiễu (chỉ thu tín hiệu
tiếng nói mà không thu tín hiệu nhiễu nền).
Tuy có nhiều phương pháp tách tiếng nói khác
nhau, nhưng qua quá trình nghiên cứu và thử
nghiệm các tác giả nhận thấy sự kết hợp giữa
phương pháp hàm năng lượng thời gian ngắn và tỉ
lệ qua điểm zero cho kết quả tốt hơn.
Phương pháp này dựa vào tính chất năng lượng của
tín hiệu tiếng nói thường lớn hơn năng lượng của
tín hiệu nhiễu và tỉ lệ qua điểm zero của nhiễu sẽ
lớn hơn tín hiệu tiếng nói. Hình 2 cho thấy mối
quan hệ giữa tín hiệu thu được, giá trị của hàm
năng lượng thời gian ngắn và tỉ lệ qua điểm zero.
Hình 2 Sự tương quan giữa tín hiệu tiếng nói và
nền nhiễu.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download.
Password giải nén nếu cần: ket-noi.com | Bấm vào Link, đợi vài giây sau đó bấm Get Website để tải:
Nhiều thuật toán phát hiện đầu cuối được dựa trên
độlớn của tín hiệu năng lượng thời gian ngắn và tỉ
lệqua điểm zero đểcốgắng phát hiện chính xác
đến mức có thể. Quá trình cơbản của thuật toán
nhưsau: một mẫu tín hiệu nhỏcủa nền nhiễu được
lấy trong suốt khoảng “lặng” (silence) cho đến
trước điểm bắt đầu của tín hiệu tiếng nói. Từ đây
ngưỡng tiếng nói được xác định dựa trên năng
lượng khoảng lặng và năng lượng đỉnh. Ban đầu,
những điểm kết thúc được xác định ởnhững nơi
năng lượng tín hiệu vượt qua ngưỡng này, sau đó ta
tính khoảng cách giữa hai điểm xem có thoảmãn
độdài của một từhay không. Tương tựta áp dụng
cho tỉlệqua điểm zero.
Vấn đề nghiên cứu các phương pháp nhận dạng
tiếng nói đã và đang thu hút rất nhiều sự đầu tư và
nghiên cứu của các nhà khoa học trên khắp thế
giới. Tuy nhiên cho đến nay kết quả mang lại vẫn
chưa hoàn toàn làm hài lòng những người nghiên
cứu do tính chất quá phức tạp và không cố định của
đối tượng nhận dạng là tiếng nói con người. Đặc
biệt, đối với tiếng Việt thì kết quả càng còn nhiều
hạn chế. Bài báo trình bày một hướng nhận dạng
tiếng nói tiếng Việt, dựa trên việc trích đặc trưng
tiếng nói bằng phương pháp MFCC và bộ nhận
dạng dùng mạng HMM. Kết quả được kiểm nghiệm
thực tế bằng mô hình xe điều khiển từ xa.
ABSTRACT
Researching and inventing speech recognition
methods have been paid much considerations by
many scientists over the world. However, the
achievements don’t satisfy researchers’ demands
because of the complexity and unstability of speech
until now. Especially with Vietnamese speech, the
results are more unsatisfied. The paper suggests a
synthetic method for recogniting Vietnamese
speech: extract speech’s particularities by MFCC
method and recognize by HMM network. The
results are experimented through a model of RF
controlled car.
1 ĐẶT VẤN ĐỀ
1.1 Giới thiệu
Ngày nay, cùng với sự phát triển của ngành điện tử
và tin học, các hệ thống máy tự động đã dần thay
thế con người trong nhiều công đoạn của công việc.
Máy có khả năng làm việc hiệu quả và năng suất
cao hơn con người rất nhiều. Song cho đến nay, vấn
đề giao tiếp người – máy tuy đã được cải thiện
nhiều nhưng vẫn còn rất thủ công: thông qua bàn
phím và các thiết bị nhập dữ liệu khác. Giao tiếp
với thiết bị máy bằng tiếng nói sẽ là cách
giao tiếp văn minh và tự nhiên nhất, dấu ấn giao
tiếp người – máy sẽ mất đi mà thay vào đó là cảm
nhận của sự giao tiếp giữa người với người, nếu
hoàn thiện thì đây sẽ là một cách giao tiếp
tiện lợi và hiệu quả nhất.
Do có sự khác biệt về mặt ngữ âm giữa các ngôn
ngữ nên ta không thể áp dụng các chương trình
nhận dạng khác để nhận dạng tiếng Việt. Một hệ
thống nhận dạng tiếng nói ở nước ta phải được xây
dựng trên nền tảng của tiếng nói tiếng Việt.
1.2 Tình hình nghiên cứu trong và ngoài nước
Vấn đề nhận dạng tiếng nói tiếng Việt chỉ mới được
quan tâm nghiên cứu trong những năm gần đây và
chưa có một chương trình nhận dạng hoàn chỉnh
nào được công bố.
Trên thế giới đã có rất nhiều hệ thống nhận dạng
tiếng nói (tiếng Anh) đã và đang được ứng dụng rất
hiệu quả như: Via Voice của IBM, Spoken Toolkit
của CSLU (Central of Spoken Laguage Under-
standing)… nhưng trong tiếng Việt thì còn rất nhiều
hạn chế.
1.3 Mục tiêu của đề tài
Đề tài này nghiên cứu thử nghiệm một hướng nhận
dạng tiếng nói - tiếng Việt dựa trên việc trích đặc
trưng của tiếng nói bằng phương pháp MFCC (Mel-
Frequency Ceptrums Coefficients), và nhận dạng
bằng mô hình HMM (Hidden Markov Models).
Đồng thời, một mô hình điều khiển bằng tiếng nói –
tiếng Việt được xây dựng với bộ từ vựng nhỏ, thiết
lập hệ thống điều khiển bằng tiếng nói với một tập
lệnh cố định. Tập lệnh này dùng để điều khiển
Robot, và mô hình điều khiển xe bằng tiếng nói
hoàn chỉnh là một ứng dụng thực tế mang tính thử
nghiệm của đề tài.
2 XÂY DỰNG HỆ THỐNG NHẬN DẠNG
TIẾNG NÓI
Một hệ thống nhận dạng nói chung thường bao gồm
hai phần: phần huấn luyện (training phase) và phần
nhận dạng (recognition phase). “Huấn luyện” là quá
trình hệ thống “học” những mẫu chuẩn được cung
cấp bởi những tiếng khác nhau (từ hay âm), để từ
đó hình thành bộ từ vựng của hệ thống. “Nhận
dạng” là quá trình quyết định xem từ nào được đọc
căn cứ vào bộ từ vựng đã được huấn luyện. Sơ đồ
tổng quát của hệ thống nhận dạng tiếng nói được
thể hiện trên hình 1.
Để thuận tiện cho việc kiểm tra và đánh giá kết quả,
từ sơ đồ trên chúng tui chia chương trình nhận dạng
thành ba mô-đun riêng biệt:
! Mô-đun 1: Thực hiện việc ghi âm tín hiệu tiếng
nói, tách tiếng nói khỏi nền nhiễu và lưu vào
cơ sở dữ liệu.
! Mô-đun 2: Trích đặc trưng tín hiệu tiếng nói đã
thu ở mô-đun 1 bằng phương pháp MFCC,
đồng thời thực hiện ước lượng vector các
vector đặc trưng này.
! Mô-đun 3: Xây dựng mô hình Markov ẩn với 6
trạng thái, tối ưu hóa các hệ số của HMM
tương ứng với từng từ trong bộ từ vựng, tiến
hành nhận dạng một từ được đọc vào micro.
2.1 Thực hiện mô-đun 1
Nhiệm vụ của mô-đun này là thu tín hiệu từ micro,
dùng kỹ thuật xử lý đầu cuối để phát hiện phần tín
hiệu tiếng nói và phần tín hiệu nhiễu. Từ đó ta có
thể tách tiếng nói ra khỏi nền nhiễu (chỉ thu tín hiệu
tiếng nói mà không thu tín hiệu nhiễu nền).
Tuy có nhiều phương pháp tách tiếng nói khác
nhau, nhưng qua quá trình nghiên cứu và thử
nghiệm các tác giả nhận thấy sự kết hợp giữa
phương pháp hàm năng lượng thời gian ngắn và tỉ
lệ qua điểm zero cho kết quả tốt hơn.
Phương pháp này dựa vào tính chất năng lượng của
tín hiệu tiếng nói thường lớn hơn năng lượng của
tín hiệu nhiễu và tỉ lệ qua điểm zero của nhiễu sẽ
lớn hơn tín hiệu tiếng nói. Hình 2 cho thấy mối
quan hệ giữa tín hiệu thu được, giá trị của hàm
năng lượng thời gian ngắn và tỉ lệ qua điểm zero.
Hình 2 Sự tương quan giữa tín hiệu tiếng nói và
nền nhiễu.

Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download.
Password giải nén nếu cần: ket-noi.com | Bấm vào Link, đợi vài giây sau đó bấm Get Website để tải:
You must be registered for see links