Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính

trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá

trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối

cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang

được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy

tính phục vụ con người trong cuộc sống.

Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành

công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế.

Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công

nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn

chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong nhận dạng

tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về

phương ngữ tiếng Việt.

Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt

cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và

phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu

thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ.

Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,

chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi

đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của

kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như

vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung,

hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi

gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt

giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ

âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ

“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và

phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”

pdf 150 trang dienloan 17180
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm
 BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI 
Phạm Ngọc Hưng 
NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC 
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT 
THEO PHƯƠNG THỨC PHÁT ÂM 
Chuyên ngành: Hệ thống thông tin 
Mã số: 62480104 
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN 
NGƯỜI HƯỚNG DẪN KHOA HỌC: 
 1. PGS.TS. Trịnh Văn Loan 
 2. TS. Nguyễn Hồng Quang 
Hà Nội - 2017 
2 
LỜI CAM ĐOAN 
Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói 
phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là 
công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và 
chưa từng được công bố trong bất kỳ công trình nào. Việc tham khảo các nguồn tài liệu đã 
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. 
TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN 
PGS.TS. Trịnh Văn Loan Phạm Ngọc Hưng 
TS. Nguyễn Hồng Quang 
3 
LỜI CẢM ƠN 
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ 
Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo 
điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường. 
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là 
PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luôn tận tình giúp đỡ, 
đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai 
và hoàn thành công việc nghiên cứu của mình. 
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống 
Thông tin, Bộ môn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông, 
Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt 
tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu. 
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng 
Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và 
hoàn thành luận án này. 
Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè 
thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu. 
Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là 
nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này. 
 Phạm Ngọc Hưng 
4 
MỤC LỤC 
MỤC LỤC ............................................................................................................................. 4 
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................................ 7 
DANH MỤC CÁC BẢNG .................................................................................................. 10 
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12 
MỞ ĐẦU ............................................................................................................................. 14 
1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ
 18 
1.1. Nhận dạng tiếng nói .............................................................................................. 18 
1.1.1. Tổng quan về nhận dạng tiếng nói ................................................................ 18 
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói ...... 19 
1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói ..................................... 20 
1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói ........................................... 21 
1.2. Nhận dạng phương ngữ ......................................................................................... 23 
1.2.1. Các mô hình nhận dạng phương ngữ ............................................................. 23 
1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau ............................. 24 
1.3. Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt ............... 29 
1.4. Một số mô hình nhận dạng ................................................................................... 30 
1.4.1. Mô hình GMM .............................................................................................. 30 
1.4.2. Bộ phân lớp SVM .......................................................................................... 32 
1.4.3. Mạng nơ ron nhận tạo .................................................................................... 38 
1.5. Kết chương ............................................................................................................ 54 
2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ 
TIẾNG VIỆT ....................................................................................................................... 56 
2.1. Tổng quan phương ngữ tiếng Việt ........................................................................ 56 
2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt ........................................ 56 
2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 57 
2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58 
2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 60 
2.2.1. Âm tiết và âm vị trong tiếng Việt .................................................................. 60 
2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 64 
5 
2.3. Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 65 
2.3.1. Hệ thống phụ âm đầu ..................................................................................... 65 
2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 67 
2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 67 
2.4.1. Hệ thống thanh điệu Hà Nội .......................................................................... 68 
2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế ...................................................... 68 
2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 69 
2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 70 
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói ........................................... 71 
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng 
phương ngữ tiếng Việt ..................................................................................................... 71 
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 72 
2.6.2. Chuẩn bị và chuẩn hóa văn bản ..................................................................... 73 
2.6.3. Ghi âm ........................................................................................................... 75 
2.6.4. Kết quả ghi âm và đặc tính VDSPEC ............................................................ 78 
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 79 
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 79 
2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 81 
2.7.3. Phân tích dữ liệu dùng LDA .......................................................................... 83 
2.8. Kết chương ............................................................................................................ 87 
3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 89 
3.1. Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 89 
3.1.1. Công cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 89 
3.1.2. Lựa chọn số lượng hệ số MFCC .................................................................... 91 
3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp 
MFCC với tham số F0 ................................................................................................. 92 
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp 
formant, dải thông tương ứng và tham số F0 .............................................................. 95 
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng 
phương ngữ tiếng Việt ................................................................................................. 96 
3.2. SVM nhận dạng phương ngữ tiếng Việt ............................................................... 98 
3.2.1. Bộ phân lớp SMO .......................................................................................... 98 
6 
3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 99 
3.3. lBk nhận dạng phương ngữ tiếng Việt ................................................................ 103 
3.3.1. Bộ phân lớp IBk .......................................................................................... 103 
3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................. 106 
3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron ........ 107 
3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka .......................................... 107 
3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt ............................ 107 
3.5. JRip nhận dạng phương ngữ tiếng Việt .............................................................. 108 
3.5.1. Bộ phân lớp JRip ......................................................................................... 108 
3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip ................................................ 109 
3.6. Nhận dạng phương ngữ tiếng Việt với PART .................................................... 110 
3.6.1. Bộ phân lớp PART ...................................................................................... 110 
3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................. 110 
3.7. Kết chương .......................................................................................................... 110 
4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ 
PHƯƠNG NGỮ ................................................................................................................ 112 
4.1. HMM nhận dạng tiếng Việt nói .......................................................................... 112 
4.1.1. Mô hình HMM ............................................................................................ 112 
4.1.2. HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính ........................ 125 
4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương 
ngữ 130 
4.2.1. Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130 
4.2.2. Nhận dạng tiếng Việt nói khi có thông tin phương ngữ .............................. 132 
4.3. Kết chương .......................................................................................................... 133 
KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 134 
TÀI LIỆU THAM KHẢO ................................................................................................. 137 
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 149 
7 
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 
Chữ viết tắt Chữ viết đầy đủ Giải thích 
AANN Auto-Associative Neural Network 
AM Acoustic Model Mô hình âm học 
ANN Artificial Neural Network Mạng nơ-ron nhân tạo 
ARFF Attribute-Relation File Format 
Định dạng file tham số đặc trưng 
trong Weka 
ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói 
BKSPEC Bach Khoa SPEech Corpus 
Bộ ngữ liệu được phát triển tại Bộ 
môn Kỹ thuật Máy tính – Viện 
Công nghệ Thông tin và Truyền 
thông – Đại học Bách khoa Hà Nội 
BKTC Bach Khoa Text Code 
BMMI 
Boosted Maximum Mutual 
Information 
Thông tin tương hỗ cực đại tăng 
cường 
CD Concept Description Mô tả khái niệm 
CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh 
CMS Cepstral Mean Subtraction Trừ trung bình Cepstral 
CMU SLM 
Carnegie Mellon University 
Statistical Language Modeling 
Toolkit 
Bộ công cụ mô hình hóa ngôn ngữ 
thống kê của trường Carnegie 
Mellon 
DCF Detection Cost Function Hàm giá phát hiện 
DET Detection Error Tradeoff Cân bằng sai số phát hiện 
DL Descrition Length Độ dài mô tả 
DNN Deep Neural Networks Mạng nơ-ron sâu 
ELRA 
European Language Resources 
Association 
Hội tài nguyên ngôn ngữ châu Âu 
EM Expectation Maximization Cực đại hóa kỳ vọng 
ERM Empirical Risk Minimization 
Tối thiểu hóa rủi ro theo kinh 
nghiệm 
F0 Fundamental frequency Tần số cơ bản 
fMLLR feature-space MLLR 
fMMI feature-space MMI 
fMPE feature-space Minimum Phone Error 
FST Finite-State-Transducer Chuyển trạng thái hữu hạn 
GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss 
8 
HLDA 
Heteroscedastic Linear Discriminant 
Analysis 
Phân tích phân biệt tuyến tính hiệp 
phương sai không đồng nhất 
HMM Hidden Markov Model Mô hình Markov ẩn 
HTK Hidden Markov Model Toolkit Bộ công cụ mô hình Markov ẩn 
IBk Instance Based k 
Tên gọi bộ phân lớp k láng giềng 
gần nhất trong Weka 
IBL Instance Based Learning Học dựa trên đối tượng 
IREP Incremental Reduced Error Pruning 
JRip 
KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker 
k-NN k-Nearest Neighbour K láng giềng gần nhất 
LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính 
LDC Linguistic Data Consortium Hội đoàn dữ liệu ngôn ngữ 
LLR Log Likelihood Ratio 
LPC Linear Prediction Coding Mã hóa tiên đoán tuyến tính 
MAP Maximum a Posteriori 
MFCC Mel Frequency Cepstral Coefficients 
Các hệ số Cepstral theo thang đo 
tần số Mel 
MHAH Mô hình âm học 
MHNN Mô hình ngôn ngữ 
MLLR 
Maximum Likelihood Linear 
Regression 
MLLT 
Maximum Likelihood Linear 
Transforms 
MMI Maximum Mutual Information 
MPE Minimum Phone Error Cực tiểu hóa lỗi âm 
NIST 
National Institute of Standards and 
Technology 
Viện Tiêu chuẩn và Công nghệ 
Quốc gia của Mỹ 
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 
NN Neural Networks 
PART 
PCA Principal Component Analysis Phân tích các thành phần chính 
PLP Perceptual Linear Prediction Tiên đoán cảm thụ tuyến tính 
PNB Phương ngữ Bắc 
PNN Phương ngữ nam 
PNT Phương ngữ Trung 
9 
PPR Parallel Phone Recognition 
PPRLM 
Parallel Phone Recognition followed 
by Language Modeling 
PRLM 
Phone Recognition followed by 
Language Modeling 
QP Quadratic Programming Quy hoạch toàn phương 
RBF Radial Basis Function Hàm cơ bản hướng Gauss 
RIPPER 
Repeated Incremental Pruning to 
Produce Error Reduction 
RM Risk Minimization Tối thiểu hóa rủi ro 
SAT Speaker Adaptive Training Huấn luyện thích nghi người ... 11, 
no. 1, pp. 43-72. 
[126] Osuna, E., Freund, R., Girosi, F. (1997) An Improved Training Algorithm for 
Support Vector Machines. IEEE NNSP '97, pp. 276-285. 
[127] Pallett, D., Fiscuss, J., Garofolo, J., Martin, A., & Przybocki, M. (1999) 1998 
broadcast news benchmark test results: English and non-English word error rate 
performance measures. In Proc. DARPA Broadcast News Workshop, pp. 5-12. 
[128] Paul, D. B. (1991) Algorithms for an optimal A* search and linearizing the search 
in the stack decoder. In Acoustics, Speech, and Signal Processing, pp. 693-696. 
[129] Peterson, G. E., & Barney, H. L. (1952) Control methods used in a study of the 
vowels. The Journal of the acoustical society of America, vol. 24, no. 2, pp. 175-
184. 
145 
[130] Platt, John C (1999) Fast Training of Support Vector Machines. Advances in 
kernel methods, pp. 185-208. 
[131] Povey, B., Kingsbury, L. Mangu, G. Saon, H. Soltau, and G. Zweig (2005) FMPE: 
Discriminatively trained features for speech recognition. Proceedings of the 
International Conference on Acoustics, Speech, and Signal Processing, 
Philadelphia, PA, pp. 961-964. 
[132] Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G., & 
Visweswariah, K. (2008) Boosted MMI for model and feature-space discriminative 
training. 2008 IEEE International Conference on Acoustics, Speech and Signal 
Processing, pp. 4057-4060. 
[133] Quinlan, J. R. (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann 
Publishers. 
[134] Rabiner, L. and B. Juang (1993) Fundamentals of Speech Recognition. Prentice 
Hall, Englewood Cliffs, NJ. 
[135] Rao, K. S. (2011) Role of neural network models for developing speech systems. 
Sadhana, vol. 36, no. 5, pp. 783-836. 
[136] Rao, K. S., & Koolagudi, S. G. (2011) Identification of Hindi dialects and emotions 
using spectral and prosodic features of speech. IJSCI: International Journal of 
Systemics, Cybernetics and Informatics, vol. 9, no. 4, pp. 24-33. 
[137] Richardson, F., Ostendorf, M., & Rohlicek, J. R. (1995) Lattice-based search 
strategies for large vocabulary speech recognition. In Acoustics, Speech, and 
Signal Processing. ICASSP-95., 1995 International Conference, pp. 576-579. 
[138] Rosenberg, A., C. H. Lee, and F. K. Soong (1994) Cepstral channel normalization 
techniques for HMMbased speaker verification. Proceedings of the International 
Conference on Acoustics. Speech, and Signal Processing, Adelaide, SA, pp. 1835–
1838. 
[139] S. Furui (1986) Speaker independent isolated word recognition using dynamic 
features of. IEEE Transactions ASSP, vol. 34, pp. 52–59. 
[140] S. J. Young and L. L. Chase (1998) Speech recognition evaluation: A review of the 
US CSR and LVCSR programmes. Computer Speech and Language, vol. 12, no. 4, 
pp. 263-279. 
[141] Sak, H., Senior, A. W., & Beaufays, F. (2014) Long short-term memory recurrent 
neural network architectures for large scale acoustic modeling. In Interspeech, pp. 
338-342. 
[142] Sakoe, Hiroaki, and Seibi Chiba (1971) A dynamic programming approach to 
continuous speech recognition. Proceedings of the 7th International Congress on 
Acoustics, vol. 3, Budapest, Hungary, pp. 65–69. 
[143] Saon, G., & Povey, D. (2008) Penalty function maximization for large margin 
HMM training. INTERSPEECH, pp. 920-923. 
[144] Shen, W., Chen, N. F., & Reynolds, D. A. (2008) Dialect recognition using 
adapted phonetic models. In Interspeech , pp. 763-766. 
[145] Shweta Sinha (2015) Analysis and Recognition of Dialects of Hindi Speech. 
International Journal of Scientific Research in Multidisciplinary Studies, vol. 1, no. 
1, pp. 26-33. 
[146] Shweta Sinha, Aruna Jain, S. S. Agrawal (2015) Acoustic-Phonetic Feature Based 
Dialect Identification in Hindi Speech. International Journal on Smart Sensing & 
Intelligent Systems, vol. 8, no. 1, pp. 235-254. 
[147] Simon Haykin (2005) Neuron Networks A Comprehensive Foundation, 2nd ed. 
146 
McMaster University Hamilton. 
[148] Sinha, S., Jain, A., & Agrawal, S. S. (2014) Speech Processing for Hindi Dialect 
Recognition. Advances in Signal Processing and Intelligent Recognition Systems. 
Springer International Publishing., pp. 161-169. 
[149] Sittichok Aunkaew, Montri Karnjanadecha, Chai Wutiwiwatchai (2013) 
Development of a Corpus for Southern Thai Dialect Speech Recognition: Design 
and Text Preparation. The 10th International Symposium on Natural Language 
Processing, Phuket, Thailand. 
[150] Solera-Ureña, R., Padrell-Sendra, J., Martín-Iglesias, D., Gallardo-Antolín, A., 
Peláez-Moreno, C., & Díaz-de-María, F. (2007) SVMs for Automatic Speech 
Recognition: A Survey. Progress in nonlinear speech processing, pp. 190-216. 
[151] Soltau, H., Kingsbury, B., Mangu, L., Povey, D., Saon, G., & Zweig, G. (2005) The 
IBM 2004 conversational telephony system for rich transcription. In Acoustics, 
Speech, and Signal Processing, 2005. Proceedings.(ICASSP'05). IEEE 
International, Philadelphia, PA, pp. I-205. 
[152] Song, Y., Cui, R., Hong, X., Mcloughlin, I., Shi, J., & Dai, L. (2015) Improved 
language identification using deep bottleneck network. In Acoustics, Speech and 
Signal Processing (ICASSP), 2015 IEEE International Conference, pp. 4200-4204. 
[153] Stantic, Dejan, and Jun Jo (2012) Accent Identification by Clustering and Scoring 
Formants. World Academy of Science, Engineering and Technology, International 
Journal of Computer, Electrical, Automation, Control and Information Engineering, 
vol. 6, no. 3, pp. 379-384. 
[154] Stolcke, A., Zheng, J., Wang, W., & Abrash, V. (2011) SRILM at sixteen: Update 
and outlook. IEEE Automatic Speech Recognition and Understanding Workshop, 
vol. 5. 
[155] T.T. Vu, D.T. Nguyen, M.C. Luong, and J-P. Hosom (2005) Vietnamese large 
vocabulary continuous speech recognition. INTERSPEECH 2005, Lisbon, 
Portugal. 
[156] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong and John-Paul Hosom (2006) 
Vietnamese Large Vocabulary Continuous Speech Recognition. Proceedings of 
Eurospeech, Lisboa. 
[157] Thompson, Henry (1990) Best-first enumeration of paths through a lattice - An 
active chart parsing solution. Computer Speech & Language, vol. 4, no. 3, pp. 263-
274. 
[158] Tommie Gannert (2007) A Speaker Verification System under the Scope: Alize. 
Stockholm, Sweden School of Computer Science and Engineering. 
[159] Torres-Carrasquillo, P. A., Gleason, T. P., and Reynolds, D. A. (2004) Dialect 
Identification Using Gaussian Mixture Models. Odyssey: The Speaker and 
Language Recognition Workshop, pp. 297-300. 
[160] Torres-Carrasquillo, P. A., Singer, E., Kohler, M. A., Greene, R. J., Reynolds, D. 
A., and Deller Jr., J. R. (2002) Approaches to Language Identification Using 
Gaussian Mixture Models and Shifted Delta Cepstral Features. International 
Conference on Spoken Language Processing, Denver, CO, ISCA, pp. 33-36, 82-92. 
[161] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc (2004) Xây dựng cơ sở dữ 
liệu lớn về tiếng nói cho tiếng Việt. Tạp chí Khoa học và Công nghệ các trường đại 
học kỹ thuật, vol. 46+47, pp. 13-17. 
[162] Trần Thị Ngọc Lang (1995) Phương ngữ Nam Bộ. Những khác biệt về từ vựng - 
ngữ nghĩa so với phương ngữ Bắc Bộ. NXB Khoa học Xã hội. 
147 
[163] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà (1999) Determining 
characteristics of Vietnamese non-accent vowels. Post and telecommunication 
Journal, Special issue: R&D on telecommunication and IT, vol. 2, pp. 77-82. 
[164] Tuan Vu Hai, Kris Demuynck and Dirk Van Compernolle Vietnamese Automatic 
Speech Recognition: the FLaVoR Approach. International Symposium on Chinese 
Spoken Language Processing, Singapore, p. 2006. 
[165] V.B. Le, D.D. Tran, E. Castelli, L. Besacier, and J-F. Serignat (2004) Spoken and 
written language resources for vietnamese. LREC 2004, vol. II, Lisbon, Portugal, 
pp. 599–602. 
[166] Vapnik, Vladimir Naumovich (1982) Estimation of dependences based on 
empirical data. New York Springer-Verlag, vol. 40. 
[167] Vijayarani, S., & Muthulakshmi, M. (2013) Comparative analysis of bayes and 
lazy classification algorithms. International Journal of Advanced Research in 
Computer and Communication Engineering, vol. 2, no. 8, pp. 3118-3124. 
[168] Vintsyuk, Taras K. (1968) Speech discrimination by dynamic programming. 
Cybernetics and Systems Analysis, vol. 4(1), pp. 52-57. 
[169] Viterbi, A. (1967) Error bounds for convolutional codes and an asymptotically 
optimum. IEEE transactions on Information Theory, vol. 13, no. 2, pp. 260-269. 
[170] Viterbi, Andrew (1967) Error bounds for convolutional codes and an 
asymptotically optimum decoding algorithm. IEEE Transactions on Information 
Theory, vol. 13(2), pp. 260–269. 
[171] Võ Xuân Trang (1997) Phương ngữ Bình Trị Thiên. Nhà xuất bản Khoa học xã hội. 
[172] Vu, Quan, Kris Demuynck, and Dirk Van Compernolle (2006) Vietnamese 
automatic speech recognition: the FLaVoR approach. ISCSLP 2006, Kent Ridge, 
Singapore. 
[173] W. Labov (1972) Sociolinguistic Patterns. Philadelphia: University of 
Pennsylvania. 
[174] W. Labov, C. Boberg, and B. Sharon (2006) The Atlas of North American English. 
Walter de Gruyter. 
[175] Wang, Y., M. Mahajan, and X. Huang (2000) A unified context-free grammar and 
n-gram model for spoken language processing. Proceedings of the International 
Conference on Acoustics, Speech, and Signal Processing, vol. 3, Istanbul, Turkey, 
pp. 1639-1642. 
[176] Witten, Ian H., and Eibe Frank (2005) Data Mining: Practical machine learning 
tools and techniques. Morgan Kaufmann. 
[177] Woodland, P. C., Gales, M. J. F., Pye, D., & Young, S. J. (1997) The development 
of the 1996 HTK broadcast news transcription system. DARPA speech recognition 
workshop, pp. 73-78. 
[178] Xuedong Huang and Li Deng (2010) Handbook of Natural Language Processing, 
Fred J. Damerau Nitin Indurkhya, Ed. Chapman and Hall/CRC, vol. 2. 
[179] Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon (2010) Spoken language 
processing. Prentice Hall Ptr. 
[180] Young, S. J., Odell, J. J., & Woodland, P. C. (1994) Tree-based state tying for high 
accuracy acoustic modelling. In Proceedings of the workshop on Human Language 
, pp. 307-312. 
[181] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1989) Token passing: a simple 
conceptual model for connected speech recognition systems. Cambridge, UK 
Cambridge University Engineering Department. 
148 
[182] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1991) The use of syntax and 
multiple alternatives in the VODIS voice operated database inquiry system. 
Computer Speech & Language, vol. 5, no. 1, pp. 65-80. 
[183] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X.,. & Valtchev, 
V. (2002) The HTK book, 175th ed., 3, Ed. Cambridge university engineering 
department. 
[184] Yusnita, M. A., et al (2013) Acoustic analysis of formants across genders and 
ethnical accents in Malaysian English using ANOVA. Procedia Engineering 64, pp. 
385-394. 
[185] Zissman, M. A., Gleason, T. P., Rekart, D. M., & Losiewicz, B. L. (1996) 
Automatic dialect identification of extemporaneous conversational, Latin American 
Spanish speech. In Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. 
Conference Proceedings., pp. 777-780. 
149 
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 
CỦA LUẬN ÁN 
1. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Trần Xuân Thương 
(2011) Một phương pháp lựa chọn nhanh tham số cho hệ thống nhận dạng tiếng 
nói tiếng Việt. Tạp chí Nghiên cứu khoa học và công nghệ quân sự, Số 16 năm 
2011 (tháng 12), ISSN 1859-1043, trang 169-178. 
2. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Đào Thị Thu Diệp 
(2012) Cải thiện hiệu năng của hệ thống nhận dạng tiếng Việt nói bằng phương 
pháp lưới từ hậu nghiệm. Tạp chí Nghiên cứu khoa học và công nghệ quân sự, Số 
đặc san ACEIT’12 năm 2012 (tháng 11), ISSN 1859-1043, trang 25-32 
3. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2013) Một hướng tiếp 
cận dựa trên tần số cơ bản để phân biệt phương ngữ tiếng Việt theo phương thức 
phát âm. Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng 
Công nghệ thông tin (FAIR) - Huế, ngày 20 – 21/6/2013, ISBN: 978-604-913-165-
3, trang 265-269. 
4. Diep Dao Thi Thu, Loan Trinh Van, Quang Nguyen Hong, Hung Pham Ngoc 
(2013) Text-dependent Speaker Recognition for Vietnamese. 2013 Fixfth 
International Conference of Soft Computing and Pattern Recognition (SoCPaR 
2013), Hanoi, Vietnam, 15-18 December 2013, pp. 203-206, ISBN 978-1-4799-
3400-3, IEEE Catalog Number: CFP1395H-ART. 
5. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng 
(2014) Nhận dạng phương ngữ tiếng Việt sử dụng mô hình Gauss hỗn hợp. Kỷ yếu 
Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông 
tin (FAIR) – Thái Nguyên, ngày 19-20/6/2014, ISBN: 978-604-913-300-8, trang 
449-552. 
6. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2015) Nhận dạng 
phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản. Kỷ yếu Hội nghị Quốc gia 
lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) – Hà 
Nội, 09-10/7/2015, ISBN: 978-604-913-397-8, trang 523-528. 
7. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) Corpus and 
Statistical Analysis of F0 Variation for Vietnamese Dialect Identification. The 3rd 
International Conference on Computer and Computing Science Proceedings, Hanoi, 
Vietnam, October 22-24, 2015. ISSN: 2287-1233 ASTL, Vol.111 (COMCOMS 
2015), pp.205-210. 
8. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) “Building of 
corpus for Vietnamese dialect identification”, Journal of Science and Technology 
Technical Universities, No.109-2015. ISSN 2354-1083, pp.49-55. 
9. Nguyễn Hồng Quang, Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng 
(2016) “So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt”. 
Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công 
150 
nghệ thông tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang 
663-667. 
10. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Trần Vũ Duy (2016) 
“Cải thiện hiệu năng hệ thống nhận dạng tiếng việt với thông tin về phương ngữ”. 
Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công 
nghệ thông tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang 
63-69. 
11. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Automatic 
identification of Vietnamese dialects”. Journal of Computer Science and 
Cybernetics, V.32, N.1 (2016), 18-29, DOI: 10.15625/1813-9663/32/1/7905. 
12. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Statistical 
Analysis of Vietnamese Dialect Corpus and Dialect Identification Experiments”. 
International Journal of Scientific Engineering and Applied Science (IJSEAS) – 
Volume-2, Issue-8, August 2016, ISSN: 2395-3470, pp. 255-266. 

File đính kèm:

  • pdfluan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf