Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm
Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính
trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá
trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối
cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang
được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy
tính phục vụ con người trong cuộc sống.
Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành
công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế.
Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công
nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn
chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong nhận dạng
tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về
phương ngữ tiếng Việt.
Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt
cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và
phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu
thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ.
Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,
chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi
đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của
kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như
vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung,
hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi
gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt
giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ
âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ
“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và
phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”
Tóm tắt nội dung tài liệu: Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Ngọc Hưng NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT THEO PHƯƠNG THỨC PHÁT ÂM Chuyên ngành: Hệ thống thông tin Mã số: 62480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Trịnh Văn Loan 2. TS. Nguyễn Hồng Quang Hà Nội - 2017 2 LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS. Trịnh Văn Loan Phạm Ngọc Hưng TS. Nguyễn Hồng Quang 3 LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường. Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luôn tận tình giúp đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai và hoàn thành công việc nghiên cứu của mình. Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông tin, Bộ môn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu. Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn thành luận án này. Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu. Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này. Phạm Ngọc Hưng 4 MỤC LỤC MỤC LỤC ............................................................................................................................. 4 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................................ 7 DANH MỤC CÁC BẢNG .................................................................................................. 10 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12 MỞ ĐẦU ............................................................................................................................. 14 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ 18 1.1. Nhận dạng tiếng nói .............................................................................................. 18 1.1.1. Tổng quan về nhận dạng tiếng nói ................................................................ 18 1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói ...... 19 1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói ..................................... 20 1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói ........................................... 21 1.2. Nhận dạng phương ngữ ......................................................................................... 23 1.2.1. Các mô hình nhận dạng phương ngữ ............................................................. 23 1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau ............................. 24 1.3. Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt ............... 29 1.4. Một số mô hình nhận dạng ................................................................................... 30 1.4.1. Mô hình GMM .............................................................................................. 30 1.4.2. Bộ phân lớp SVM .......................................................................................... 32 1.4.3. Mạng nơ ron nhận tạo .................................................................................... 38 1.5. Kết chương ............................................................................................................ 54 2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT ....................................................................................................................... 56 2.1. Tổng quan phương ngữ tiếng Việt ........................................................................ 56 2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt ........................................ 56 2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 57 2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58 2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 60 2.2.1. Âm tiết và âm vị trong tiếng Việt .................................................................. 60 2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 64 5 2.3. Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 65 2.3.1. Hệ thống phụ âm đầu ..................................................................................... 65 2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 67 2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 67 2.4.1. Hệ thống thanh điệu Hà Nội .......................................................................... 68 2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế ...................................................... 68 2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 69 2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 70 2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói ........................................... 71 2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt ..................................................................................................... 71 2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 72 2.6.2. Chuẩn bị và chuẩn hóa văn bản ..................................................................... 73 2.6.3. Ghi âm ........................................................................................................... 75 2.6.4. Kết quả ghi âm và đặc tính VDSPEC ............................................................ 78 2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 79 2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 79 2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 81 2.7.3. Phân tích dữ liệu dùng LDA .......................................................................... 83 2.8. Kết chương ............................................................................................................ 87 3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 89 3.1. Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 89 3.1.1. Công cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 89 3.1.2. Lựa chọn số lượng hệ số MFCC .................................................................... 91 3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp MFCC với tham số F0 ................................................................................................. 92 3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thông tương ứng và tham số F0 .............................................................. 95 3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng phương ngữ tiếng Việt ................................................................................................. 96 3.2. SVM nhận dạng phương ngữ tiếng Việt ............................................................... 98 3.2.1. Bộ phân lớp SMO .......................................................................................... 98 6 3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 99 3.3. lBk nhận dạng phương ngữ tiếng Việt ................................................................ 103 3.3.1. Bộ phân lớp IBk .......................................................................................... 103 3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................. 106 3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron ........ 107 3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka .......................................... 107 3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt ............................ 107 3.5. JRip nhận dạng phương ngữ tiếng Việt .............................................................. 108 3.5.1. Bộ phân lớp JRip ......................................................................................... 108 3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip ................................................ 109 3.6. Nhận dạng phương ngữ tiếng Việt với PART .................................................... 110 3.6.1. Bộ phân lớp PART ...................................................................................... 110 3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................. 110 3.7. Kết chương .......................................................................................................... 110 4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ ................................................................................................................ 112 4.1. HMM nhận dạng tiếng Việt nói .......................................................................... 112 4.1.1. Mô hình HMM ............................................................................................ 112 4.1.2. HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính ........................ 125 4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương ngữ 130 4.2.1. Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130 4.2.2. Nhận dạng tiếng Việt nói khi có thông tin phương ngữ .............................. 132 4.3. Kết chương .......................................................................................................... 133 KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 134 TÀI LIỆU THAM KHẢO ................................................................................................. 137 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 149 7 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AANN Auto-Associative Neural Network AM Acoustic Model Mô hình âm học ANN Artificial Neural Network Mạng nơ-ron nhân tạo ARFF Attribute-Relation File Format Định dạng file tham số đặc trưng trong Weka ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói BKSPEC Bach Khoa SPEech Corpus Bộ ngữ liệu được phát triển tại Bộ môn Kỹ thuật Máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học Bách khoa Hà Nội BKTC Bach Khoa Text Code BMMI Boosted Maximum Mutual Information Thông tin tương hỗ cực đại tăng cường CD Concept Description Mô tả khái niệm CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh CMS Cepstral Mean Subtraction Trừ trung bình Cepstral CMU SLM Carnegie Mellon University Statistical Language Modeling Toolkit Bộ công cụ mô hình hóa ngôn ngữ thống kê của trường Carnegie Mellon DCF Detection Cost Function Hàm giá phát hiện DET Detection Error Tradeoff Cân bằng sai số phát hiện DL Descrition Length Độ dài mô tả DNN Deep Neural Networks Mạng nơ-ron sâu ELRA European Language Resources Association Hội tài nguyên ngôn ngữ châu Âu EM Expectation Maximization Cực đại hóa kỳ vọng ERM Empirical Risk Minimization Tối thiểu hóa rủi ro theo kinh nghiệm F0 Fundamental frequency Tần số cơ bản fMLLR feature-space MLLR fMMI feature-space MMI fMPE feature-space Minimum Phone Error FST Finite-State-Transducer Chuyển trạng thái hữu hạn GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss 8 HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân biệt tuyến tính hiệp phương sai không đồng nhất HMM Hidden Markov Model Mô hình Markov ẩn HTK Hidden Markov Model Toolkit Bộ công cụ mô hình Markov ẩn IBk Instance Based k Tên gọi bộ phân lớp k láng giềng gần nhất trong Weka IBL Instance Based Learning Học dựa trên đối tượng IREP Incremental Reduced Error Pruning JRip KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker k-NN k-Nearest Neighbour K láng giềng gần nhất LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đoàn dữ liệu ngôn ngữ LLR Log Likelihood Ratio LPC Linear Prediction Coding Mã hóa tiên đoán tuyến tính MAP Maximum a Posteriori MFCC Mel Frequency Cepstral Coefficients Các hệ số Cepstral theo thang đo tần số Mel MHAH Mô hình âm học MHNN Mô hình ngôn ngữ MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transforms MMI Maximum Mutual Information MPE Minimum Phone Error Cực tiểu hóa lỗi âm NIST National Institute of Standards and Technology Viện Tiêu chuẩn và Công nghệ Quốc gia của Mỹ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NN Neural Networks PART PCA Principal Component Analysis Phân tích các thành phần chính PLP Perceptual Linear Prediction Tiên đoán cảm thụ tuyến tính PNB Phương ngữ Bắc PNN Phương ngữ nam PNT Phương ngữ Trung 9 PPR Parallel Phone Recognition PPRLM Parallel Phone Recognition followed by Language Modeling PRLM Phone Recognition followed by Language Modeling QP Quadratic Programming Quy hoạch toàn phương RBF Radial Basis Function Hàm cơ bản hướng Gauss RIPPER Repeated Incremental Pruning to Produce Error Reduction RM Risk Minimization Tối thiểu hóa rủi ro SAT Speaker Adaptive Training Huấn luyện thích nghi người ... 11, no. 1, pp. 43-72. [126] Osuna, E., Freund, R., Girosi, F. (1997) An Improved Training Algorithm for Support Vector Machines. IEEE NNSP '97, pp. 276-285. [127] Pallett, D., Fiscuss, J., Garofolo, J., Martin, A., & Przybocki, M. (1999) 1998 broadcast news benchmark test results: English and non-English word error rate performance measures. In Proc. DARPA Broadcast News Workshop, pp. 5-12. [128] Paul, D. B. (1991) Algorithms for an optimal A* search and linearizing the search in the stack decoder. In Acoustics, Speech, and Signal Processing, pp. 693-696. [129] Peterson, G. E., & Barney, H. L. (1952) Control methods used in a study of the vowels. The Journal of the acoustical society of America, vol. 24, no. 2, pp. 175- 184. 145 [130] Platt, John C (1999) Fast Training of Support Vector Machines. Advances in kernel methods, pp. 185-208. [131] Povey, B., Kingsbury, L. Mangu, G. Saon, H. Soltau, and G. Zweig (2005) FMPE: Discriminatively trained features for speech recognition. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, Philadelphia, PA, pp. 961-964. [132] Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G., & Visweswariah, K. (2008) Boosted MMI for model and feature-space discriminative training. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 4057-4060. [133] Quinlan, J. R. (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers. [134] Rabiner, L. and B. Juang (1993) Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs, NJ. [135] Rao, K. S. (2011) Role of neural network models for developing speech systems. Sadhana, vol. 36, no. 5, pp. 783-836. [136] Rao, K. S., & Koolagudi, S. G. (2011) Identification of Hindi dialects and emotions using spectral and prosodic features of speech. IJSCI: International Journal of Systemics, Cybernetics and Informatics, vol. 9, no. 4, pp. 24-33. [137] Richardson, F., Ostendorf, M., & Rohlicek, J. R. (1995) Lattice-based search strategies for large vocabulary speech recognition. In Acoustics, Speech, and Signal Processing. ICASSP-95., 1995 International Conference, pp. 576-579. [138] Rosenberg, A., C. H. Lee, and F. K. Soong (1994) Cepstral channel normalization techniques for HMMbased speaker verification. Proceedings of the International Conference on Acoustics. Speech, and Signal Processing, Adelaide, SA, pp. 1835– 1838. [139] S. Furui (1986) Speaker independent isolated word recognition using dynamic features of. IEEE Transactions ASSP, vol. 34, pp. 52–59. [140] S. J. Young and L. L. Chase (1998) Speech recognition evaluation: A review of the US CSR and LVCSR programmes. Computer Speech and Language, vol. 12, no. 4, pp. 263-279. [141] Sak, H., Senior, A. W., & Beaufays, F. (2014) Long short-term memory recurrent neural network architectures for large scale acoustic modeling. In Interspeech, pp. 338-342. [142] Sakoe, Hiroaki, and Seibi Chiba (1971) A dynamic programming approach to continuous speech recognition. Proceedings of the 7th International Congress on Acoustics, vol. 3, Budapest, Hungary, pp. 65–69. [143] Saon, G., & Povey, D. (2008) Penalty function maximization for large margin HMM training. INTERSPEECH, pp. 920-923. [144] Shen, W., Chen, N. F., & Reynolds, D. A. (2008) Dialect recognition using adapted phonetic models. In Interspeech , pp. 763-766. [145] Shweta Sinha (2015) Analysis and Recognition of Dialects of Hindi Speech. International Journal of Scientific Research in Multidisciplinary Studies, vol. 1, no. 1, pp. 26-33. [146] Shweta Sinha, Aruna Jain, S. S. Agrawal (2015) Acoustic-Phonetic Feature Based Dialect Identification in Hindi Speech. International Journal on Smart Sensing & Intelligent Systems, vol. 8, no. 1, pp. 235-254. [147] Simon Haykin (2005) Neuron Networks A Comprehensive Foundation, 2nd ed. 146 McMaster University Hamilton. [148] Sinha, S., Jain, A., & Agrawal, S. S. (2014) Speech Processing for Hindi Dialect Recognition. Advances in Signal Processing and Intelligent Recognition Systems. Springer International Publishing., pp. 161-169. [149] Sittichok Aunkaew, Montri Karnjanadecha, Chai Wutiwiwatchai (2013) Development of a Corpus for Southern Thai Dialect Speech Recognition: Design and Text Preparation. The 10th International Symposium on Natural Language Processing, Phuket, Thailand. [150] Solera-Ureña, R., Padrell-Sendra, J., Martín-Iglesias, D., Gallardo-Antolín, A., Peláez-Moreno, C., & Díaz-de-María, F. (2007) SVMs for Automatic Speech Recognition: A Survey. Progress in nonlinear speech processing, pp. 190-216. [151] Soltau, H., Kingsbury, B., Mangu, L., Povey, D., Saon, G., & Zweig, G. (2005) The IBM 2004 conversational telephony system for rich transcription. In Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP'05). IEEE International, Philadelphia, PA, pp. I-205. [152] Song, Y., Cui, R., Hong, X., Mcloughlin, I., Shi, J., & Dai, L. (2015) Improved language identification using deep bottleneck network. In Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference, pp. 4200-4204. [153] Stantic, Dejan, and Jun Jo (2012) Accent Identification by Clustering and Scoring Formants. World Academy of Science, Engineering and Technology, International Journal of Computer, Electrical, Automation, Control and Information Engineering, vol. 6, no. 3, pp. 379-384. [154] Stolcke, A., Zheng, J., Wang, W., & Abrash, V. (2011) SRILM at sixteen: Update and outlook. IEEE Automatic Speech Recognition and Understanding Workshop, vol. 5. [155] T.T. Vu, D.T. Nguyen, M.C. Luong, and J-P. Hosom (2005) Vietnamese large vocabulary continuous speech recognition. INTERSPEECH 2005, Lisbon, Portugal. [156] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong and John-Paul Hosom (2006) Vietnamese Large Vocabulary Continuous Speech Recognition. Proceedings of Eurospeech, Lisboa. [157] Thompson, Henry (1990) Best-first enumeration of paths through a lattice - An active chart parsing solution. Computer Speech & Language, vol. 4, no. 3, pp. 263- 274. [158] Tommie Gannert (2007) A Speaker Verification System under the Scope: Alize. Stockholm, Sweden School of Computer Science and Engineering. [159] Torres-Carrasquillo, P. A., Gleason, T. P., and Reynolds, D. A. (2004) Dialect Identification Using Gaussian Mixture Models. Odyssey: The Speaker and Language Recognition Workshop, pp. 297-300. [160] Torres-Carrasquillo, P. A., Singer, E., Kohler, M. A., Greene, R. J., Reynolds, D. A., and Deller Jr., J. R. (2002) Approaches to Language Identification Using Gaussian Mixture Models and Shifted Delta Cepstral Features. International Conference on Spoken Language Processing, Denver, CO, ISCA, pp. 33-36, 82-92. [161] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc (2004) Xây dựng cơ sở dữ liệu lớn về tiếng nói cho tiếng Việt. Tạp chí Khoa học và Công nghệ các trường đại học kỹ thuật, vol. 46+47, pp. 13-17. [162] Trần Thị Ngọc Lang (1995) Phương ngữ Nam Bộ. Những khác biệt về từ vựng - ngữ nghĩa so với phương ngữ Bắc Bộ. NXB Khoa học Xã hội. 147 [163] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà (1999) Determining characteristics of Vietnamese non-accent vowels. Post and telecommunication Journal, Special issue: R&D on telecommunication and IT, vol. 2, pp. 77-82. [164] Tuan Vu Hai, Kris Demuynck and Dirk Van Compernolle Vietnamese Automatic Speech Recognition: the FLaVoR Approach. International Symposium on Chinese Spoken Language Processing, Singapore, p. 2006. [165] V.B. Le, D.D. Tran, E. Castelli, L. Besacier, and J-F. Serignat (2004) Spoken and written language resources for vietnamese. LREC 2004, vol. II, Lisbon, Portugal, pp. 599–602. [166] Vapnik, Vladimir Naumovich (1982) Estimation of dependences based on empirical data. New York Springer-Verlag, vol. 40. [167] Vijayarani, S., & Muthulakshmi, M. (2013) Comparative analysis of bayes and lazy classification algorithms. International Journal of Advanced Research in Computer and Communication Engineering, vol. 2, no. 8, pp. 3118-3124. [168] Vintsyuk, Taras K. (1968) Speech discrimination by dynamic programming. Cybernetics and Systems Analysis, vol. 4(1), pp. 52-57. [169] Viterbi, A. (1967) Error bounds for convolutional codes and an asymptotically optimum. IEEE transactions on Information Theory, vol. 13, no. 2, pp. 260-269. [170] Viterbi, Andrew (1967) Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE Transactions on Information Theory, vol. 13(2), pp. 260–269. [171] Võ Xuân Trang (1997) Phương ngữ Bình Trị Thiên. Nhà xuất bản Khoa học xã hội. [172] Vu, Quan, Kris Demuynck, and Dirk Van Compernolle (2006) Vietnamese automatic speech recognition: the FLaVoR approach. ISCSLP 2006, Kent Ridge, Singapore. [173] W. Labov (1972) Sociolinguistic Patterns. Philadelphia: University of Pennsylvania. [174] W. Labov, C. Boberg, and B. Sharon (2006) The Atlas of North American English. Walter de Gruyter. [175] Wang, Y., M. Mahajan, and X. Huang (2000) A unified context-free grammar and n-gram model for spoken language processing. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, vol. 3, Istanbul, Turkey, pp. 1639-1642. [176] Witten, Ian H., and Eibe Frank (2005) Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann. [177] Woodland, P. C., Gales, M. J. F., Pye, D., & Young, S. J. (1997) The development of the 1996 HTK broadcast news transcription system. DARPA speech recognition workshop, pp. 73-78. [178] Xuedong Huang and Li Deng (2010) Handbook of Natural Language Processing, Fred J. Damerau Nitin Indurkhya, Ed. Chapman and Hall/CRC, vol. 2. [179] Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon (2010) Spoken language processing. Prentice Hall Ptr. [180] Young, S. J., Odell, J. J., & Woodland, P. C. (1994) Tree-based state tying for high accuracy acoustic modelling. In Proceedings of the workshop on Human Language , pp. 307-312. [181] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1989) Token passing: a simple conceptual model for connected speech recognition systems. Cambridge, UK Cambridge University Engineering Department. 148 [182] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1991) The use of syntax and multiple alternatives in the VODIS voice operated database inquiry system. Computer Speech & Language, vol. 5, no. 1, pp. 65-80. [183] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X.,. & Valtchev, V. (2002) The HTK book, 175th ed., 3, Ed. Cambridge university engineering department. [184] Yusnita, M. A., et al (2013) Acoustic analysis of formants across genders and ethnical accents in Malaysian English using ANOVA. Procedia Engineering 64, pp. 385-394. [185] Zissman, M. A., Gleason, T. P., Rekart, D. M., & Losiewicz, B. L. (1996) Automatic dialect identification of extemporaneous conversational, Latin American Spanish speech. In Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., pp. 777-780. 149 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 1. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Trần Xuân Thương (2011) Một phương pháp lựa chọn nhanh tham số cho hệ thống nhận dạng tiếng nói tiếng Việt. Tạp chí Nghiên cứu khoa học và công nghệ quân sự, Số 16 năm 2011 (tháng 12), ISSN 1859-1043, trang 169-178. 2. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Đào Thị Thu Diệp (2012) Cải thiện hiệu năng của hệ thống nhận dạng tiếng Việt nói bằng phương pháp lưới từ hậu nghiệm. Tạp chí Nghiên cứu khoa học và công nghệ quân sự, Số đặc san ACEIT’12 năm 2012 (tháng 11), ISSN 1859-1043, trang 25-32 3. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2013) Một hướng tiếp cận dựa trên tần số cơ bản để phân biệt phương ngữ tiếng Việt theo phương thức phát âm. Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) - Huế, ngày 20 – 21/6/2013, ISBN: 978-604-913-165- 3, trang 265-269. 4. Diep Dao Thi Thu, Loan Trinh Van, Quang Nguyen Hong, Hung Pham Ngoc (2013) Text-dependent Speaker Recognition for Vietnamese. 2013 Fixfth International Conference of Soft Computing and Pattern Recognition (SoCPaR 2013), Hanoi, Vietnam, 15-18 December 2013, pp. 203-206, ISBN 978-1-4799- 3400-3, IEEE Catalog Number: CFP1395H-ART. 5. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng (2014) Nhận dạng phương ngữ tiếng Việt sử dụng mô hình Gauss hỗn hợp. Kỷ yếu Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) – Thái Nguyên, ngày 19-20/6/2014, ISBN: 978-604-913-300-8, trang 449-552. 6. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2015) Nhận dạng phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản. Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) – Hà Nội, 09-10/7/2015, ISBN: 978-604-913-397-8, trang 523-528. 7. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) Corpus and Statistical Analysis of F0 Variation for Vietnamese Dialect Identification. The 3rd International Conference on Computer and Computing Science Proceedings, Hanoi, Vietnam, October 22-24, 2015. ISSN: 2287-1233 ASTL, Vol.111 (COMCOMS 2015), pp.205-210. 8. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) “Building of corpus for Vietnamese dialect identification”, Journal of Science and Technology Technical Universities, No.109-2015. ISSN 2354-1083, pp.49-55. 9. Nguyễn Hồng Quang, Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng (2016) “So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt”. Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công 150 nghệ thông tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang 663-667. 10. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Trần Vũ Duy (2016) “Cải thiện hiệu năng hệ thống nhận dạng tiếng việt với thông tin về phương ngữ”. Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang 63-69. 11. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Automatic identification of Vietnamese dialects”. Journal of Computer Science and Cybernetics, V.32, N.1 (2016), 18-29, DOI: 10.15625/1813-9663/32/1/7905. 12. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Statistical Analysis of Vietnamese Dialect Corpus and Dialect Identification Experiments”. International Journal of Scientific Engineering and Applied Science (IJSEAS) – Volume-2, Issue-8, August 2016, ISSN: 2395-3470, pp. 255-266.
File đính kèm:
- luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf