Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính

trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá

trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối

cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang

được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy

tính phục vụ con người trong cuộc sống.

Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành

công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế.

Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công

nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn

chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong nhận dạng

tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về

phương ngữ tiếng Việt.

Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt

cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và

phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu

thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ.

Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,

chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi

đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của

kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như

vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung,

hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi

gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt

giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ

âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ

“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và

phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”

150 trang dienloan 29800

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Phạm Ngọc Hưng
NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT
THEO PHƯƠNG THỨC PHÁT ÂM
Chuyên ngành: Hệ thống thông tin
Mã số: 62480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trịnh Văn Loan
2. TS. Nguyễn Hồng Quang
Hà Nội - 2017
2
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói
phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là
công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và
chưa từng được công bố trong bất kỳ công trình nào. Việc tham khảo các nguồn tài liệu đã
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN
PGS.TS. Trịnh Văn Loan Phạm Ngọc Hưng
TS. Nguyễn Hồng Quang
3
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo
điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luôn tận tình giúp đỡ,
đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai
và hoàn thành công việc nghiên cứu của mình.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống
Thông tin, Bộ môn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông,
Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt
tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu.
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng
Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và
hoàn thành luận án này.
Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè
thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.
Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là
nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.
Phạm Ngọc Hưng
4
MỤC LỤC
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................................ 7
DANH MỤC CÁC BẢNG .................................................................................................. 10
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12
MỞ ĐẦU ............................................................................................................................. 14
1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ
18
1.1. Nhận dạng tiếng nói .............................................................................................. 18
1.1.1. Tổng quan về nhận dạng tiếng nói ................................................................ 18
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói ...... 19
1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói ..................................... 20
1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói ........................................... 21
1.2. Nhận dạng phương ngữ ......................................................................................... 23
1.2.1. Các mô hình nhận dạng phương ngữ ............................................................. 23
1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau ............................. 24
1.3. Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt ............... 29
1.4. Một số mô hình nhận dạng ................................................................................... 30
1.4.1. Mô hình GMM .............................................................................................. 30
1.4.2. Bộ phân lớp SVM .......................................................................................... 32
1.4.3. Mạng nơ ron nhận tạo .................................................................................... 38
1.5. Kết chương ............................................................................................................ 54
2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ
TIẾNG VIỆT ....................................................................................................................... 56
2.1. Tổng quan phương ngữ tiếng Việt ........................................................................ 56
2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt ........................................ 56
2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 57
2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58
2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 60
2.2.1. Âm tiết và âm vị trong tiếng Việt .................................................................. 60
2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 64
5
2.3. Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 65
2.3.1. Hệ thống phụ âm đầu ..................................................................................... 65
2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 67
2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 67
2.4.1. Hệ thống thanh điệu Hà Nội .......................................................................... 68
2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế ...................................................... 68
2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 69
2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 70
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói ........................................... 71
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng
phương ngữ tiếng Việt ..................................................................................................... 71
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 72
2.6.2. Chuẩn bị và chuẩn hóa văn bản ..................................................................... 73
2.6.3. Ghi âm ........................................................................................................... 75
2.6.4. Kết quả ghi âm và đặc tính VDSPEC ............................................................ 78
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 79
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 79
2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 81
2.7.3. Phân tích dữ liệu dùng LDA .......................................................................... 83
2.8. Kết chương ............................................................................................................ 87
3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 89
3.1. Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 89
3.1.1. Công cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 89
3.1.2. Lựa chọn số lượng hệ số MFCC .................................................................... 91
3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
MFCC với tham số F0 ................................................................................................. 92
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và tham số F0 .............................................................. 95
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng
phương ngữ tiếng Việt ................................................................................................. 96
3.2. SVM nhận dạng phương ngữ tiếng Việt ............................................................... 98
3.2.1. Bộ phân lớp SMO .......................................................................................... 98
6
3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 99
3.3. lBk nhận dạng phương ngữ tiếng Việt ................................................................ 103
3.3.1. Bộ phân lớp IBk .......................................................................................... 103
3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................. 106
3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron ........ 107
3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka .......................................... 107
3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt ............................ 107
3.5. JRip nhận dạng phương ngữ tiếng Việt .............................................................. 108
3.5.1. Bộ phân lớp JRip ......................................................................................... 108
3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip ................................................ 109
3.6. Nhận dạng phương ngữ tiếng Việt với PART .................................................... 110
3.6.1. Bộ phân lớp PART ...................................................................................... 110
3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................. 110
3.7. Kết chương .......................................................................................................... 110
4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ
PHƯƠNG NGỮ ................................................................................................................ 112
4.1. HMM nhận dạng tiếng Việt nói .......................................................................... 112
4.1.1. Mô hình HMM ............................................................................................ 112
4.1.2. HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính ........................ 125
4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương
ngữ 130
4.2.1. Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130
4.2.2. Nhận dạng tiếng Việt nói khi có thông tin phương ngữ .............................. 132
4.3. Kết chương .......................................................................................................... 133
KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 134
TÀI LIỆU THAM KHẢO ................................................................................................. 137
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 149
7
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết đầy đủ Giải thích
AANN Auto-Associative Neural Network
AM Acoustic Model Mô hình âm học
ANN Artificial Neural Network Mạng nơ-ron nhân tạo
ARFF Attribute-Relation File Format
Định dạng file tham số đặc trưng
trong Weka
ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói
BKSPEC Bach Khoa SPEech Corpus
Bộ ngữ liệu được phát triển tại Bộ
môn Kỹ thuật Máy tính – Viện
Công nghệ Thông tin và Truyền
thông – Đại học Bách khoa Hà Nội
BKTC Bach Khoa Text Code
BMMI
Boosted Maximum Mutual
Information
Thông tin tương hỗ cực đại tăng
cường
CD Concept Description Mô tả khái niệm
CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh
CMS Cepstral Mean Subtraction Trừ trung bình Cepstral
CMU SLM
Carnegie Mellon University
Statistical Language Modeling
Toolkit
Bộ công cụ mô hình hóa ngôn ngữ
thống kê của trường Carnegie
Mellon
DCF Detection Cost Function Hàm giá phát hiện
DET Detection Error Tradeoff Cân bằng sai số phát hiện
DL Descrition Length Độ dài mô tả
DNN Deep Neural Networks Mạng nơ-ron sâu
ELRA
European Language Resources
Association
Hội tài nguyên ngôn ngữ châu Âu
EM Expectation Maximization Cực đại hóa kỳ vọng
ERM Empirical Risk Minimization
Tối thiểu hóa rủi ro theo kinh
nghiệm
F0 Fundamental frequency Tần số cơ bản
fMLLR feature-space MLLR
fMMI feature-space MMI
fMPE feature-space Minimum Phone Error
FST Finite-State-Transducer Chuyển trạng thái hữu hạn
GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss
8
HLDA
Heteroscedastic Linear Discriminant
Analysis
Phân tích phân biệt tuyến tính hiệp
phương sai không đồng nhất
HMM Hidden Markov Model Mô hình Markov ẩn
HTK Hidden Markov Model Toolkit Bộ công cụ mô hình Markov ẩn
IBk Instance Based k
Tên gọi bộ phân lớp k láng giềng
gần nhất trong Weka
IBL Instance Based Learning Học dựa trên đối tượng
IREP Incremental Reduced Error Pruning
JRip
KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker
k-NN k-Nearest Neighbour K láng giềng gần nhất
LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính
LDC Linguistic Data Consortium Hội đoàn dữ liệu ngôn ngữ
LLR Log Likelihood Ratio
LPC Linear Prediction Coding Mã hóa tiên đoán tuyến tính
MAP Maximum a Posteriori
MFCC Mel Frequency Cepstral Coefficients
Các hệ số Cepstral theo thang đo
tần số Mel
MHAH Mô hình âm học
MHNN Mô hình ngôn ngữ
MLLR
Maximum Likelihood Linear
Regression
MLLT
Maximum Likelihood Linear
Transforms
MMI Maximum Mutual Information
MPE Minimum Phone Error Cực tiểu hóa lỗi âm
NIST
National Institute of Standards and
Technology
Viện Tiêu chuẩn và Công nghệ
Quốc gia của Mỹ
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
NN Neural Networks
PART
PCA Principal Component Analysis Phân tích các thành phần chính
PLP Perceptual Linear Prediction Tiên đoán cảm thụ tuyến tính
PNB Phương ngữ Bắc
PNN Phương ngữ nam
PNT Phương ngữ Trung
9
PPR Parallel Phone Recognition
PPRLM
Parallel Phone Recognition followed
by Language Modeling
PRLM
Phone Recognition followed by
Language Modeling
QP Quadratic Programming Quy hoạch toàn phương
RBF Radial Basis Function Hàm cơ bản hướng Gauss
RIPPER
Repeated Incremental Pruning to
Produce Error Reduction
RM Risk Minimization Tối thiểu hóa rủi ro
SAT Speaker Adaptive Training Huấn luyện thích nghi người ... 11,
no. 1, pp. 43-72.
[126] Osuna, E., Freund, R., Girosi, F. (1997) An Improved Training Algorithm for
Support Vector Machines. IEEE NNSP '97, pp. 276-285.
[127] Pallett, D., Fiscuss, J., Garofolo, J., Martin, A., & Przybocki, M. (1999) 1998
broadcast news benchmark test results: English and non-English word error rate
performance measures. In Proc. DARPA Broadcast News Workshop, pp. 5-12.
[128] Paul, D. B. (1991) Algorithms for an optimal A* search and linearizing the search
in the stack decoder. In Acoustics, Speech, and Signal Processing, pp. 693-696.
[129] Peterson, G. E., & Barney, H. L. (1952) Control methods used in a study of the
vowels. The Journal of the acoustical society of America, vol. 24, no. 2, pp. 175-
184.
145
[130] Platt, John C (1999) Fast Training of Support Vector Machines. Advances in
kernel methods, pp. 185-208.
[131] Povey, B., Kingsbury, L. Mangu, G. Saon, H. Soltau, and G. Zweig (2005) FMPE:
Discriminatively trained features for speech recognition. Proceedings of the
International Conference on Acoustics, Speech, and Signal Processing,
Philadelphia, PA, pp. 961-964.
[132] Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G., &
Visweswariah, K. (2008) Boosted MMI for model and feature-space discriminative
training. 2008 IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 4057-4060.
[133] Quinlan, J. R. (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann
Publishers.
[134] Rabiner, L. and B. Juang (1993) Fundamentals of Speech Recognition. Prentice
Hall, Englewood Cliffs, NJ.
[135] Rao, K. S. (2011) Role of neural network models for developing speech systems.
Sadhana, vol. 36, no. 5, pp. 783-836.
[136] Rao, K. S., & Koolagudi, S. G. (2011) Identification of Hindi dialects and emotions
using spectral and prosodic features of speech. IJSCI: International Journal of
Systemics, Cybernetics and Informatics, vol. 9, no. 4, pp. 24-33.
[137] Richardson, F., Ostendorf, M., & Rohlicek, J. R. (1995) Lattice-based search
strategies for large vocabulary speech recognition. In Acoustics, Speech, and
Signal Processing. ICASSP-95., 1995 International Conference, pp. 576-579.
[138] Rosenberg, A., C. H. Lee, and F. K. Soong (1994) Cepstral channel normalization
techniques for HMMbased speaker verification. Proceedings of the International
Conference on Acoustics. Speech, and Signal Processing, Adelaide, SA, pp. 1835–
1838.
[139] S. Furui (1986) Speaker independent isolated word recognition using dynamic
features of. IEEE Transactions ASSP, vol. 34, pp. 52–59.
[140] S. J. Young and L. L. Chase (1998) Speech recognition evaluation: A review of the
US CSR and LVCSR programmes. Computer Speech and Language, vol. 12, no. 4,
pp. 263-279.
[141] Sak, H., Senior, A. W., & Beaufays, F. (2014) Long short-term memory recurrent
neural network architectures for large scale acoustic modeling. In Interspeech, pp.
338-342.
[142] Sakoe, Hiroaki, and Seibi Chiba (1971) A dynamic programming approach to
continuous speech recognition. Proceedings of the 7th International Congress on
Acoustics, vol. 3, Budapest, Hungary, pp. 65–69.
[143] Saon, G., & Povey, D. (2008) Penalty function maximization for large margin
HMM training. INTERSPEECH, pp. 920-923.
[144] Shen, W., Chen, N. F., & Reynolds, D. A. (2008) Dialect recognition using
adapted phonetic models. In Interspeech , pp. 763-766.
[145] Shweta Sinha (2015) Analysis and Recognition of Dialects of Hindi Speech.
International Journal of Scientific Research in Multidisciplinary Studies, vol. 1, no.
1, pp. 26-33.
[146] Shweta Sinha, Aruna Jain, S. S. Agrawal (2015) Acoustic-Phonetic Feature Based
Dialect Identification in Hindi Speech. International Journal on Smart Sensing &
Intelligent Systems, vol. 8, no. 1, pp. 235-254.
[147] Simon Haykin (2005) Neuron Networks A Comprehensive Foundation, 2nd ed.
146
McMaster University Hamilton.
[148] Sinha, S., Jain, A., & Agrawal, S. S. (2014) Speech Processing for Hindi Dialect
Recognition. Advances in Signal Processing and Intelligent Recognition Systems.
Springer International Publishing., pp. 161-169.
[149] Sittichok Aunkaew, Montri Karnjanadecha, Chai Wutiwiwatchai (2013)
Development of a Corpus for Southern Thai Dialect Speech Recognition: Design
and Text Preparation. The 10th International Symposium on Natural Language
Processing, Phuket, Thailand.
[150] Solera-Ureña, R., Padrell-Sendra, J., Martín-Iglesias, D., Gallardo-Antolín, A.,
Peláez-Moreno, C., & Díaz-de-María, F. (2007) SVMs for Automatic Speech
Recognition: A Survey. Progress in nonlinear speech processing, pp. 190-216.
[151] Soltau, H., Kingsbury, B., Mangu, L., Povey, D., Saon, G., & Zweig, G. (2005) The
IBM 2004 conversational telephony system for rich transcription. In Acoustics,
Speech, and Signal Processing, 2005. Proceedings.(ICASSP'05). IEEE
International, Philadelphia, PA, pp. I-205.
[152] Song, Y., Cui, R., Hong, X., Mcloughlin, I., Shi, J., & Dai, L. (2015) Improved
language identification using deep bottleneck network. In Acoustics, Speech and
Signal Processing (ICASSP), 2015 IEEE International Conference, pp. 4200-4204.
[153] Stantic, Dejan, and Jun Jo (2012) Accent Identification by Clustering and Scoring
Formants. World Academy of Science, Engineering and Technology, International
Journal of Computer, Electrical, Automation, Control and Information Engineering,
vol. 6, no. 3, pp. 379-384.
[154] Stolcke, A., Zheng, J., Wang, W., & Abrash, V. (2011) SRILM at sixteen: Update
and outlook. IEEE Automatic Speech Recognition and Understanding Workshop,
vol. 5.
[155] T.T. Vu, D.T. Nguyen, M.C. Luong, and J-P. Hosom (2005) Vietnamese large
vocabulary continuous speech recognition. INTERSPEECH 2005, Lisbon,
Portugal.
[156] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong and John-Paul Hosom (2006)
Vietnamese Large Vocabulary Continuous Speech Recognition. Proceedings of
Eurospeech, Lisboa.
[157] Thompson, Henry (1990) Best-first enumeration of paths through a lattice - An
active chart parsing solution. Computer Speech & Language, vol. 4, no. 3, pp. 263-
274.
[158] Tommie Gannert (2007) A Speaker Verification System under the Scope: Alize.
Stockholm, Sweden School of Computer Science and Engineering.
[159] Torres-Carrasquillo, P. A., Gleason, T. P., and Reynolds, D. A. (2004) Dialect
Identification Using Gaussian Mixture Models. Odyssey: The Speaker and
Language Recognition Workshop, pp. 297-300.
[160] Torres-Carrasquillo, P. A., Singer, E., Kohler, M. A., Greene, R. J., Reynolds, D.
A., and Deller Jr., J. R. (2002) Approaches to Language Identification Using
Gaussian Mixture Models and Shifted Delta Cepstral Features. International
Conference on Spoken Language Processing, Denver, CO, ISCA, pp. 33-36, 82-92.
[161] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc (2004) Xây dựng cơ sở dữ
liệu lớn về tiếng nói cho tiếng Việt. Tạp chí Khoa học và Công nghệ các trường đại
học kỹ thuật, vol. 46+47, pp. 13-17.
[162] Trần Thị Ngọc Lang (1995) Phương ngữ Nam Bộ. Những khác biệt về từ vựng -
ngữ nghĩa so với phương ngữ Bắc Bộ. NXB Khoa học Xã hội.
147
[163] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà (1999) Determining
characteristics of Vietnamese non-accent vowels. Post and telecommunication
Journal, Special issue: R&D on telecommunication and IT, vol. 2, pp. 77-82.
[164] Tuan Vu Hai, Kris Demuynck and Dirk Van Compernolle Vietnamese Automatic
Speech Recognition: the FLaVoR Approach. International Symposium on Chinese
Spoken Language Processing, Singapore, p. 2006.
[165] V.B. Le, D.D. Tran, E. Castelli, L. Besacier, and J-F. Serignat (2004) Spoken and
written language resources for vietnamese. LREC 2004, vol. II, Lisbon, Portugal,
pp. 599–602.
[166] Vapnik, Vladimir Naumovich (1982) Estimation of dependences based on
empirical data. New York Springer-Verlag, vol. 40.
[167] Vijayarani, S., & Muthulakshmi, M. (2013) Comparative analysis of bayes and
lazy classification algorithms. International Journal of Advanced Research in
Computer and Communication Engineering, vol. 2, no. 8, pp. 3118-3124.
[168] Vintsyuk, Taras K. (1968) Speech discrimination by dynamic programming.
Cybernetics and Systems Analysis, vol. 4(1), pp. 52-57.
[169] Viterbi, A. (1967) Error bounds for convolutional codes and an asymptotically
optimum. IEEE transactions on Information Theory, vol. 13, no. 2, pp. 260-269.
[170] Viterbi, Andrew (1967) Error bounds for convolutional codes and an
asymptotically optimum decoding algorithm. IEEE Transactions on Information
Theory, vol. 13(2), pp. 260–269.
[171] Võ Xuân Trang (1997) Phương ngữ Bình Trị Thiên. Nhà xuất bản Khoa học xã hội.
[172] Vu, Quan, Kris Demuynck, and Dirk Van Compernolle (2006) Vietnamese
automatic speech recognition: the FLaVoR approach. ISCSLP 2006, Kent Ridge,
Singapore.
[173] W. Labov (1972) Sociolinguistic Patterns. Philadelphia: University of
Pennsylvania.
[174] W. Labov, C. Boberg, and B. Sharon (2006) The Atlas of North American English.
Walter de Gruyter.
[175] Wang, Y., M. Mahajan, and X. Huang (2000) A unified context-free grammar and
n-gram model for spoken language processing. Proceedings of the International
Conference on Acoustics, Speech, and Signal Processing, vol. 3, Istanbul, Turkey,
pp. 1639-1642.
[176] Witten, Ian H., and Eibe Frank (2005) Data Mining: Practical machine learning
tools and techniques. Morgan Kaufmann.
[177] Woodland, P. C., Gales, M. J. F., Pye, D., & Young, S. J. (1997) The development
of the 1996 HTK broadcast news transcription system. DARPA speech recognition
workshop, pp. 73-78.
[178] Xuedong Huang and Li Deng (2010) Handbook of Natural Language Processing,
Fred J. Damerau Nitin Indurkhya, Ed. Chapman and Hall/CRC, vol. 2.
[179] Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon (2010) Spoken language
processing. Prentice Hall Ptr.
[180] Young, S. J., Odell, J. J., & Woodland, P. C. (1994) Tree-based state tying for high
accuracy acoustic modelling. In Proceedings of the workshop on Human Language
, pp. 307-312.
[181] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1989) Token passing: a simple
conceptual model for connected speech recognition systems. Cambridge, UK
Cambridge University Engineering Department.
148
[182] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1991) The use of syntax and
multiple alternatives in the VODIS voice operated database inquiry system.
Computer Speech & Language, vol. 5, no. 1, pp. 65-80.
[183] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X.,. & Valtchev,
V. (2002) The HTK book, 175th ed., 3, Ed. Cambridge university engineering
department.
[184] Yusnita, M. A., et al (2013) Acoustic analysis of formants across genders and
ethnical accents in Malaysian English using ANOVA. Procedia Engineering 64, pp.
385-394.
[185] Zissman, M. A., Gleason, T. P., Rekart, D. M., & Losiewicz, B. L. (1996)
Automatic dialect identification of extemporaneous conversational, Latin American
Spanish speech. In Acoustics, Speech, and Signal Processing, 1996. ICASSP-96.
Conference Proceedings., pp. 777-780.
149
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
CỦA LUẬN ÁN
1. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Trần Xuân Thương
(2011) Một phương pháp lựa chọn nhanh tham số cho hệ thống nhận dạng tiếng
nói tiếng Việt. Tạp chí Nghiên cứu khoa học và công nghệ quân sự, Số 16 năm
2011 (tháng 12), ISSN 1859-1043, trang 169-178.
2. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Đào Thị Thu Diệp
(2012) Cải thiện hiệu năng của hệ thống nhận dạng tiếng Việt nói bằng phương
pháp lưới từ hậu nghiệm. Tạp chí Nghiên cứu khoa học và công nghệ quân sự, Số
đặc san ACEIT’12 năm 2012 (tháng 11), ISSN 1859-1043, trang 25-32
3. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2013) Một hướng tiếp
cận dựa trên tần số cơ bản để phân biệt phương ngữ tiếng Việt theo phương thức
phát âm. Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng
Công nghệ thông tin (FAIR) - Huế, ngày 20 – 21/6/2013, ISBN: 978-604-913-165-
3, trang 265-269.
4. Diep Dao Thi Thu, Loan Trinh Van, Quang Nguyen Hong, Hung Pham Ngoc
(2013) Text-dependent Speaker Recognition for Vietnamese. 2013 Fixfth
International Conference of Soft Computing and Pattern Recognition (SoCPaR
2013), Hanoi, Vietnam, 15-18 December 2013, pp. 203-206, ISBN 978-1-4799-
3400-3, IEEE Catalog Number: CFP1395H-ART.
5. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng
(2014) Nhận dạng phương ngữ tiếng Việt sử dụng mô hình Gauss hỗn hợp. Kỷ yếu
Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông
tin (FAIR) – Thái Nguyên, ngày 19-20/6/2014, ISBN: 978-604-913-300-8, trang
449-552.
6. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2015) Nhận dạng
phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản. Kỷ yếu Hội nghị Quốc gia
lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) – Hà
Nội, 09-10/7/2015, ISBN: 978-604-913-397-8, trang 523-528.
7. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) Corpus and
Statistical Analysis of F0 Variation for Vietnamese Dialect Identification. The 3rd
International Conference on Computer and Computing Science Proceedings, Hanoi,
Vietnam, October 22-24, 2015. ISSN: 2287-1233 ASTL, Vol.111 (COMCOMS
2015), pp.205-210.
8. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) “Building of
corpus for Vietnamese dialect identification”, Journal of Science and Technology
Technical Universities, No.109-2015. ISSN 2354-1083, pp.49-55.
9. Nguyễn Hồng Quang, Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng
(2016) “So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt”.
Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công
150
nghệ thông tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang
663-667.
10. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Trần Vũ Duy (2016)
“Cải thiện hiệu năng hệ thống nhận dạng tiếng việt với thông tin về phương ngữ”.
Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công
nghệ thông tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang
63-69.
11. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Automatic
identification of Vietnamese dialects”. Journal of Computer Science and
Cybernetics, V.32, N.1 (2016), 18-29, DOI: 10.15625/1813-9663/32/1/7905.
12. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Statistical
Analysis of Vietnamese Dialect Corpus and Dialect Identification Experiments”.
International Journal of Scientific Engineering and Applied Science (IJSEAS) –
Volume-2, Issue-8, August 2016, ISSN: 2395-3470, pp. 255-266.

File đính kèm:

luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf