Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt

Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT)

chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp cừu” [79]

(phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng

có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST 1 trong câu

chuyện.

Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo nhiều

cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của

mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để diễn đạt nội

dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác nhau, thậm chí

đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường luôn giả sử rằng

CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn bản này nhắm đến.

Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu được hết, bởi do sự

khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay chuyên ngành. Hơn nữa,

thời gian, trí nhớ và quan niệm của con người đã làm nhầm lẫn, làm phát sinh thêm ý

nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm

hiểu ý nghĩa CVT là gì. Đây không phải là vấn đề dễ dàng đối với tất cả mọi người.

Khi đọc một văn bản, hầu hết người đọc đều phải dừng lại chốc lát để hiểu được CVT

ấy là gì. Thậm chí có khi người đọc phải mất vài phút tìm hiểu và tra cứu mà vẫn

chưa hiểu được đầy đủ CVT. Vì vậy vấn đề phân giải ý nghĩa CVT là cần thiết trong

nhiều tình huống, không chỉ tình huống trong sử dụng ngôn ngữ tự nhiên (giao tiếp, đặt

tên, nhắn tin, Email ), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dạng

chữ viết hình ảnh, dịch thuật

pdf 168 trang dienloan 14220
Bạn đang xem 20 trang mẫu của tài liệu "Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt

Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
NGUYỄN NHO TÚY 
ÀNG THỊ MỸ LỆ 
 Chuyên ngành : KHOA HỌC MÁY TÍNH 
 Mã số : 62.48.01.01 
 LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Đà Nẵng, năm 2020 
i 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC ĐÀ NẴNG 
NGUYỄN NHO TÚY 
NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG 
TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT 
 Chuyên ngành : KHOA HỌC MÁY TÍNH 
 Mã số : 62.48.01.01 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Người hướng dẫn khoa học: 
PGS.TS. PHAN HUY KHÁNH 
Đà Nẵng, năm 2020 
ii 
LỜI CAM ĐOAN 
Tôi cam đoan đây là công trình nghiên cứu của tôi, dưới sự hướng dẫn trực tiếp 
của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa, Đại 
học Đà Nẵng. 
Tôi cam đoan các kết quả được trình bày trong luận án là trung thực, 
không sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công 
bố trong bất kỳ công trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn 
gốc xuất xứ rõ ràng. 
Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm. 
 Tác giả, 
 Nguyễn Nho Túy 
iii 
MỤC LỤC 
LỜI CAM ĐOAN .................................................................................................. ii 
DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................. vii 
DANH MỤC HÌNH ẢNH .................................................................................... ix 
DANH MỤC BẢNG BIỂU .................................................................................. xi 
MỞ ĐẦU ................................................................................................................1 
1. ĐẶT VẤN ĐỀ ................................................................................................1 
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU .........................5 
2.1. Mục tiêu ........................................................................................................5 
2.2. Đối tượng ......................................................................................................5 
2.3. Phạm vi .........................................................................................................6 
3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................6 
4. BỐ CỤC CỦA LUẬN ÁN .............................................................................7 
5. ĐÓNG GÓP CỦA LUẬN ÁN .......................................................................8 
CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT .................................... 11 
1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN .................................... 11 
1.1.1. Ngôn ngữ và xử lý ngôn ngữ ................................................................ 11 
1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết ............................................... 12 
1.1.3. Các loại hình ngôn ngữ........................................................................ 13 
1.1.4. Xử lý ngôn ngữ tự nhiên ....................................................................... 14 
1.1.5. Vấn đề xử lý tiếng Việt ......................................................................... 16 
1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT ............... 18 
1.2.1. Ngữ nghĩa và ngữ nghĩa học ................................................................ 18 
1.2.2. Phân tích nghĩa của từ ......................................................................... 19 
1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa .................................................. 20 
1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt ............................................... 22 
1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG .................................................... 25 
1.3.1. Chữ viết tắt là gì .................................................................................. 25 
1.3.2. Lịch sử hình thành chữ Quốc ngữ ........................................................ 26 
1.3.3. Tìm hiểu về lịch sử chữ viết tắt ............................................................ 27 
1.3.4. Sử dụng chữ viết tắt ............................................................................. 28 
1.3.5. Chữ viết tắt trong tiếng Việt ................................................................. 31 
1.4. NGỮ NGHĨA CHỮ VIẾT TẮT ................................................................... 32 
iv 
1.4.1. Khái niệm ngữ nghĩa chữ viết tắt ......................................................... 32 
1.4.2. Biến đổi ngữ nghĩa chữ viết tắt ............................................................ 33 
1.4.3. Nhập nhằng chữ viết tắt ....................................................................... 34 
1.4.4. Xử lý nhập nhằng chữ viết tắt .............................................................. 35 
1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt ............................................ 36 
1.5. TÓM TẮT CHƯƠNG 1 ................................................................................ 37 
CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG 
VIỆT ..................................................................................................................... 38 
2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT ............................. 38 
2.1.1. Mô hình sự hình thành chữ viết tắt ....................................................... 38 
2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt ......................................... 40 
2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt ............................................ 41 
2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt ..................... 44 
2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM .................................................. 47 
2.2.1. Hệ sinh thái phần mềm là gì ................................................................ 47 
2.2.2. Mô hình hóa hệ sinh thái phần mềm .................................................... 48 
2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50 
2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm .............................................. 51 
2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) ...... 51 
2.3.1. Hệ thống khai thác phần mềm .............................................................. 51 
2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt ................................. 52 
2.3.3. Mô hình hệ thống khai thác chữ viết tắt ............................................... 53 
2.4. THỰC NGHIỆM XÂY DỰNG AMES ........................................................ 54 
2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt ............................... 55 
2.4.2. Xây dựng công cụ khai thác chữ viết tắt ............................................... 55 
2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt ............................... 55 
2.5. TÓM TẮT CHƯƠNG 2 ................................................................................ 56 
CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT ............. 57 
3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT ...................................... 57 
3.1.1. Mô hình quan hệ dữ liệu ...................................................................... 57 
3.1.2. Triển khai cài đặt ................................................................................. 59 
3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT ................................ 60 
3.2.1. Thu thập dữ liệu thủ công .................................................................... 60 
3.2.2. Thu thập dữ liệu tự động ...................................................................... 61 
v 
3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới ........................... 62 
3.2.4. Thực nghiệm cài đặt thuật toán SENVA ............................................... 64 
3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT ............................ 65 
3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành ................................... 65 
3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục ....................... 69 
3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia ........................ 71 
3.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................ 73 
3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt .......................................... 73 
3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt ................................... 74 
3.5. TÓM TẮT CHƯƠNG 3 ................................................................................ 76 
CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT ........... 77 
4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT ............................................... 77 
4.1.1. Lựa chọn công cụ lập trình .................................................................. 77 
4.1.2. Thiết kế chương trình ........................................................................... 77 
4.1.3. Kết quả xây dựng thư viện chữ viết tắt ................................................. 78 
4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU .......................... 79 
4.2.1. Tin nhắn thương hiệu là gì ................................................................... 79 
4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname ........................ 80 
4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu .............................. 81 
4.2.4. Cài đặt chương trình, kết quả thử nghiệm ............................................ 87 
4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG ........... 88 
4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình ................................ 88 
4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt ............................................. 89 
4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển ................................. 90 
4.3.4. Cài đặt và kết quả thực nghiệm ............................................................ 92 
4.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................. 93 
4.4.1. Đánh giá kết quả thực nghiệm AMES ................................................. 93 
4.4.2. Đánh giá AMES đặc tả theo mô hình UML ......................................... 94 
4.5. TÓM TẮT CHƯƠNG 4 ................................................................................ 96 
CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT ................................... 97 
5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT ...................... 97 
5.1.1. Ngữ cảnh sử dụng chữ viết tắt ............................................................. 97 
5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98 
vi 
5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản ...................... 99 
5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt ............................................ 100 
5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT .............. 102 
5.2.1. Xây dựng các miền dữ liệu ................................................................. 102 
5.2.2. Xây dựng vị từ và hàm ....................................................................... 103 
5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản ...................... 105 
5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT .................... 106 
5.3.1. Xây dựng cơ sở luật ........................................................................... 106 
5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt ................................... 109 
5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt ...................... 110 
5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng.................... 112 
5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ..... 113 
5.4.1. Tần số chữ viết tắt ............................................................................. 113 
5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt ............... 114 
5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt ................................. 116 
5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm ..................... 117 
5.4.5. Kết quả thực nghiệm và đánh giá ...................................................... 119 
5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt ................................ 123 
5.5. TÓM TẮT CHƯƠNG 5 .............................................................................. 124 
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 125 
1. KẾT LUẬN .................................................................................................... 125 
1.1. Tóm tắt nội dung luận án ...................................................................... 125 
1.2. Các kết quả đạt được ............................................................................ 126 
1.3. Hạn chế của luận án ............................................................................. 128 
2. HƯỚNG PHÁT TRIỂN................................................................................. 129 
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ ............... 130 
TÀI LIỆU THAM KHẢO ................................................................................. 131 
PHỤ LỤC 
vii 
DANH MỤC CÁC CHỮ VIẾT TẮT 
TIẾNG VIỆT 
STT Chữ viết tắt NGHĨA TIẾNG VIỆT 
1. BCVT Bưu chính viễn thông 
2. CĐCN Cao đẳng công nghệ 
3. CVT Chữ viết tắt 
4. CSDL Cơ sở dữ liệu 
5. DBĐT Danh bạ điện thoại 
6. DCT Địa chỉ tắt 
7. ĐTV Điện thoại viên 
8. ĐH Đại học 
9. ĐHBK Đại học bách khoa 
10. ĐHQG Đại học quốc gia 
11. GD-ĐT Giáo dục và đào tạo 
12. HCM Hồ Chí Minh 
13. KHCN Khoa học công nghệ 
14. KNL Kho ngữ liệu 
15. KTQS Kỹ thuật quân sự 
16. KTXH Kinh tế xã hội 
17. MTVT Mục từ viết tắt 
18. NN&ĐS Ngôn ngữ và đời sống. 
19. NSD Người sử dụng 
20. NXB Nhà xuất bản 
21. NCS Nghiên cứu sinh 
22. PGS Phó Giáo sư 
23. TBT Thuê bao tắt 
24. THCN Trung học chuyên nghiệp 
25. TS Tiến sỹ 
26. TP Thành phố 
27. XLTV Xử lý tiếng Việt 
28. XLNNTN Xử lý ngôn ngữ tự nhiên 
29. VH-TT Văn hóa thông tin 
30. VT-CNTT Viễn thông - Công nghệ thông tin 
viii 
TIẾNG ANH 
STT Chữ viết tắt NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT 
1. API 
Application Programming 
Interface 
Lập trình giao diện ứng 
dụng 
2. AMES 
Abbreviations Management 
Exploit System 
Hệ thống khai thác Chữ 
viết tắt 
3. AFVAI 
Assessment frequency 
Vietnamese abbreviations on 
the Internet 
Ghi nhận tần số chữ viết 
tắt trên Internet 
4. CSBCOM 
Consultant SMS brandname 
to the company 
Tư vấn đặt tên tin nhắn 
thương hiệu Doanh 
nghiệp 
5. I* Modeling Language Ngôn ngữ mô hình hóa 
6. IM Instand Message Tin nhắn 
7. HTML 
HyperText Markup 
Language 
Ngôn ngữ đánh dấu siêu 
vă ... y khối văn bản vào bộ nhớ đệm. 
 - Chọn của sổ văn bản kq.doc 
 - Dán kết quả thêm vào cuối văn bản kq.doc 
 - Tăng biến i=i+1 
EndWhile 
Chọn của sổ văn bản kq.doc 
Chuyển đổi dữ liệu thành bảng có hai cột 
Ghi lại tập tin kq.doc 
End: 
Nhận xét: 
Sau khi thực hiện trích lọc tự động các cụm từ năm trong cặp dấu (...), có thể sử 
dụng thêm Macro chuyển đổi dữ liệu về tập tin *.TXT, để tiếp tục biên tập lại dữ liệu. 
Thuật toán đề xuất mở tập tin nguồn *.doc bất kỳ, sau đó mở tập tin kq.doc để lưu 
giữ kết quả trích lọc thông tin, đảm bảo mục đích trực quan, dễ sử dụng đối với người 
thu thập dữ liệu 
IV 
2) Hàm chuyển đổi chữ viết tắt 
Trong nội dung sử dụng chữ viết tắt trong CSDL chuyên ngành (mục 3.3.1.), ứng 
dụng xây dựng CSDL CVT cho Đài 108 đã sử dụng hàm chuyển đổi mọi CVT có dấu 
tiếng Việt sang CVT không dấu, viết hoa để giúp các điện thoại viên giảm thiểu thao tác 
gõ bàn phím, tăng hiệu năng sử dụng phần mềm tra cứu danh bạ. Sau đây là mã lệnh đầy 
đủ của hàm đã xây dựng: 
Funtion Chuyen_doi_CVT 
Option Explicit 
Const sViet As String = 
"µ¶·¸¹¨»¼½¾Æ©ÇÈÉÊËÌÎÏÐѪÒÓÔÕÖ×ØÜÝÞßáâãä«åæçèé¬êëìíîïñòóô-
õö÷øùúûüýþ¡¢£¤¥¦®§" 
Const sKhongdau As String = 
"aaaaaaaaaaaaaaaaaeeeeeeeeeeeiiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAEO
OUdD" 
//Khai báo chuỗi chuyển đổi chữ viết không có dấu 
Function chuviettat(strInput As String) As String 
Dim i As Integer 
Dim sData As String 
Dim sOuput As String 
chuviettat = "" 
sData = Trim(Khongdau(strInput)) 
If sData = "" Then Exit Function 
sOuput = Mid(sData, 1, 1) 
For i = 2 To Len(sData) 
If Mid(sData,i,1) " " And Mid(sData,i-1,1) = " " Then sOuput = 
sOuput + Mid(sData,i,1) 
Next i 
chuviettat = UCase(sOuput) 
End Function 
//Hàm chuyển đổi chữ viết không có dấu 
Function Khongdau(sCodau As String) As String 
Dim L As Integer 
Dim i As Integer,j As Integer, s As String 
L = Len(sCodau) 
For i = 1 To L 
j = InStr(1,sViet,Mid(sCodau,i, 1)) 
If j > 0 Then s = s & Mid(sKhongdau,j,1) 
Else s = s & Mid(sCodau,i,1) 
End If 
Next i 
Khongdau = s 
End Function 
V 
3) Thuật toán, mã lệnh dùng trong từ điển CVT trên máy di động 
Phụ lục này trình bày thêm một số thuật toán, đoạn mã lệnh và danh mục các 
tập tin đã sử dụng lập trình từ điển CVT trên máy di động (mục 5.3.4.) bằng Java 
trong Android Studio: 
a) Mã lệnh khai báo lớp màn hình chính chương trình AcroDictActivity.java 
* Lớp màn hình của chương trình 
public class AcroDictActivity extends AppCompatActivity 
 implements NavigationView.OnNavigationItemSelectedListener, 
SearchView.OnQueryTextListener, View.OnClickListener { 
 private final String TAG = "AcroDictActivity"; 
 private SearchView searchView; 
 private RecyclerView rvListSearchResult; 
 private List searchResultList; 
 private List resultDetailList; 
 private SearchResultAdapter searchResultAdapter; 
 private ResultDetailAdapter resulDetailtAdapter; 
 private DbAdapter dbAdapter; 
 private RecyclerView rvListResultDetail; 
 private int mCurrentPos = -1; 
 private OnClickCallback mOnClickCallback; 
 private TextView txtNoDataFound; 
 private FloatingActionButton fabThemTuMoi; 
 private FloatingActionButton fabTimKiem; 
 private LineChart lcToDay; 
 private OnChartValueSelectedListener mOnLineChartValueSelected; 
 private PieChart pcTopTen; 
 private LinearLayout llChartting; 
 private FloatingActionButton fabHomeScreen; 
 private FloatingActionsMenu fabAction; 
 private boolean isShowFromQuickWindow; 
 private int fabMode; 
 private FloatingActionButton fabEmptyTrash; 
 private CatLoadingView mCatLoading; 
 private SharedPreferences preferences; 
VI 
b) Mã lệnh truy vấn trong CSDL tất cả các CVT chứa X: 
// (SELECT * FROM T1 WHERE T1.CVT MATCH X) 
String sqlQuery = "" + 
"SELECT [T].[" + COL_CVT_FTS_ID_CVT + "], \n" + 
" [C].[" + COL_CVTS_CVT + "], \n" + 
" CASE [C].[" + COL_CVTS_ID_LANG + "] WHEN 0 THEN [C].[" + 
COL_CVTS_NGHIAVIET + "] WHEN 1 THEN [C].[" + COL_CVTS_NGHIAANH 
+ "] ELSE [C].[" + COL_CVTS_NGHIAVIET + "] END NGHIA_NGAN, \n" + 
" [C].[" + COL_CVTS_LUOTXEM + "], \n" + 
" [C].[" + COL_CVTS_IS_FAVORITE + "] \n" + 
"FROM [" + TABLE_CVT_FTS + "] [T]\n" + 
" INNER JOIN [" + TABLE_CVTS + "] [C] ON [C].[" + COL_CVTS_ID_CVT 
+ "] = [T].[" + COL_CVT_FTS_ID_CVT 
+ "]\n" + 
"WHERE [T].[CVT] MATCH " + 
DatabaseUtils.sqlEscapeString(StringUtil.convert2SqliteSearchFormat(value)) + " 
AND [C].[" + COL_CVTS_ENABLED + "] = 1" + " ORDER BY LENGTH([C].[" 
+ COL_CVTS_CVT + "])" + " LIMIT " + QUERY_LIMIT; 
c) Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên 
CSDL bảng T1, mã lệnh: 
// DbAdapter.getResultDetailById() 
if (idList.size() >0) { 
//update luotxem – Cập nhật lượt xem, tra cứu CVT 
String listOfId = TextUtils.join(",", idList); 
 String sqlUpdate = "" + 
"UPDATE\n" + 
" [" + TABLE_CVTS + "]\n" + "SET\n" + " [" + COL_CVTS_LUOTXEM + "] = 
[" + COL_CVTS_LUOTXEM + "] + 1\n" + "WHERE\n" + 
" [" + COL_CVTS_ID_CVT + "] IN (" + listOfId + ")"; 
db.execSQL(sqlUpdate); 
//update thongke – Cập nhật thống kê người sử dụng di động 
String currentDate = sdfIn.format(new Date()); 
 sqlUpdate = "" + 
"UPDATE\n" + 
" [" + TABLE_THONGKE + "]\n" + 
"SET\n" + 
VII 
" [" + COL_THONGKE_TAN_SO + "] = [" + COL_THONGKE_TAN_SO + "] + 
1\n" + 
"WHERE\n" + 
" [" + COL_THONGKE_NGAY_THANG + "] = " + 
DatabaseUtils.sqlEscapeString(currentDate) + "\n" + 
"AND [" + COL_THONGKE_ID_CVT + "] IN (SELECT [F1].[" + 
COL_CVT_FTS_ID_CVT + "]\n" + 
"FROM [" + TABLE_CVT_FTS + "] [F1]\n" + 
"WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + 
COL_CVT_FTS_CVT + "] || '\"'\n" + 
" FROM [" + TABLE_CVT_FTS + "] [F]\n" + 
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + 
" AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH 
([F].[" + COL_CVT_FTS_CVT + "])\n" + 
" FROM [" + TABLE_CVT_FTS + "] [F]\n" + 
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + "))"; 
db.execSQL(sqlUpdate); 
//insert new thongke – Chèn bảng thống kê mới cho người sử dụng di động 
sqlUpdate = "" + 
"INSERT OR IGNORE INTO [" + TABLE_THONGKE + "]\n" + 
" ([" + COL_THONGKE_NGAY_THANG + "], \n" + 
" [" + COL_THONGKE_ID_CVT + "], \n" + 
" [" + COL_THONGKE_TAN_SO + "])\n" + 
" SELECT " + DatabaseUtils.sqlEscapeString(currentDate) + ", \n" + 
" [F1].[" + COL_CVT_FTS_ID_CVT + "], \n" + 
" 1\n" + 
" FROM [" + TABLE_CVT_FTS + "] [F1]\n" + 
" WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + 
COL_CVT_FTS_CVT + "] || '\"'\n" + 
" FROM [" + TABLE_CVT_FTS + "] [F]\n" + 
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + 
" AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH 
([F].[" + COL_CVT_FTS_CVT + "])\n" + 
" FROM [" + TABLE_CVT_FTS + "] [F]\n" + 
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")"; 
db.execSQL(sqlUpdate);
VIII 
Phụ lục 4. Bảng mã danh mục ứng dụng và đề xuất. 
Trong mục 3.3.2. về ứng dụng chữ viết tắt trong xây dựng CSDL danh mục, tác giả 
đã xây dựng bảng mã danh mục các phần tử mạng điều hành sản xuất kinh doanh, đề 
xuất ban hành thống nhất, đã đưa vào áp dụng thực tiễn, quy định các lập trình viên đơn 
vị tuân thủ bảng mã danh mục. Ví dụ như: 
Bảng 1. Danh mục CVT phần tử mạng điều hành sản xuất kinh doanh 
STT Tên mã Chữ viết tắt Ghi chú 
1 Mã tỉnh/thành ABC 
Theo quy định chung thống nhất trong Tập 
đoàn: DNG: Đà Nẵng, QNM: Quảng Nam 
4 Mã thanh toán DNG000000001 + 
2 
Mã tổng đài 
CSND 
CNSDxxx xxx: 001 => 999 
3 
Tên CSND 
(=Mã tủ cáp 
gốc t ại đài) 
DAI + 
 Cáp đồng: DAI001 => DAI999 
 Cáp quang: DAI001DF => DAI999DF 
5 Mã tủ cáp 
TCxxxAn hoặc 
H001An 
 + + <Kí tự chỉ 
tuyến cáp> + <chỉ số thứ tự tủ cáp thuộc 
tuyến> 
6 Mã outdoor CSNDxxxDFn 
 + + <chỉ số thứ tự 
outdoor thuộc tuyến> 
7 
Mã sợi cáp 
đồng 
CSNDxxxn 
Cáp gốc: + + <chỉ số sợi 
cáp> 
CSNDxxxA1-n 
Cáp ngọn: <Mã tủ cáp mà sợi cáp đi vào loại 
bỏ kí tự T hoặc H> + <- + <Chỉ số thứ tự sợi 
cáp đi vào tủ> 
8 
Mã sợi cáp 
quang 
Cáp gốc: 001DFn/m 
Cáp gốc: + 
 + 
Cáp ngọn: 001DFn-
m 
Cáp ngọn: + 
 + 
IX 
Bảng 2. Danh mục mã vùng điện thoại 
STT Tỉnh/TP 
Tên 
chữ 
viết tắt 
Mã số STT Tỉnh/TP 
Tên chữ 
viết tắt 
Mã số 
1 An Giang AGG 76 33 Khánh Hoà KHA 58 
2 
Bà Rịa Vũng 
Tàu 
BRU 64 34 Kiên Giang KGG 77 
3 Bạc Liêu BLU 781 35 Kon Tum KTM 60 
4 Bắc Kạn BKN 281 36 Lai Châu LCU 23 
5 Bắc Giang BGG 240 37 Lạng Sơn LSN 25 
6 Bắc Ninh BNH 241 38 Lào Cai LCI 20 
7 Bến Tre BTE 75 39 Lâm Đồng LDG 63 
8 Bình Dương BDG 650 40 Long An LAN 72 
9 Bình Định BDH 56 41 Nam Định NDH 350 
10 Bình Phước BPC 651 42 Nghệ An NAN 38 
11 Bình Thuận BTN 62 43 Ninh Bình NBH 30 
12 Cà Mau CMU 780 44 Ninh Thuận NTN 68 
13 Cao Bằng CBG 26 45 Phú Thọ PTO 210 
14 Cần Thơ CTO 71 46 Phú Yên PYN 57 
15 TP. Đà Nẵng DNG 511 47 Quảng Bình QBH 52 
16 ĐắkLắk DLK 50 48 Quảng Nam QNM 510 
17 Đăc Nông DNG 50 49 Quảng Ngãi QNI 55 
18 Điện Biên DBN 23 50 Quảng Ninh QNH 33 
19 Đồng Nai DNI 61 51 Quảng Trị QTI 53 
20 Đồng Tháp DTP 67 52 Sóc Trăng STG 79 
21 Gia Lai GLI 59 53 Sơn La SLA 22 
21 Hà Giang HGG 19 54 Tây Ninh TNH 66 
23 Hà Nam HNM 351 55 Thái Bình TBH 36 
24 Hà Nội HNI 4 56 Thái Nguyên TNN 280 
25 Hà Tây HTY 34 57 Thanh Hoá THA 37 
26 Hà Tĩnh HTH 39 58 
Thừa Thiên 
Huế 
HUE 54 
27 Hải Dương HDG 320 59 Tiền Giang TGG 73 
28 Hải Phòng HPG 31 60 Trà Vinh TVH 74 
29 Hậu Giang HGG 71 61 Tuyên Quang TQG 27 
30 Hoà Bình HBH 18 62 Vĩnh Long VLG 70 
31 Hưng Yên HYN 321 63 Vĩnh Phúc VPC 211 
32 
TP. Hồ Chí 
Minh 
HCM 8 64 Yên Bái YBI 29 
X 
Phụ lục 5. Hình ảnh, màn hình giao diện và chức năng 
1) Thống kê mẫu văn bản của Viễn thông Đà Nẵng 
Thư viễn biểu mẫu văn bản sử dụng thông kê các loại văn bản để khảo sát, nhận 
diện tình huống sử dụng CVT trong thực tế tại đơn vị (mục 3.3.4.). Khảo sát này giúp đề 
xuất giải pháp xử lý nhập nhằng CVT trong một lĩnh vực VT-CNTT tại đơn vị. 
. 
Hình 1. Thư viện biểu mẫu văn bản 
2) Hình ảnh giao diện kết quả xây dựng Website 
Giới thiệu kết quả xây dựng website thư viện CVT (minh họa thêm cho mục 5.3.3.), 
hiện đã được đưa vào sử dụng như hình 1, hình 2 và hình 3 dưới đây: 
Hình 2. Trang quản trị và cấu hình thư viện CVT 
XI 
 Trang chủ thư viện CVT được thiết kế với nhiều chức năng, trong đó có các 
liên kết sắp xếp theo vần ABC giúp tra cứu được nhanh chóng. 
Hình 3. Trang chủ thư viện chữ viết tắt. 
Chức năng tra cứu CVT được thiết kế cho phép tra cứu chính xác hoặc gần đúng. 
Quá trình tìm kiếm, sử dụng cũng được hệ thống website lưu trữ để có những số liệu 
thống kê như CVT được xem nhiều nhất 
Hình 4. Kết quả tra cứu chữ viết tắt. 
XII 
3) Công cụ lập trình Android Studio và Genymotion giả lập máy di động 
Hình ảnh công cụ giả lập để triển khai thực nghiệm lập trình xây dựng từ điển 
tra CVT trên máy di động (làm rõ thêm mục 4.3): 
Hình 5. Sử dụng môi trường phát triển tích hợp Android Studio lập trình 
Hình 6. Công cụ Genymotion giả lập máy di động 
 Danh mục các tệp Java đã thiết kế cho từ điển CVT trên máy di động 
XIII 
Hình 7. Danh mục các tệp Java đã thiết kế 
4) Cấu trúc Bộ danh mục mã bưu chính quốc gia Việt Nam 
Hình 8. Cấu trúc Mã bưu chính 
XIV 
5) Ứng dụng chạy trên máy di động giả lập trên máy tính 
Biên dịch bởi Android Studio, chương trình có biểu tượng là ABC Acronym 
Dictionary (hình 8). Hình ảnh ứng dụng giả lập trên máy tính (bởi Genymotion), 
chương trình thường trú trong bộ nhớ. Menu dọc là các chức năng: Thống kê, cài đặt, 
cập nhật mới như hình 8. Nhấn màn hình cảm ứng trên cụm CVT để chọn khối, 
sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng 
nhớ đệm, tra cứu và hiển thị dữ liệu kết quả tra cứu hình 9. 
Hình 8. Giao diện chức năng và kết quả tra cứu CVT 
Hình 9. Giao diện chức năng tra cứu và thống kê sử dụng CVT 
Biểu tượng: 
ABC Acronym 
Dictionary 
XV 
6) Ứng dụng thực tế trên máy di động Samsung Not 3 
Sau khi xây dựng chương trình trên các phần mềm giả lập, thực hiện lệnh Build, 
ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy di động 
và cài đặt trong biểu tượng ABC Acronym Dictionary. Các hình ảnh ứng dụng thực 
tế chạy trên trên máy di động Samsung Not 3 như các hình sau đây: 
Hình 10. Giao diện chức năng và thống kê sử dụng CVT trên máy di động 
Hình 11. Giao diện biểu đồ thống kê sử dụng và tra cứu CVT trên máy di động 
XVI 
Về chức năng tra cứu chạy thực tế trên máy di động: 
Tương tự như trên, chương trình đã chạy thường trú, Khi người dùng cần tra 
cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website, nhấn màn hình cảm 
ứng máy di động trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm, 
chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm. 
Tiếp theo NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm 
CVT (ABC Acronym Dictionary), hiển thị dữ liệu kết quả tra cứu: 
 Khung cửa sổ phía trên: Kết quả tra cứu CVT. 
 Khung cửa sổ phía dưới: Vẫn giữ nội dung văn bản NSD đang đọc. 
Hình 12. Giao diện tra cứu trực tiếp CVT trên máy di động 
XVII 
7) Ứng dụng SMS Brandname: 
Ứng dụng SMS Brandname được đưa vào khai thác, trong đó có các chức nằn: 
Thiết lập cấu hình, Tư vận trực tiếp/Tự động Brandname cho khách hàng. Giao diện 
chính như hình 13 dưới đây. 
Hình 13. Giao diện chức năng và cấu hình ứng dụng SMS Brandname 
Hình 14. Chức năng tư vấn tự động Brandname 
XVIII 
8) Cấu trúc XML cho CSDL chữ viết tắt 
Hình 15 dưới đây là ví dụ về cách tổ chức CSDL với mục từ viết tắt “VNPT”: 
1 
VNPT 
Vi-en-pi-ti 
 VietNam Posts And Telecommunications Group 
 Tập đoàn Bưu chính Viễn thông Việt Nam 
1 - (Công nghệ thông tin và Truyền thông) 
01 
 ...... 
Hình 15. Cấu trúc XML cho CSDL chữ viết tắt. 
9) CSDL 108 VNPT Đà Nẵng 
Hình 16. CSDL 108 VNPT Đà Nẵng 
XIX 
Hình 17. Minh họa CSDL đã xây dựng 
10) Thực hiện chương trình cập nhật tần số sử dụng CVT 
 Chương trình chính chạy trong khung cửa sổ Main (hình 18), chọn nút lệnh 
Import CSV file, chọn file đầu vào, chọn lựa trình duyệt, sau đó kích chọn nút 
Run để thực hiện thu thập dữ liệu tần suất sử dụng CVT. 
Hình 18. Thực hiện chương trình cập nhật tần số sử dụng CVT 
XX 
11) Khảo sát tương quan tần số sử dụng CVT 
Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016 
so sánh với thị phần thương hiệu bàn luận trên mạng xã hội (bảng 1 và hình 19): 
Bảng 1. Tương quan tần suất xuất hiện CVT và bàn luận trên mạng xã hội 
STT NGHIAVIET N_VN1 Tần suất % Social Media % 
1 KFC 146.000 34,7 47,0 
2 Lotteria 125.000 29,7 26,0 
3 McDonald's 57.900 13,8 10,0 
4 Burger King 32.800 7,8 5,0 
5 Popeyes 29.700 7,1 5,6 
6 Jollibee 18.800 4,5 4,4 
7 Texas Chicken 7.420 1,8 1,0 
8 Carl's Jr. 2.760 0,7 1,0 
 420.380 100 100 
Hình 19. Biểu đồ thương hiệu thực ăn nhanh thảo luận trên Internet 
(theo nguồn số liệu trên Internet) 

File đính kèm:

  • pdfde_tai_nghien_cuu_ngu_nghia_va_hien_tuong_nhap_nhang_trong_t.pdf
  • pdf2. NGUYEN NHO TUY. Tom Tat LA_Viet.pdf
  • pdf3. NGUYEN NHO TUY. Tom Tat LA_Anh.pdf
  • pdf4. NGUYEN NHO TUY. Dong Gop Moi Cua LA.pdf
  • pdf5. NGUYEN NHO TUY. Trich Yeu LA.pdf