Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt
Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT)
chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp cừu” [79]
(phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng
có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST 1 trong câu
chuyện.
Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo nhiều
cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của
mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để diễn đạt nội
dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác nhau, thậm chí
đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường luôn giả sử rằng
CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn bản này nhắm đến.
Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu được hết, bởi do sự
khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay chuyên ngành. Hơn nữa,
thời gian, trí nhớ và quan niệm của con người đã làm nhầm lẫn, làm phát sinh thêm ý
nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm
hiểu ý nghĩa CVT là gì. Đây không phải là vấn đề dễ dàng đối với tất cả mọi người.
Khi đọc một văn bản, hầu hết người đọc đều phải dừng lại chốc lát để hiểu được CVT
ấy là gì. Thậm chí có khi người đọc phải mất vài phút tìm hiểu và tra cứu mà vẫn
chưa hiểu được đầy đủ CVT. Vì vậy vấn đề phân giải ý nghĩa CVT là cần thiết trong
nhiều tình huống, không chỉ tình huống trong sử dụng ngôn ngữ tự nhiên (giao tiếp, đặt
tên, nhắn tin, Email ), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dạng
chữ viết hình ảnh, dịch thuật
Tóm tắt nội dung tài liệu: Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN NHO TÚY
ÀNG THỊ MỸ LỆ
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng, năm 2020
i
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN NHO TÚY
NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG
TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
PGS.TS. PHAN HUY KHÁNH
Đà Nẵng, năm 2020
ii
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi, dưới sự hướng dẫn trực tiếp
của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa, Đại
học Đà Nẵng.
Tôi cam đoan các kết quả được trình bày trong luận án là trung thực,
không sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công
bố trong bất kỳ công trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn
gốc xuất xứ rõ ràng.
Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm.
Tác giả,
Nguyễn Nho Túy
iii
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. ii
DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................. vii
DANH MỤC HÌNH ẢNH .................................................................................... ix
DANH MỤC BẢNG BIỂU .................................................................................. xi
MỞ ĐẦU ................................................................................................................1
1. ĐẶT VẤN ĐỀ ................................................................................................1
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU .........................5
2.1. Mục tiêu ........................................................................................................5
2.2. Đối tượng ......................................................................................................5
2.3. Phạm vi .........................................................................................................6
3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................6
4. BỐ CỤC CỦA LUẬN ÁN .............................................................................7
5. ĐÓNG GÓP CỦA LUẬN ÁN .......................................................................8
CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT .................................... 11
1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN .................................... 11
1.1.1. Ngôn ngữ và xử lý ngôn ngữ ................................................................ 11
1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết ............................................... 12
1.1.3. Các loại hình ngôn ngữ........................................................................ 13
1.1.4. Xử lý ngôn ngữ tự nhiên ....................................................................... 14
1.1.5. Vấn đề xử lý tiếng Việt ......................................................................... 16
1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT ............... 18
1.2.1. Ngữ nghĩa và ngữ nghĩa học ................................................................ 18
1.2.2. Phân tích nghĩa của từ ......................................................................... 19
1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa .................................................. 20
1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt ............................................... 22
1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG .................................................... 25
1.3.1. Chữ viết tắt là gì .................................................................................. 25
1.3.2. Lịch sử hình thành chữ Quốc ngữ ........................................................ 26
1.3.3. Tìm hiểu về lịch sử chữ viết tắt ............................................................ 27
1.3.4. Sử dụng chữ viết tắt ............................................................................. 28
1.3.5. Chữ viết tắt trong tiếng Việt ................................................................. 31
1.4. NGỮ NGHĨA CHỮ VIẾT TẮT ................................................................... 32
iv
1.4.1. Khái niệm ngữ nghĩa chữ viết tắt ......................................................... 32
1.4.2. Biến đổi ngữ nghĩa chữ viết tắt ............................................................ 33
1.4.3. Nhập nhằng chữ viết tắt ....................................................................... 34
1.4.4. Xử lý nhập nhằng chữ viết tắt .............................................................. 35
1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt ............................................ 36
1.5. TÓM TẮT CHƯƠNG 1 ................................................................................ 37
CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG
VIỆT ..................................................................................................................... 38
2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT ............................. 38
2.1.1. Mô hình sự hình thành chữ viết tắt ....................................................... 38
2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt ......................................... 40
2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt ............................................ 41
2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt ..................... 44
2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM .................................................. 47
2.2.1. Hệ sinh thái phần mềm là gì ................................................................ 47
2.2.2. Mô hình hóa hệ sinh thái phần mềm .................................................... 48
2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50
2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm .............................................. 51
2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) ...... 51
2.3.1. Hệ thống khai thác phần mềm .............................................................. 51
2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt ................................. 52
2.3.3. Mô hình hệ thống khai thác chữ viết tắt ............................................... 53
2.4. THỰC NGHIỆM XÂY DỰNG AMES ........................................................ 54
2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt ............................... 55
2.4.2. Xây dựng công cụ khai thác chữ viết tắt ............................................... 55
2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt ............................... 55
2.5. TÓM TẮT CHƯƠNG 2 ................................................................................ 56
CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT ............. 57
3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT ...................................... 57
3.1.1. Mô hình quan hệ dữ liệu ...................................................................... 57
3.1.2. Triển khai cài đặt ................................................................................. 59
3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT ................................ 60
3.2.1. Thu thập dữ liệu thủ công .................................................................... 60
3.2.2. Thu thập dữ liệu tự động ...................................................................... 61
v
3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới ........................... 62
3.2.4. Thực nghiệm cài đặt thuật toán SENVA ............................................... 64
3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT ............................ 65
3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành ................................... 65
3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục ....................... 69
3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia ........................ 71
3.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................ 73
3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt .......................................... 73
3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt ................................... 74
3.5. TÓM TẮT CHƯƠNG 3 ................................................................................ 76
CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT ........... 77
4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT ............................................... 77
4.1.1. Lựa chọn công cụ lập trình .................................................................. 77
4.1.2. Thiết kế chương trình ........................................................................... 77
4.1.3. Kết quả xây dựng thư viện chữ viết tắt ................................................. 78
4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU .......................... 79
4.2.1. Tin nhắn thương hiệu là gì ................................................................... 79
4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname ........................ 80
4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu .............................. 81
4.2.4. Cài đặt chương trình, kết quả thử nghiệm ............................................ 87
4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG ........... 88
4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình ................................ 88
4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt ............................................. 89
4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển ................................. 90
4.3.4. Cài đặt và kết quả thực nghiệm ............................................................ 92
4.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................. 93
4.4.1. Đánh giá kết quả thực nghiệm AMES ................................................. 93
4.4.2. Đánh giá AMES đặc tả theo mô hình UML ......................................... 94
4.5. TÓM TẮT CHƯƠNG 4 ................................................................................ 96
CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT ................................... 97
5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT ...................... 97
5.1.1. Ngữ cảnh sử dụng chữ viết tắt ............................................................. 97
5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98
vi
5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản ...................... 99
5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt ............................................ 100
5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT .............. 102
5.2.1. Xây dựng các miền dữ liệu ................................................................. 102
5.2.2. Xây dựng vị từ và hàm ....................................................................... 103
5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản ...................... 105
5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT .................... 106
5.3.1. Xây dựng cơ sở luật ........................................................................... 106
5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt ................................... 109
5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt ...................... 110
5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng.................... 112
5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ..... 113
5.4.1. Tần số chữ viết tắt ............................................................................. 113
5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt ............... 114
5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt ................................. 116
5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm ..................... 117
5.4.5. Kết quả thực nghiệm và đánh giá ...................................................... 119
5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt ................................ 123
5.5. TÓM TẮT CHƯƠNG 5 .............................................................................. 124
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 125
1. KẾT LUẬN .................................................................................................... 125
1.1. Tóm tắt nội dung luận án ...................................................................... 125
1.2. Các kết quả đạt được ............................................................................ 126
1.3. Hạn chế của luận án ............................................................................. 128
2. HƯỚNG PHÁT TRIỂN................................................................................. 129
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ ............... 130
TÀI LIỆU THAM KHẢO ................................................................................. 131
PHỤ LỤC
vii
DANH MỤC CÁC CHỮ VIẾT TẮT
TIẾNG VIỆT
STT Chữ viết tắt NGHĨA TIẾNG VIỆT
1. BCVT Bưu chính viễn thông
2. CĐCN Cao đẳng công nghệ
3. CVT Chữ viết tắt
4. CSDL Cơ sở dữ liệu
5. DBĐT Danh bạ điện thoại
6. DCT Địa chỉ tắt
7. ĐTV Điện thoại viên
8. ĐH Đại học
9. ĐHBK Đại học bách khoa
10. ĐHQG Đại học quốc gia
11. GD-ĐT Giáo dục và đào tạo
12. HCM Hồ Chí Minh
13. KHCN Khoa học công nghệ
14. KNL Kho ngữ liệu
15. KTQS Kỹ thuật quân sự
16. KTXH Kinh tế xã hội
17. MTVT Mục từ viết tắt
18. NN&ĐS Ngôn ngữ và đời sống.
19. NSD Người sử dụng
20. NXB Nhà xuất bản
21. NCS Nghiên cứu sinh
22. PGS Phó Giáo sư
23. TBT Thuê bao tắt
24. THCN Trung học chuyên nghiệp
25. TS Tiến sỹ
26. TP Thành phố
27. XLTV Xử lý tiếng Việt
28. XLNNTN Xử lý ngôn ngữ tự nhiên
29. VH-TT Văn hóa thông tin
30. VT-CNTT Viễn thông - Công nghệ thông tin
viii
TIẾNG ANH
STT Chữ viết tắt NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT
1. API
Application Programming
Interface
Lập trình giao diện ứng
dụng
2. AMES
Abbreviations Management
Exploit System
Hệ thống khai thác Chữ
viết tắt
3. AFVAI
Assessment frequency
Vietnamese abbreviations on
the Internet
Ghi nhận tần số chữ viết
tắt trên Internet
4. CSBCOM
Consultant SMS brandname
to the company
Tư vấn đặt tên tin nhắn
thương hiệu Doanh
nghiệp
5. I* Modeling Language Ngôn ngữ mô hình hóa
6. IM Instand Message Tin nhắn
7. HTML
HyperText Markup
Language
Ngôn ngữ đánh dấu siêu
vă ... y khối văn bản vào bộ nhớ đệm.
- Chọn của sổ văn bản kq.doc
- Dán kết quả thêm vào cuối văn bản kq.doc
- Tăng biến i=i+1
EndWhile
Chọn của sổ văn bản kq.doc
Chuyển đổi dữ liệu thành bảng có hai cột
Ghi lại tập tin kq.doc
End:
Nhận xét:
Sau khi thực hiện trích lọc tự động các cụm từ năm trong cặp dấu (...), có thể sử
dụng thêm Macro chuyển đổi dữ liệu về tập tin *.TXT, để tiếp tục biên tập lại dữ liệu.
Thuật toán đề xuất mở tập tin nguồn *.doc bất kỳ, sau đó mở tập tin kq.doc để lưu
giữ kết quả trích lọc thông tin, đảm bảo mục đích trực quan, dễ sử dụng đối với người
thu thập dữ liệu
IV
2) Hàm chuyển đổi chữ viết tắt
Trong nội dung sử dụng chữ viết tắt trong CSDL chuyên ngành (mục 3.3.1.), ứng
dụng xây dựng CSDL CVT cho Đài 108 đã sử dụng hàm chuyển đổi mọi CVT có dấu
tiếng Việt sang CVT không dấu, viết hoa để giúp các điện thoại viên giảm thiểu thao tác
gõ bàn phím, tăng hiệu năng sử dụng phần mềm tra cứu danh bạ. Sau đây là mã lệnh đầy
đủ của hàm đã xây dựng:
Funtion Chuyen_doi_CVT
Option Explicit
Const sViet As String =
"µ¶·¸¹¨»¼½¾Æ©ÇÈÉÊËÌÎÏÐѪÒÓÔÕÖרÜÝÞßáâãä«åæçèé¬êëìíîïñòóô-
õö÷øùúûüýþ¡¢£¤¥¦®§"
Const sKhongdau As String =
"aaaaaaaaaaaaaaaaaeeeeeeeeeeeiiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAEO
OUdD"
//Khai báo chuỗi chuyển đổi chữ viết không có dấu
Function chuviettat(strInput As String) As String
Dim i As Integer
Dim sData As String
Dim sOuput As String
chuviettat = ""
sData = Trim(Khongdau(strInput))
If sData = "" Then Exit Function
sOuput = Mid(sData, 1, 1)
For i = 2 To Len(sData)
If Mid(sData,i,1) " " And Mid(sData,i-1,1) = " " Then sOuput =
sOuput + Mid(sData,i,1)
Next i
chuviettat = UCase(sOuput)
End Function
//Hàm chuyển đổi chữ viết không có dấu
Function Khongdau(sCodau As String) As String
Dim L As Integer
Dim i As Integer,j As Integer, s As String
L = Len(sCodau)
For i = 1 To L
j = InStr(1,sViet,Mid(sCodau,i, 1))
If j > 0 Then s = s & Mid(sKhongdau,j,1)
Else s = s & Mid(sCodau,i,1)
End If
Next i
Khongdau = s
End Function
V
3) Thuật toán, mã lệnh dùng trong từ điển CVT trên máy di động
Phụ lục này trình bày thêm một số thuật toán, đoạn mã lệnh và danh mục các
tập tin đã sử dụng lập trình từ điển CVT trên máy di động (mục 5.3.4.) bằng Java
trong Android Studio:
a) Mã lệnh khai báo lớp màn hình chính chương trình AcroDictActivity.java
* Lớp màn hình của chương trình
public class AcroDictActivity extends AppCompatActivity
implements NavigationView.OnNavigationItemSelectedListener,
SearchView.OnQueryTextListener, View.OnClickListener {
private final String TAG = "AcroDictActivity";
private SearchView searchView;
private RecyclerView rvListSearchResult;
private List searchResultList;
private List resultDetailList;
private SearchResultAdapter searchResultAdapter;
private ResultDetailAdapter resulDetailtAdapter;
private DbAdapter dbAdapter;
private RecyclerView rvListResultDetail;
private int mCurrentPos = -1;
private OnClickCallback mOnClickCallback;
private TextView txtNoDataFound;
private FloatingActionButton fabThemTuMoi;
private FloatingActionButton fabTimKiem;
private LineChart lcToDay;
private OnChartValueSelectedListener mOnLineChartValueSelected;
private PieChart pcTopTen;
private LinearLayout llChartting;
private FloatingActionButton fabHomeScreen;
private FloatingActionsMenu fabAction;
private boolean isShowFromQuickWindow;
private int fabMode;
private FloatingActionButton fabEmptyTrash;
private CatLoadingView mCatLoading;
private SharedPreferences preferences;
VI
b) Mã lệnh truy vấn trong CSDL tất cả các CVT chứa X:
// (SELECT * FROM T1 WHERE T1.CVT MATCH X)
String sqlQuery = "" +
"SELECT [T].[" + COL_CVT_FTS_ID_CVT + "], \n" +
" [C].[" + COL_CVTS_CVT + "], \n" +
" CASE [C].[" + COL_CVTS_ID_LANG + "] WHEN 0 THEN [C].[" +
COL_CVTS_NGHIAVIET + "] WHEN 1 THEN [C].[" + COL_CVTS_NGHIAANH
+ "] ELSE [C].[" + COL_CVTS_NGHIAVIET + "] END NGHIA_NGAN, \n" +
" [C].[" + COL_CVTS_LUOTXEM + "], \n" +
" [C].[" + COL_CVTS_IS_FAVORITE + "] \n" +
"FROM [" + TABLE_CVT_FTS + "] [T]\n" +
" INNER JOIN [" + TABLE_CVTS + "] [C] ON [C].[" + COL_CVTS_ID_CVT
+ "] = [T].[" + COL_CVT_FTS_ID_CVT
+ "]\n" +
"WHERE [T].[CVT] MATCH " +
DatabaseUtils.sqlEscapeString(StringUtil.convert2SqliteSearchFormat(value)) + "
AND [C].[" + COL_CVTS_ENABLED + "] = 1" + " ORDER BY LENGTH([C].["
+ COL_CVTS_CVT + "])" + " LIMIT " + QUERY_LIMIT;
c) Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên
CSDL bảng T1, mã lệnh:
// DbAdapter.getResultDetailById()
if (idList.size() >0) {
//update luotxem – Cập nhật lượt xem, tra cứu CVT
String listOfId = TextUtils.join(",", idList);
String sqlUpdate = "" +
"UPDATE\n" +
" [" + TABLE_CVTS + "]\n" + "SET\n" + " [" + COL_CVTS_LUOTXEM + "] =
[" + COL_CVTS_LUOTXEM + "] + 1\n" + "WHERE\n" +
" [" + COL_CVTS_ID_CVT + "] IN (" + listOfId + ")";
db.execSQL(sqlUpdate);
//update thongke – Cập nhật thống kê người sử dụng di động
String currentDate = sdfIn.format(new Date());
sqlUpdate = "" +
"UPDATE\n" +
" [" + TABLE_THONGKE + "]\n" +
"SET\n" +
VII
" [" + COL_THONGKE_TAN_SO + "] = [" + COL_THONGKE_TAN_SO + "] +
1\n" +
"WHERE\n" +
" [" + COL_THONGKE_NGAY_THANG + "] = " +
DatabaseUtils.sqlEscapeString(currentDate) + "\n" +
"AND [" + COL_THONGKE_ID_CVT + "] IN (SELECT [F1].[" +
COL_CVT_FTS_ID_CVT + "]\n" +
"FROM [" + TABLE_CVT_FTS + "] [F1]\n" +
"WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" +
COL_CVT_FTS_CVT + "] || '\"'\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" +
" AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH
([F].[" + COL_CVT_FTS_CVT + "])\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + "))";
db.execSQL(sqlUpdate);
//insert new thongke – Chèn bảng thống kê mới cho người sử dụng di động
sqlUpdate = "" +
"INSERT OR IGNORE INTO [" + TABLE_THONGKE + "]\n" +
" ([" + COL_THONGKE_NGAY_THANG + "], \n" +
" [" + COL_THONGKE_ID_CVT + "], \n" +
" [" + COL_THONGKE_TAN_SO + "])\n" +
" SELECT " + DatabaseUtils.sqlEscapeString(currentDate) + ", \n" +
" [F1].[" + COL_CVT_FTS_ID_CVT + "], \n" +
" 1\n" +
" FROM [" + TABLE_CVT_FTS + "] [F1]\n" +
" WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" +
COL_CVT_FTS_CVT + "] || '\"'\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" +
" AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH
([F].[" + COL_CVT_FTS_CVT + "])\n" +
" FROM [" + TABLE_CVT_FTS + "] [F]\n" +
" WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")";
db.execSQL(sqlUpdate);
VIII
Phụ lục 4. Bảng mã danh mục ứng dụng và đề xuất.
Trong mục 3.3.2. về ứng dụng chữ viết tắt trong xây dựng CSDL danh mục, tác giả
đã xây dựng bảng mã danh mục các phần tử mạng điều hành sản xuất kinh doanh, đề
xuất ban hành thống nhất, đã đưa vào áp dụng thực tiễn, quy định các lập trình viên đơn
vị tuân thủ bảng mã danh mục. Ví dụ như:
Bảng 1. Danh mục CVT phần tử mạng điều hành sản xuất kinh doanh
STT Tên mã Chữ viết tắt Ghi chú
1 Mã tỉnh/thành ABC
Theo quy định chung thống nhất trong Tập
đoàn: DNG: Đà Nẵng, QNM: Quảng Nam
4 Mã thanh toán DNG000000001 +
2
Mã tổng đài
CSND
CNSDxxx xxx: 001 => 999
3
Tên CSND
(=Mã tủ cáp
gốc t ại đài)
DAI +
Cáp đồng: DAI001 => DAI999
Cáp quang: DAI001DF => DAI999DF
5 Mã tủ cáp
TCxxxAn hoặc
H001An
+ + <Kí tự chỉ
tuyến cáp> + <chỉ số thứ tự tủ cáp thuộc
tuyến>
6 Mã outdoor CSNDxxxDFn
+ + <chỉ số thứ tự
outdoor thuộc tuyến>
7
Mã sợi cáp
đồng
CSNDxxxn
Cáp gốc: + + <chỉ số sợi
cáp>
CSNDxxxA1-n
Cáp ngọn: <Mã tủ cáp mà sợi cáp đi vào loại
bỏ kí tự T hoặc H> + <- + <Chỉ số thứ tự sợi
cáp đi vào tủ>
8
Mã sợi cáp
quang
Cáp gốc: 001DFn/m
Cáp gốc: +
+
Cáp ngọn: 001DFn-
m
Cáp ngọn: +
+
IX
Bảng 2. Danh mục mã vùng điện thoại
STT Tỉnh/TP
Tên
chữ
viết tắt
Mã số STT Tỉnh/TP
Tên chữ
viết tắt
Mã số
1 An Giang AGG 76 33 Khánh Hoà KHA 58
2
Bà Rịa Vũng
Tàu
BRU 64 34 Kiên Giang KGG 77
3 Bạc Liêu BLU 781 35 Kon Tum KTM 60
4 Bắc Kạn BKN 281 36 Lai Châu LCU 23
5 Bắc Giang BGG 240 37 Lạng Sơn LSN 25
6 Bắc Ninh BNH 241 38 Lào Cai LCI 20
7 Bến Tre BTE 75 39 Lâm Đồng LDG 63
8 Bình Dương BDG 650 40 Long An LAN 72
9 Bình Định BDH 56 41 Nam Định NDH 350
10 Bình Phước BPC 651 42 Nghệ An NAN 38
11 Bình Thuận BTN 62 43 Ninh Bình NBH 30
12 Cà Mau CMU 780 44 Ninh Thuận NTN 68
13 Cao Bằng CBG 26 45 Phú Thọ PTO 210
14 Cần Thơ CTO 71 46 Phú Yên PYN 57
15 TP. Đà Nẵng DNG 511 47 Quảng Bình QBH 52
16 ĐắkLắk DLK 50 48 Quảng Nam QNM 510
17 Đăc Nông DNG 50 49 Quảng Ngãi QNI 55
18 Điện Biên DBN 23 50 Quảng Ninh QNH 33
19 Đồng Nai DNI 61 51 Quảng Trị QTI 53
20 Đồng Tháp DTP 67 52 Sóc Trăng STG 79
21 Gia Lai GLI 59 53 Sơn La SLA 22
21 Hà Giang HGG 19 54 Tây Ninh TNH 66
23 Hà Nam HNM 351 55 Thái Bình TBH 36
24 Hà Nội HNI 4 56 Thái Nguyên TNN 280
25 Hà Tây HTY 34 57 Thanh Hoá THA 37
26 Hà Tĩnh HTH 39 58
Thừa Thiên
Huế
HUE 54
27 Hải Dương HDG 320 59 Tiền Giang TGG 73
28 Hải Phòng HPG 31 60 Trà Vinh TVH 74
29 Hậu Giang HGG 71 61 Tuyên Quang TQG 27
30 Hoà Bình HBH 18 62 Vĩnh Long VLG 70
31 Hưng Yên HYN 321 63 Vĩnh Phúc VPC 211
32
TP. Hồ Chí
Minh
HCM 8 64 Yên Bái YBI 29
X
Phụ lục 5. Hình ảnh, màn hình giao diện và chức năng
1) Thống kê mẫu văn bản của Viễn thông Đà Nẵng
Thư viễn biểu mẫu văn bản sử dụng thông kê các loại văn bản để khảo sát, nhận
diện tình huống sử dụng CVT trong thực tế tại đơn vị (mục 3.3.4.). Khảo sát này giúp đề
xuất giải pháp xử lý nhập nhằng CVT trong một lĩnh vực VT-CNTT tại đơn vị.
.
Hình 1. Thư viện biểu mẫu văn bản
2) Hình ảnh giao diện kết quả xây dựng Website
Giới thiệu kết quả xây dựng website thư viện CVT (minh họa thêm cho mục 5.3.3.),
hiện đã được đưa vào sử dụng như hình 1, hình 2 và hình 3 dưới đây:
Hình 2. Trang quản trị và cấu hình thư viện CVT
XI
Trang chủ thư viện CVT được thiết kế với nhiều chức năng, trong đó có các
liên kết sắp xếp theo vần ABC giúp tra cứu được nhanh chóng.
Hình 3. Trang chủ thư viện chữ viết tắt.
Chức năng tra cứu CVT được thiết kế cho phép tra cứu chính xác hoặc gần đúng.
Quá trình tìm kiếm, sử dụng cũng được hệ thống website lưu trữ để có những số liệu
thống kê như CVT được xem nhiều nhất
Hình 4. Kết quả tra cứu chữ viết tắt.
XII
3) Công cụ lập trình Android Studio và Genymotion giả lập máy di động
Hình ảnh công cụ giả lập để triển khai thực nghiệm lập trình xây dựng từ điển
tra CVT trên máy di động (làm rõ thêm mục 4.3):
Hình 5. Sử dụng môi trường phát triển tích hợp Android Studio lập trình
Hình 6. Công cụ Genymotion giả lập máy di động
Danh mục các tệp Java đã thiết kế cho từ điển CVT trên máy di động
XIII
Hình 7. Danh mục các tệp Java đã thiết kế
4) Cấu trúc Bộ danh mục mã bưu chính quốc gia Việt Nam
Hình 8. Cấu trúc Mã bưu chính
XIV
5) Ứng dụng chạy trên máy di động giả lập trên máy tính
Biên dịch bởi Android Studio, chương trình có biểu tượng là ABC Acronym
Dictionary (hình 8). Hình ảnh ứng dụng giả lập trên máy tính (bởi Genymotion),
chương trình thường trú trong bộ nhớ. Menu dọc là các chức năng: Thống kê, cài đặt,
cập nhật mới như hình 8. Nhấn màn hình cảm ứng trên cụm CVT để chọn khối,
sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng
nhớ đệm, tra cứu và hiển thị dữ liệu kết quả tra cứu hình 9.
Hình 8. Giao diện chức năng và kết quả tra cứu CVT
Hình 9. Giao diện chức năng tra cứu và thống kê sử dụng CVT
Biểu tượng:
ABC Acronym
Dictionary
XV
6) Ứng dụng thực tế trên máy di động Samsung Not 3
Sau khi xây dựng chương trình trên các phần mềm giả lập, thực hiện lệnh Build,
ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy di động
và cài đặt trong biểu tượng ABC Acronym Dictionary. Các hình ảnh ứng dụng thực
tế chạy trên trên máy di động Samsung Not 3 như các hình sau đây:
Hình 10. Giao diện chức năng và thống kê sử dụng CVT trên máy di động
Hình 11. Giao diện biểu đồ thống kê sử dụng và tra cứu CVT trên máy di động
XVI
Về chức năng tra cứu chạy thực tế trên máy di động:
Tương tự như trên, chương trình đã chạy thường trú, Khi người dùng cần tra
cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website, nhấn màn hình cảm
ứng máy di động trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm,
chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm.
Tiếp theo NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm
CVT (ABC Acronym Dictionary), hiển thị dữ liệu kết quả tra cứu:
Khung cửa sổ phía trên: Kết quả tra cứu CVT.
Khung cửa sổ phía dưới: Vẫn giữ nội dung văn bản NSD đang đọc.
Hình 12. Giao diện tra cứu trực tiếp CVT trên máy di động
XVII
7) Ứng dụng SMS Brandname:
Ứng dụng SMS Brandname được đưa vào khai thác, trong đó có các chức nằn:
Thiết lập cấu hình, Tư vận trực tiếp/Tự động Brandname cho khách hàng. Giao diện
chính như hình 13 dưới đây.
Hình 13. Giao diện chức năng và cấu hình ứng dụng SMS Brandname
Hình 14. Chức năng tư vấn tự động Brandname
XVIII
8) Cấu trúc XML cho CSDL chữ viết tắt
Hình 15 dưới đây là ví dụ về cách tổ chức CSDL với mục từ viết tắt “VNPT”:
1
VNPT
Vi-en-pi-ti
VietNam Posts And Telecommunications Group
Tập đoàn Bưu chính Viễn thông Việt Nam
1 - (Công nghệ thông tin và Truyền thông)
01
......
Hình 15. Cấu trúc XML cho CSDL chữ viết tắt.
9) CSDL 108 VNPT Đà Nẵng
Hình 16. CSDL 108 VNPT Đà Nẵng
XIX
Hình 17. Minh họa CSDL đã xây dựng
10) Thực hiện chương trình cập nhật tần số sử dụng CVT
Chương trình chính chạy trong khung cửa sổ Main (hình 18), chọn nút lệnh
Import CSV file, chọn file đầu vào, chọn lựa trình duyệt, sau đó kích chọn nút
Run để thực hiện thu thập dữ liệu tần suất sử dụng CVT.
Hình 18. Thực hiện chương trình cập nhật tần số sử dụng CVT
XX
11) Khảo sát tương quan tần số sử dụng CVT
Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016
so sánh với thị phần thương hiệu bàn luận trên mạng xã hội (bảng 1 và hình 19):
Bảng 1. Tương quan tần suất xuất hiện CVT và bàn luận trên mạng xã hội
STT NGHIAVIET N_VN1 Tần suất % Social Media %
1 KFC 146.000 34,7 47,0
2 Lotteria 125.000 29,7 26,0
3 McDonald's 57.900 13,8 10,0
4 Burger King 32.800 7,8 5,0
5 Popeyes 29.700 7,1 5,6
6 Jollibee 18.800 4,5 4,4
7 Texas Chicken 7.420 1,8 1,0
8 Carl's Jr. 2.760 0,7 1,0
420.380 100 100
Hình 19. Biểu đồ thương hiệu thực ăn nhanh thảo luận trên Internet
(theo nguồn số liệu trên Internet)
File đính kèm:
de_tai_nghien_cuu_ngu_nghia_va_hien_tuong_nhap_nhang_trong_t.pdf
2. NGUYEN NHO TUY. Tom Tat LA_Viet.pdf
3. NGUYEN NHO TUY. Tom Tat LA_Anh.pdf
4. NGUYEN NHO TUY. Dong Gop Moi Cua LA.pdf
5. NGUYEN NHO TUY. Trich Yeu LA.pdf

