Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt
Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT)
chỉ với mong muốn rút gọn thời gian, công sức. Câu chuyện “Người ăn cắp cừu” [79]
(phụ lục 1) cho thấy CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng
có lẽ ai cũng gặp phải khi đọc hiểu một văn bản, ví dụ chữ viết tắt ST 1 trong câu
chuyện.
Cùng một CVT (hay một ký hiệu nào đó), người ta có thể đọc hiểu theo nhiều
cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của
mình. Chữ viết tắt ST trong [79] đã được sử dụng từ nhu cầu thực tế để diễn đạt nội
dung trừng phạt kẻ ăn cắp cừu, nhưng được hiểu bởi một ý nghĩa khác nhau, thậm chí
đối ngược nhau. Khi một văn bản sử dụng CVT, người viết thường luôn giả sử rằng
CVT này thông dụng và dễ hiểu đối với đối tượng độc giả mà văn bản này nhắm đến.
Tuy nhiên, thực tế không phải đối tượng độc giả nào cũng hiểu được hết, bởi do sự
khác nhau về trình độ, độ tuổi, sự trải nghiệm, lĩnh vực hay chuyên ngành. Hơn nữa,
thời gian, trí nhớ và quan niệm của con người đã làm nhầm lẫn, làm phát sinh thêm ý
nghĩa mới CVT như chữ ST nói trên. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm
hiểu ý nghĩa CVT là gì. Đây không phải là vấn đề dễ dàng đối với tất cả mọi người.
Khi đọc một văn bản, hầu hết người đọc đều phải dừng lại chốc lát để hiểu được CVT
ấy là gì. Thậm chí có khi người đọc phải mất vài phút tìm hiểu và tra cứu mà vẫn
chưa hiểu được đầy đủ CVT. Vì vậy vấn đề phân giải ý nghĩa CVT là cần thiết trong
nhiều tình huống, không chỉ tình huống trong sử dụng ngôn ngữ tự nhiên (giao tiếp, đặt
tên, nhắn tin, Email ), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dạng
chữ viết hình ảnh, dịch thuật
Tóm tắt nội dung tài liệu: Đề tài Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong Tiếng Việt, tiếp cận xử lý vấn đề viết tắt Tiếng Việt
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY ÀNG THỊ MỸ LỆ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2020 i BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Đà Nẵng, năm 2020 ii LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi, dưới sự hướng dẫn trực tiếp của PGS. TS. Phan Huy Khánh, hiện là cán bộ giảng dạy tại Đại học Bách Khoa, Đại học Đà Nẵng. Tôi cam đoan các kết quả được trình bày trong luận án là trung thực, không sao chép từ bất kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công bố trong bất kỳ công trình nào khác. Mọi trích dẫn tài liệu tham khảo đều có ghi nguồn gốc xuất xứ rõ ràng. Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm. Tác giả, Nguyễn Nho Túy iii MỤC LỤC LỜI CAM ĐOAN .................................................................................................. ii DANH MỤC CÁC CHỮ VIẾT TẮT ................................................................. vii DANH MỤC HÌNH ẢNH .................................................................................... ix DANH MỤC BẢNG BIỂU .................................................................................. xi MỞ ĐẦU ................................................................................................................1 1. ĐẶT VẤN ĐỀ ................................................................................................1 2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU .........................5 2.1. Mục tiêu ........................................................................................................5 2.2. Đối tượng ......................................................................................................5 2.3. Phạm vi .........................................................................................................6 3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................6 4. BỐ CỤC CỦA LUẬN ÁN .............................................................................7 5. ĐÓNG GÓP CỦA LUẬN ÁN .......................................................................8 CHƯƠNG 1. VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT .................................... 11 1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN .................................... 11 1.1.1. Ngôn ngữ và xử lý ngôn ngữ ................................................................ 11 1.1.2. Âm, chữ viết và vấn đề cải tiến chữ viết ............................................... 12 1.1.3. Các loại hình ngôn ngữ........................................................................ 13 1.1.4. Xử lý ngôn ngữ tự nhiên ....................................................................... 14 1.1.5. Vấn đề xử lý tiếng Việt ......................................................................... 16 1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT ............... 18 1.2.1. Ngữ nghĩa và ngữ nghĩa học ................................................................ 18 1.2.2. Phân tích nghĩa của từ ......................................................................... 19 1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa .................................................. 20 1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt ............................................... 22 1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG .................................................... 25 1.3.1. Chữ viết tắt là gì .................................................................................. 25 1.3.2. Lịch sử hình thành chữ Quốc ngữ ........................................................ 26 1.3.3. Tìm hiểu về lịch sử chữ viết tắt ............................................................ 27 1.3.4. Sử dụng chữ viết tắt ............................................................................. 28 1.3.5. Chữ viết tắt trong tiếng Việt ................................................................. 31 1.4. NGỮ NGHĨA CHỮ VIẾT TẮT ................................................................... 32 iv 1.4.1. Khái niệm ngữ nghĩa chữ viết tắt ......................................................... 32 1.4.2. Biến đổi ngữ nghĩa chữ viết tắt ............................................................ 33 1.4.3. Nhập nhằng chữ viết tắt ....................................................................... 34 1.4.4. Xử lý nhập nhằng chữ viết tắt .............................................................. 35 1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt ............................................ 36 1.5. TÓM TẮT CHƯƠNG 1 ................................................................................ 37 CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT ..................................................................................................................... 38 2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT ............................. 38 2.1.1. Mô hình sự hình thành chữ viết tắt ....................................................... 38 2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt ......................................... 40 2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt ............................................ 41 2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt ..................... 44 2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM .................................................. 47 2.2.1. Hệ sinh thái phần mềm là gì ................................................................ 47 2.2.2. Mô hình hóa hệ sinh thái phần mềm .................................................... 48 2.2.3. Đặc điểm một hệ sinh thái phần mềm................................................... 50 2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm .............................................. 51 2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) ...... 51 2.3.1. Hệ thống khai thác phần mềm .............................................................. 51 2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt ................................. 52 2.3.3. Mô hình hệ thống khai thác chữ viết tắt ............................................... 53 2.4. THỰC NGHIỆM XÂY DỰNG AMES ........................................................ 54 2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt ............................... 55 2.4.2. Xây dựng công cụ khai thác chữ viết tắt ............................................... 55 2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt ............................... 55 2.5. TÓM TẮT CHƯƠNG 2 ................................................................................ 56 CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT ............. 57 3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT ...................................... 57 3.1.1. Mô hình quan hệ dữ liệu ...................................................................... 57 3.1.2. Triển khai cài đặt ................................................................................. 59 3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT ................................ 60 3.2.1. Thu thập dữ liệu thủ công .................................................................... 60 3.2.2. Thu thập dữ liệu tự động ...................................................................... 61 v 3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới ........................... 62 3.2.4. Thực nghiệm cài đặt thuật toán SENVA ............................................... 64 3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT ............................ 65 3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành ................................... 65 3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục ....................... 69 3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia ........................ 71 3.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................ 73 3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt .......................................... 73 3.4.2. Kết quả ứng dụng khai thác dữ liệu chữ viết tắt ................................... 74 3.5. TÓM TẮT CHƯƠNG 3 ................................................................................ 76 CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT ........... 77 4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT ............................................... 77 4.1.1. Lựa chọn công cụ lập trình .................................................................. 77 4.1.2. Thiết kế chương trình ........................................................................... 77 4.1.3. Kết quả xây dựng thư viện chữ viết tắt ................................................. 78 4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU .......................... 79 4.2.1. Tin nhắn thương hiệu là gì ................................................................... 79 4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname ........................ 80 4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu .............................. 81 4.2.4. Cài đặt chương trình, kết quả thử nghiệm ............................................ 87 4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG ........... 88 4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình ................................ 88 4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt ............................................. 89 4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển ................................. 90 4.3.4. Cài đặt và kết quả thực nghiệm ............................................................ 92 4.4. ĐÁNH GIÁ KẾT QUẢ ................................................................................. 93 4.4.1. Đánh giá kết quả thực nghiệm AMES ................................................. 93 4.4.2. Đánh giá AMES đặc tả theo mô hình UML ......................................... 94 4.5. TÓM TẮT CHƯƠNG 4 ................................................................................ 96 CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT ................................... 97 5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT ...................... 97 5.1.1. Ngữ cảnh sử dụng chữ viết tắt ............................................................. 97 5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản ........................................ 98 vi 5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản ...................... 99 5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt ............................................ 100 5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT .............. 102 5.2.1. Xây dựng các miền dữ liệu ................................................................. 102 5.2.2. Xây dựng vị từ và hàm ....................................................................... 103 5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản ...................... 105 5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT .................... 106 5.3.1. Xây dựng cơ sở luật ........................................................................... 106 5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt ................................... 109 5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt ...................... 110 5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng.................... 112 5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ..... 113 5.4.1. Tần số chữ viết tắt ............................................................................. 113 5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt ............... 114 5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt ................................. 116 5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm ..................... 117 5.4.5. Kết quả thực nghiệm và đánh giá ...................................................... 119 5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt ................................ 123 5.5. TÓM TẮT CHƯƠNG 5 .............................................................................. 124 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................... 125 1. KẾT LUẬN .................................................................................................... 125 1.1. Tóm tắt nội dung luận án ...................................................................... 125 1.2. Các kết quả đạt được ............................................................................ 126 1.3. Hạn chế của luận án ............................................................................. 128 2. HƯỚNG PHÁT TRIỂN................................................................................. 129 DANH MỤC CÁC CÔNG TRÌNH Đà CÔNG BỐ CỦA TÁC GIẢ ............... 130 TÀI LIỆU THAM KHẢO ................................................................................. 131 PHỤ LỤC vii DANH MỤC CÁC CHỮ VIẾT TẮT TIẾNG VIỆT STT Chữ viết tắt NGHĨA TIẾNG VIỆT 1. BCVT Bưu chính viễn thông 2. CĐCN Cao đẳng công nghệ 3. CVT Chữ viết tắt 4. CSDL Cơ sở dữ liệu 5. DBĐT Danh bạ điện thoại 6. DCT Địa chỉ tắt 7. ĐTV Điện thoại viên 8. ĐH Đại học 9. ĐHBK Đại học bách khoa 10. ĐHQG Đại học quốc gia 11. GD-ĐT Giáo dục và đào tạo 12. HCM Hồ Chí Minh 13. KHCN Khoa học công nghệ 14. KNL Kho ngữ liệu 15. KTQS Kỹ thuật quân sự 16. KTXH Kinh tế xã hội 17. MTVT Mục từ viết tắt 18. NN&ĐS Ngôn ngữ và đời sống. 19. NSD Người sử dụng 20. NXB Nhà xuất bản 21. NCS Nghiên cứu sinh 22. PGS Phó Giáo sư 23. TBT Thuê bao tắt 24. THCN Trung học chuyên nghiệp 25. TS Tiến sỹ 26. TP Thành phố 27. XLTV Xử lý tiếng Việt 28. XLNNTN Xử lý ngôn ngữ tự nhiên 29. VH-TT Văn hóa thông tin 30. VT-CNTT Viễn thông - Công nghệ thông tin viii TIẾNG ANH STT Chữ viết tắt NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT 1. API Application Programming Interface Lập trình giao diện ứng dụng 2. AMES Abbreviations Management Exploit System Hệ thống khai thác Chữ viết tắt 3. AFVAI Assessment frequency Vietnamese abbreviations on the Internet Ghi nhận tần số chữ viết tắt trên Internet 4. CSBCOM Consultant SMS brandname to the company Tư vấn đặt tên tin nhắn thương hiệu Doanh nghiệp 5. I* Modeling Language Ngôn ngữ mô hình hóa 6. IM Instand Message Tin nhắn 7. HTML HyperText Markup Language Ngôn ngữ đánh dấu siêu vă ... y khối văn bản vào bộ nhớ đệm. - Chọn của sổ văn bản kq.doc - Dán kết quả thêm vào cuối văn bản kq.doc - Tăng biến i=i+1 EndWhile Chọn của sổ văn bản kq.doc Chuyển đổi dữ liệu thành bảng có hai cột Ghi lại tập tin kq.doc End: Nhận xét: Sau khi thực hiện trích lọc tự động các cụm từ năm trong cặp dấu (...), có thể sử dụng thêm Macro chuyển đổi dữ liệu về tập tin *.TXT, để tiếp tục biên tập lại dữ liệu. Thuật toán đề xuất mở tập tin nguồn *.doc bất kỳ, sau đó mở tập tin kq.doc để lưu giữ kết quả trích lọc thông tin, đảm bảo mục đích trực quan, dễ sử dụng đối với người thu thập dữ liệu IV 2) Hàm chuyển đổi chữ viết tắt Trong nội dung sử dụng chữ viết tắt trong CSDL chuyên ngành (mục 3.3.1.), ứng dụng xây dựng CSDL CVT cho Đài 108 đã sử dụng hàm chuyển đổi mọi CVT có dấu tiếng Việt sang CVT không dấu, viết hoa để giúp các điện thoại viên giảm thiểu thao tác gõ bàn phím, tăng hiệu năng sử dụng phần mềm tra cứu danh bạ. Sau đây là mã lệnh đầy đủ của hàm đã xây dựng: Funtion Chuyen_doi_CVT Option Explicit Const sViet As String = "µ¶·¸¹¨»¼½¾Æ©ÇÈÉÊËÌÎÏÐѪÒÓÔÕÖ×ØÜÝÞßáâãä«åæçèé¬êëìíîïñòóô- õö÷øùúûüýþ¡¢£¤¥¦®§" Const sKhongdau As String = "aaaaaaaaaaaaaaaaaeeeeeeeeeeeiiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAEO OUdD" //Khai báo chuỗi chuyển đổi chữ viết không có dấu Function chuviettat(strInput As String) As String Dim i As Integer Dim sData As String Dim sOuput As String chuviettat = "" sData = Trim(Khongdau(strInput)) If sData = "" Then Exit Function sOuput = Mid(sData, 1, 1) For i = 2 To Len(sData) If Mid(sData,i,1) " " And Mid(sData,i-1,1) = " " Then sOuput = sOuput + Mid(sData,i,1) Next i chuviettat = UCase(sOuput) End Function //Hàm chuyển đổi chữ viết không có dấu Function Khongdau(sCodau As String) As String Dim L As Integer Dim i As Integer,j As Integer, s As String L = Len(sCodau) For i = 1 To L j = InStr(1,sViet,Mid(sCodau,i, 1)) If j > 0 Then s = s & Mid(sKhongdau,j,1) Else s = s & Mid(sCodau,i,1) End If Next i Khongdau = s End Function V 3) Thuật toán, mã lệnh dùng trong từ điển CVT trên máy di động Phụ lục này trình bày thêm một số thuật toán, đoạn mã lệnh và danh mục các tập tin đã sử dụng lập trình từ điển CVT trên máy di động (mục 5.3.4.) bằng Java trong Android Studio: a) Mã lệnh khai báo lớp màn hình chính chương trình AcroDictActivity.java * Lớp màn hình của chương trình public class AcroDictActivity extends AppCompatActivity implements NavigationView.OnNavigationItemSelectedListener, SearchView.OnQueryTextListener, View.OnClickListener { private final String TAG = "AcroDictActivity"; private SearchView searchView; private RecyclerView rvListSearchResult; private List searchResultList; private List resultDetailList; private SearchResultAdapter searchResultAdapter; private ResultDetailAdapter resulDetailtAdapter; private DbAdapter dbAdapter; private RecyclerView rvListResultDetail; private int mCurrentPos = -1; private OnClickCallback mOnClickCallback; private TextView txtNoDataFound; private FloatingActionButton fabThemTuMoi; private FloatingActionButton fabTimKiem; private LineChart lcToDay; private OnChartValueSelectedListener mOnLineChartValueSelected; private PieChart pcTopTen; private LinearLayout llChartting; private FloatingActionButton fabHomeScreen; private FloatingActionsMenu fabAction; private boolean isShowFromQuickWindow; private int fabMode; private FloatingActionButton fabEmptyTrash; private CatLoadingView mCatLoading; private SharedPreferences preferences; VI b) Mã lệnh truy vấn trong CSDL tất cả các CVT chứa X: // (SELECT * FROM T1 WHERE T1.CVT MATCH X) String sqlQuery = "" + "SELECT [T].[" + COL_CVT_FTS_ID_CVT + "], \n" + " [C].[" + COL_CVTS_CVT + "], \n" + " CASE [C].[" + COL_CVTS_ID_LANG + "] WHEN 0 THEN [C].[" + COL_CVTS_NGHIAVIET + "] WHEN 1 THEN [C].[" + COL_CVTS_NGHIAANH + "] ELSE [C].[" + COL_CVTS_NGHIAVIET + "] END NGHIA_NGAN, \n" + " [C].[" + COL_CVTS_LUOTXEM + "], \n" + " [C].[" + COL_CVTS_IS_FAVORITE + "] \n" + "FROM [" + TABLE_CVT_FTS + "] [T]\n" + " INNER JOIN [" + TABLE_CVTS + "] [C] ON [C].[" + COL_CVTS_ID_CVT + "] = [T].[" + COL_CVT_FTS_ID_CVT + "]\n" + "WHERE [T].[CVT] MATCH " + DatabaseUtils.sqlEscapeString(StringUtil.convert2SqliteSearchFormat(value)) + " AND [C].[" + COL_CVTS_ENABLED + "] = 1" + " ORDER BY LENGTH([C].[" + COL_CVTS_CVT + "])" + " LIMIT " + QUERY_LIMIT; c) Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên CSDL bảng T1, mã lệnh: // DbAdapter.getResultDetailById() if (idList.size() >0) { //update luotxem – Cập nhật lượt xem, tra cứu CVT String listOfId = TextUtils.join(",", idList); String sqlUpdate = "" + "UPDATE\n" + " [" + TABLE_CVTS + "]\n" + "SET\n" + " [" + COL_CVTS_LUOTXEM + "] = [" + COL_CVTS_LUOTXEM + "] + 1\n" + "WHERE\n" + " [" + COL_CVTS_ID_CVT + "] IN (" + listOfId + ")"; db.execSQL(sqlUpdate); //update thongke – Cập nhật thống kê người sử dụng di động String currentDate = sdfIn.format(new Date()); sqlUpdate = "" + "UPDATE\n" + " [" + TABLE_THONGKE + "]\n" + "SET\n" + VII " [" + COL_THONGKE_TAN_SO + "] = [" + COL_THONGKE_TAN_SO + "] + 1\n" + "WHERE\n" + " [" + COL_THONGKE_NGAY_THANG + "] = " + DatabaseUtils.sqlEscapeString(currentDate) + "\n" + "AND [" + COL_THONGKE_ID_CVT + "] IN (SELECT [F1].[" + COL_CVT_FTS_ID_CVT + "]\n" + "FROM [" + TABLE_CVT_FTS + "] [F1]\n" + "WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + COL_CVT_FTS_CVT + "] || '\"'\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + " AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH ([F].[" + COL_CVT_FTS_CVT + "])\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + "))"; db.execSQL(sqlUpdate); //insert new thongke – Chèn bảng thống kê mới cho người sử dụng di động sqlUpdate = "" + "INSERT OR IGNORE INTO [" + TABLE_THONGKE + "]\n" + " ([" + COL_THONGKE_NGAY_THANG + "], \n" + " [" + COL_THONGKE_ID_CVT + "], \n" + " [" + COL_THONGKE_TAN_SO + "])\n" + " SELECT " + DatabaseUtils.sqlEscapeString(currentDate) + ", \n" + " [F1].[" + COL_CVT_FTS_ID_CVT + "], \n" + " 1\n" + " FROM [" + TABLE_CVT_FTS + "] [F1]\n" + " WHERE [F1].[" + COL_CVT_FTS_CVT + "] MATCH (SELECT '\"' || [F].[" + COL_CVT_FTS_CVT + "] || '\"'\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")\n" + " AND LENGTH ([F1].[" + COL_CVT_FTS_CVT + "]) = (SELECT LENGTH ([F].[" + COL_CVT_FTS_CVT + "])\n" + " FROM [" + TABLE_CVT_FTS + "] [F]\n" + " WHERE [F].[" + COL_CVT_FTS_ID_CVT + "] = " + idCvt + ")"; db.execSQL(sqlUpdate); VIII Phụ lục 4. Bảng mã danh mục ứng dụng và đề xuất. Trong mục 3.3.2. về ứng dụng chữ viết tắt trong xây dựng CSDL danh mục, tác giả đã xây dựng bảng mã danh mục các phần tử mạng điều hành sản xuất kinh doanh, đề xuất ban hành thống nhất, đã đưa vào áp dụng thực tiễn, quy định các lập trình viên đơn vị tuân thủ bảng mã danh mục. Ví dụ như: Bảng 1. Danh mục CVT phần tử mạng điều hành sản xuất kinh doanh STT Tên mã Chữ viết tắt Ghi chú 1 Mã tỉnh/thành ABC Theo quy định chung thống nhất trong Tập đoàn: DNG: Đà Nẵng, QNM: Quảng Nam 4 Mã thanh toán DNG000000001 + 2 Mã tổng đài CSND CNSDxxx xxx: 001 => 999 3 Tên CSND (=Mã tủ cáp gốc t ại đài) DAI + Cáp đồng: DAI001 => DAI999 Cáp quang: DAI001DF => DAI999DF 5 Mã tủ cáp TCxxxAn hoặc H001An + + <Kí tự chỉ tuyến cáp> + <chỉ số thứ tự tủ cáp thuộc tuyến> 6 Mã outdoor CSNDxxxDFn + + <chỉ số thứ tự outdoor thuộc tuyến> 7 Mã sợi cáp đồng CSNDxxxn Cáp gốc: + + <chỉ số sợi cáp> CSNDxxxA1-n Cáp ngọn: <Mã tủ cáp mà sợi cáp đi vào loại bỏ kí tự T hoặc H> + <- + <Chỉ số thứ tự sợi cáp đi vào tủ> 8 Mã sợi cáp quang Cáp gốc: 001DFn/m Cáp gốc: + + Cáp ngọn: 001DFn- m Cáp ngọn: + + IX Bảng 2. Danh mục mã vùng điện thoại STT Tỉnh/TP Tên chữ viết tắt Mã số STT Tỉnh/TP Tên chữ viết tắt Mã số 1 An Giang AGG 76 33 Khánh Hoà KHA 58 2 Bà Rịa Vũng Tàu BRU 64 34 Kiên Giang KGG 77 3 Bạc Liêu BLU 781 35 Kon Tum KTM 60 4 Bắc Kạn BKN 281 36 Lai Châu LCU 23 5 Bắc Giang BGG 240 37 Lạng Sơn LSN 25 6 Bắc Ninh BNH 241 38 Lào Cai LCI 20 7 Bến Tre BTE 75 39 Lâm Đồng LDG 63 8 Bình Dương BDG 650 40 Long An LAN 72 9 Bình Định BDH 56 41 Nam Định NDH 350 10 Bình Phước BPC 651 42 Nghệ An NAN 38 11 Bình Thuận BTN 62 43 Ninh Bình NBH 30 12 Cà Mau CMU 780 44 Ninh Thuận NTN 68 13 Cao Bằng CBG 26 45 Phú Thọ PTO 210 14 Cần Thơ CTO 71 46 Phú Yên PYN 57 15 TP. Đà Nẵng DNG 511 47 Quảng Bình QBH 52 16 ĐắkLắk DLK 50 48 Quảng Nam QNM 510 17 Đăc Nông DNG 50 49 Quảng Ngãi QNI 55 18 Điện Biên DBN 23 50 Quảng Ninh QNH 33 19 Đồng Nai DNI 61 51 Quảng Trị QTI 53 20 Đồng Tháp DTP 67 52 Sóc Trăng STG 79 21 Gia Lai GLI 59 53 Sơn La SLA 22 21 Hà Giang HGG 19 54 Tây Ninh TNH 66 23 Hà Nam HNM 351 55 Thái Bình TBH 36 24 Hà Nội HNI 4 56 Thái Nguyên TNN 280 25 Hà Tây HTY 34 57 Thanh Hoá THA 37 26 Hà Tĩnh HTH 39 58 Thừa Thiên Huế HUE 54 27 Hải Dương HDG 320 59 Tiền Giang TGG 73 28 Hải Phòng HPG 31 60 Trà Vinh TVH 74 29 Hậu Giang HGG 71 61 Tuyên Quang TQG 27 30 Hoà Bình HBH 18 62 Vĩnh Long VLG 70 31 Hưng Yên HYN 321 63 Vĩnh Phúc VPC 211 32 TP. Hồ Chí Minh HCM 8 64 Yên Bái YBI 29 X Phụ lục 5. Hình ảnh, màn hình giao diện và chức năng 1) Thống kê mẫu văn bản của Viễn thông Đà Nẵng Thư viễn biểu mẫu văn bản sử dụng thông kê các loại văn bản để khảo sát, nhận diện tình huống sử dụng CVT trong thực tế tại đơn vị (mục 3.3.4.). Khảo sát này giúp đề xuất giải pháp xử lý nhập nhằng CVT trong một lĩnh vực VT-CNTT tại đơn vị. . Hình 1. Thư viện biểu mẫu văn bản 2) Hình ảnh giao diện kết quả xây dựng Website Giới thiệu kết quả xây dựng website thư viện CVT (minh họa thêm cho mục 5.3.3.), hiện đã được đưa vào sử dụng như hình 1, hình 2 và hình 3 dưới đây: Hình 2. Trang quản trị và cấu hình thư viện CVT XI Trang chủ thư viện CVT được thiết kế với nhiều chức năng, trong đó có các liên kết sắp xếp theo vần ABC giúp tra cứu được nhanh chóng. Hình 3. Trang chủ thư viện chữ viết tắt. Chức năng tra cứu CVT được thiết kế cho phép tra cứu chính xác hoặc gần đúng. Quá trình tìm kiếm, sử dụng cũng được hệ thống website lưu trữ để có những số liệu thống kê như CVT được xem nhiều nhất Hình 4. Kết quả tra cứu chữ viết tắt. XII 3) Công cụ lập trình Android Studio và Genymotion giả lập máy di động Hình ảnh công cụ giả lập để triển khai thực nghiệm lập trình xây dựng từ điển tra CVT trên máy di động (làm rõ thêm mục 4.3): Hình 5. Sử dụng môi trường phát triển tích hợp Android Studio lập trình Hình 6. Công cụ Genymotion giả lập máy di động Danh mục các tệp Java đã thiết kế cho từ điển CVT trên máy di động XIII Hình 7. Danh mục các tệp Java đã thiết kế 4) Cấu trúc Bộ danh mục mã bưu chính quốc gia Việt Nam Hình 8. Cấu trúc Mã bưu chính XIV 5) Ứng dụng chạy trên máy di động giả lập trên máy tính Biên dịch bởi Android Studio, chương trình có biểu tượng là ABC Acronym Dictionary (hình 8). Hình ảnh ứng dụng giả lập trên máy tính (bởi Genymotion), chương trình thường trú trong bộ nhớ. Menu dọc là các chức năng: Thống kê, cài đặt, cập nhật mới như hình 8. Nhấn màn hình cảm ứng trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm, tra cứu và hiển thị dữ liệu kết quả tra cứu hình 9. Hình 8. Giao diện chức năng và kết quả tra cứu CVT Hình 9. Giao diện chức năng tra cứu và thống kê sử dụng CVT Biểu tượng: ABC Acronym Dictionary XV 6) Ứng dụng thực tế trên máy di động Samsung Not 3 Sau khi xây dựng chương trình trên các phần mềm giả lập, thực hiện lệnh Build, ứng dụng có tên là: "ABC Acronym Dictionary". Sao chép tập tin lên máy di động và cài đặt trong biểu tượng ABC Acronym Dictionary. Các hình ảnh ứng dụng thực tế chạy trên trên máy di động Samsung Not 3 như các hình sau đây: Hình 10. Giao diện chức năng và thống kê sử dụng CVT trên máy di động Hình 11. Giao diện biểu đồ thống kê sử dụng và tra cứu CVT trên máy di động XVI Về chức năng tra cứu chạy thực tế trên máy di động: Tương tự như trên, chương trình đã chạy thường trú, Khi người dùng cần tra cứu trực tiếp CVT trên file văn bản, email, tin nhắn, website, nhấn màn hình cảm ứng máy di động trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm, chương trình sẽ copy dữ liệu CVT trong vùng nhớ đệm. Tiếp theo NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm CVT (ABC Acronym Dictionary), hiển thị dữ liệu kết quả tra cứu: Khung cửa sổ phía trên: Kết quả tra cứu CVT. Khung cửa sổ phía dưới: Vẫn giữ nội dung văn bản NSD đang đọc. Hình 12. Giao diện tra cứu trực tiếp CVT trên máy di động XVII 7) Ứng dụng SMS Brandname: Ứng dụng SMS Brandname được đưa vào khai thác, trong đó có các chức nằn: Thiết lập cấu hình, Tư vận trực tiếp/Tự động Brandname cho khách hàng. Giao diện chính như hình 13 dưới đây. Hình 13. Giao diện chức năng và cấu hình ứng dụng SMS Brandname Hình 14. Chức năng tư vấn tự động Brandname XVIII 8) Cấu trúc XML cho CSDL chữ viết tắt Hình 15 dưới đây là ví dụ về cách tổ chức CSDL với mục từ viết tắt “VNPT”: 1 VNPT Vi-en-pi-ti VietNam Posts And Telecommunications Group Tập đoàn Bưu chính Viễn thông Việt Nam 1 - (Công nghệ thông tin và Truyền thông) 01 ...... Hình 15. Cấu trúc XML cho CSDL chữ viết tắt. 9) CSDL 108 VNPT Đà Nẵng Hình 16. CSDL 108 VNPT Đà Nẵng XIX Hình 17. Minh họa CSDL đã xây dựng 10) Thực hiện chương trình cập nhật tần số sử dụng CVT Chương trình chính chạy trong khung cửa sổ Main (hình 18), chọn nút lệnh Import CSV file, chọn file đầu vào, chọn lựa trình duyệt, sau đó kích chọn nút Run để thực hiện thu thập dữ liệu tần suất sử dụng CVT. Hình 18. Thực hiện chương trình cập nhật tần số sử dụng CVT XX 11) Khảo sát tương quan tần số sử dụng CVT Tần suất xuất hiện 8 cụm CVT (là thương hiệu thức ăn nhanh) ngày 02/04/2016 so sánh với thị phần thương hiệu bàn luận trên mạng xã hội (bảng 1 và hình 19): Bảng 1. Tương quan tần suất xuất hiện CVT và bàn luận trên mạng xã hội STT NGHIAVIET N_VN1 Tần suất % Social Media % 1 KFC 146.000 34,7 47,0 2 Lotteria 125.000 29,7 26,0 3 McDonald's 57.900 13,8 10,0 4 Burger King 32.800 7,8 5,0 5 Popeyes 29.700 7,1 5,6 6 Jollibee 18.800 4,5 4,4 7 Texas Chicken 7.420 1,8 1,0 8 Carl's Jr. 2.760 0,7 1,0 420.380 100 100 Hình 19. Biểu đồ thương hiệu thực ăn nhanh thảo luận trên Internet (theo nguồn số liệu trên Internet)
File đính kèm:
- de_tai_nghien_cuu_ngu_nghia_va_hien_tuong_nhap_nhang_trong_t.pdf
- 2. NGUYEN NHO TUY. Tom Tat LA_Viet.pdf
- 3. NGUYEN NHO TUY. Tom Tat LA_Anh.pdf
- 4. NGUYEN NHO TUY. Dong Gop Moi Cua LA.pdf
- 5. NGUYEN NHO TUY. Trich Yeu LA.pdf