Thư viện số và phần mềm mã nguồn mở

Ở đây, chúng tôi trình bày các định nghĩa không hình thức về thư

viện số.

Định nghĩa 1 (Arms W.Y.): Thư viện số (DL – Digital Library) là

một kho thông tin có tổ chức với các dịch vụ liên kết, trong đó thông

tin được lưu trữ ở dạng số và có thể truy cập qua một mạng. Ý chính của

định nghĩa là thông tin có tổ chức. DL chứa các loại kho thông tin khác

nhau dùng bởi nhiều người sử dụng khác nhau. DL có quy mô từ nhỏ

đến rất lớn. DL có thể sử dụng bất kỳ loại thiết bị tính toán nào và bất

kỳ phần mềm phù hợp. Chủ đề thống nhất là thông tin được tổ chức

trên máy tính và có sẵn trên mạng với các thủ tục lựa chọn tài liệu trong

các kho để tổ chức, làm cho sẵn có với người sử dụng (NSD) và lưu trữ.

pdf 19 trang dienloan 6640
Bạn đang xem tài liệu "Thư viện số và phần mềm mã nguồn mở", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Thư viện số và phần mềm mã nguồn mở

Thư viện số và phần mềm mã nguồn mở
530 Đỗ Quang Vinh
THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
Đỗ Quang Vinh*1
1. KHÁI NIỆM
Ở đây, chúng tôi trình bày các định nghĩa không hình thức về thư 
viện số.
Định nghĩa 1 (Arms W.Y.): Thư viện số (DL – Digital Library) là 
một kho thông tin có tổ chức với các dịch vụ liên kết, trong đó thông 
tin được lưu trữ ở dạng số và có thể truy cập qua một mạng. Ý chính của 
định nghĩa là thông tin có tổ chức. DL chứa các loại kho thông tin khác 
nhau dùng bởi nhiều người sử dụng khác nhau. DL có quy mô từ nhỏ 
đến rất lớn. DL có thể sử dụng bất kỳ loại thiết bị tính toán nào và bất 
kỳ phần mềm phù hợp. Chủ đề thống nhất là thông tin được tổ chức 
trên máy tính và có sẵn trên mạng với các thủ tục lựa chọn tài liệu trong 
các kho để tổ chức, làm cho sẵn có với người sử dụng (NSD) và lưu trữ.
Định nghĩa 2 (Chen H., Houston A.L.): Thư viện số là một thực 
thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua 
các mạng toàn cầu. DL là một kho thông tin số có tổ chức. Một DL 
*1 TS., Trưởng Khoa Công nghệ Thông tin, Trường Đại học Văn hóa Hà Nội, 
 Email: vinhdq@huc.edu.vn.
531THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
được biểu thị là một tập hợp các máy chủ tự phân tán làm việc đồng 
thời nhằm trao cho NSD diện mạo của một CSDL tài liệu liên kết. 
Thực tế, mỗi máy chủ lưu trữ một lượng lớn thông tin đa dạng trên 
nhiều loại vật tải lưu trữ.
Đặc điểm của DL là trợ giúp cộng tác, bảo quản tài liệu số, quản 
trị CSDL phân tán, siêu văn bản, trích lọc thông tin, tìm kiếm thông 
tin, các đơn thể hướng dẫn, các quyền sở hữu trí tuệ, các dịch vụ thông 
tin multimedia và các dịch vụ tra cứu, khám phá tài nguyên và phổ biến 
thông tin có chọn lọc. Chúng cho phép thông tin được truy cập toàn 
cầu, sao chép không lỗi, lưu trữ nén và tìm kiếm nhanh.
Định nghĩa 3 (Reddy R., Wladawsky-Berger I.): Thư viện số là các 
kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa 
học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có 
thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai.
Định nghĩa 4 (Sun Microsystems): Thư viện số là sự mở rộng điện 
tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD 
truy cập trong thư viện truyền thống. Các tài nguyên thông tin được 
chuyển thành dạng số, lưu trữ trong các kho multimedia và làm cho sẵn 
có thông qua các dịch vụ Web. 
Định nghĩa 5 (Witten I.H., Bainbridge D.): Thư viện số là các kho 
đối tượng số, bao gồm văn bản, video và audio cùng với các phương 
pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì.
Định nghĩa 6 (Liên đoàn Thư viện số - The Digital Library Fed-
eration): Thư viện số là những tổ chức cung cấp các nguồn lực gồm cả 
cán bộ chuyên môn để lựa chọn, xây dựng, truy cập tri thức, giải thích, 
phân phát, bảo tồn tính toàn vẹn và đảm bảo tính bền vững vượt thời 
gian của các kho tài liệu số, do đó chúng luôn sẵn sàng đáp ứng nhu 
cầu sử dụng của một cộng đồng cụ thể hoặc của một nhóm cộng đồng.
532 Đỗ Quang Vinh
Tóm lại, Thư viện số là một kho thông tin số khổng lồ có tổ chức 
với các dịch vụ liên kết qua mạng.
1.1. Các thành phần chính
1.1.1. Hệ quản lý nội dung
Hệ quản lý nội dung là trung tâm của thư viện số. Không có nội dung 
số, sẽ không có thư viện số. Hệ quản lý nội dung bao hàm tập hợp tất cả 
chức năng thực hiện nhằm tạo ra một loại nội dung cụ thể, chẳng hạn tạp 
chí điện tử cho người dùng cuối. Một hệ quản lý nội dung có hai thành 
phần chính: hệ truy cập thông tin và hệ quản lý thông tin.
1.1.2. Hệ truy cập thông tin
Hệ truy cập thông tin có giao diện người dùng thích hợp hơn. Sự truy 
cập thông tin quy về loại chức năng có thể có được cho sử dụng hệ thống. 
Nó bao gồm các chức năng thường cung cấp cho loại dữ liệu riêng biệt, 
chẳng hạn, trong trường hợp của dữ liệu địa lý là chức năng vẽ bản đồ.
Truy cập thông tin bao hàm tìm kiếm, xem nội dung và xử lý 
thông tin. Một số loại thông tin cần phải xử lý sau khi tìm được. Chẳng 
hạn, tệp ảnh TIFF lớn có thể chuyển đổi thành tệp GIF được xem dễ 
dàng hơn với một trình duyệt Web.
1.1.3. Hệ quản lý thông tin
Quản lý thông tin cần phải làm cho truy cập thông tin là khả thi. 
Các chức năng truy cập thông tin cụ thể không thể có được nếu không 
có kiểu thích hợp về lưu trữ cơ bản và cơ chế quản lý, liệu có phải là 
một hệ cơ sở dữ liệu, động cơ tìm kiếm search engine, .v.v... Mỗi kiểu 
dữ liệu đòi hỏi hệ quản lý nội dung của riêng nó.
Quản lý nội dung không thể có được nếu không có thu thập nội 
dung. Thu thập được thực hiện bằng cách mua từ các nhà cung cấp, 
hoặc thông qua phát triển thư viện nội bộ như là quét tài liệu. 
533THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
- Các cách tiếp cận quản lý thông tin
Có bốn cách tiếp cận quản lý thông tin chính:
1. Các tệp độc lập với nội dung thư viện số có thể được bảo trì trên 
một máy chủ WWW hoặc FTP. 
2. Một chương trình có thể được xây dựng để tự động hoá phần 
nào đó của tương tác với nội dung.
3. Quản lý nội dung với một động cơ tìm kiếm search engine
4. Sử dụng một hệ quản trị cơ sở dữ liệu như SQL Server, Oracle, 
DB2, 
Các cách tiếp cận là không loại trừ lẫn nhau; có nhiều cách kết hợp 
khác nhau để khai thác ưu thế riêng của từng kỹ thuật.
Hình 1: Mô tả về các thành phần dịch vụ của thư viện số
Hệ quản lý nội dung 
Hệ quản lý nội dung 
Hệ quản lý nội dung 
Truy cập thông tin 
Quản lý thông tin 
Dịch vụ hạ tầng 
Dịch vụ bổ trợ 
Thông tin bạn đọc 
An toàn/ Quản lý 
quyền 
Tính cước/Trả tiền 
Đặt tên 
Phổ biến thông 
tin có chọn lọc 
Truyền thông 
Hệ phân 
phối ngoài 
Tích hợp 
534 Đỗ Quang Vinh
1.1.4. Dịch vụ hạ tầng
Bốn dịch vụ tạo thành hạ tầng quan trọng của một thư viện số: đặt 
tên, thông tin bạn đọc, an toàn và tính cước. 
1.1.5. Dịch vụ bổ trợ
Ba dịch vụ bổ trợ chính ở thư viện số bao gồm: dịch vụ truyền 
thông, dịch vụ phân phối, dịch vụ phổ biến thông tin có chọn lọc.
1.1.6. Tích hợp
Các thành phần của thư viện số phải được tích hợp. Một khi có 
nhiều hệ phần mềm cùng được sử dụng chúng ta cần phải quan tâm 
đến vấn đề liên kết chúng. Đây là một trong những thành phần kiến 
trúc phức tạp nhất của thư viện số.
Tích hợp bao hàm bài toán về cách làm cho hai hệ thống thông tin 
hoạt động đồng thời. Bài toán được giải quyết trong thư viện bằng cách 
chỉ cho bạn đọc sử dụng cả hai hệ thống, như một mục lục phân loại và 
một cơ sở dữ liệu trích dẫn.
Tích hợp là một bài toán thư viện số cơ bản. Nó xuất hiện ngay 
khi một thư viện quyết định cung cấp truy cập tới hai hệ thống thông 
tin khác nhau. 
Các phương pháp tích hợp:
1. Các trang WWW kết nối nhiều Website.
2. Siêu dữ liệu Metadata.
3. Chuẩn tìm kiếm thông tin phân tán Z39.50.
4. CORBA (Comon Object Request Broker Architecture).
Không có một giải pháp nào là tốt hơn tất cả các giải pháp còn lại. 
Mỗi một giải pháp có vị trí riêng của mình. Tạo một trang Web là đơn 
535THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
giản. Sử dụng Z39.50 hạn chế người dùng tìm kiếm phân tán. CORBA 
là con đường tương lai. Nó là linh động hơn và cung cấp khả năng cho 
một môi trường tích hợp nhiều hơn Z39.50. 
1.2. Tài nguyên 
1.2.1. Phần cứng
Phần cứng là một thành phần chính, bao gồm: máy chủ, terminal 
và mạng. Có ba loại terminal: (1) máy tính gia đình, người sử dụng làm 
việc tại nhà và dùng modem để truy cập các dịch vụ; (2) terminal trong 
thư viện; (3) máy tính mạng. Tất cả terminal được kết nối tới máy chủ 
có thể đặt ở thư viện hoặc ở trường học qua mạng.
1.2.2. Đội ngũ
Đội ngũ của một thư viện số không chỉ là những kỹ thuật viên, 
nhà quản lý thư viện hệ thống và nhân viên thư viện dịch vụ điện tử, 
mà là tất cả cán bộ của một thư viện truyền thống.
Hình 2
Mạng 
thư viện 
Máy chủ 
thư viện 
Máy chủ 
từ xa 
PC thư viện 
PC tại nhà 
MODEM 
536 Đỗ Quang Vinh
2. XÂY DỰNG THƯ VIỆN SỐ 
Quá trình xây dựng một thư viện số điển hình bao hàm các pha sau:
- Tạo lập nội dung thư viện số;
- Chỉ mục và lọc thông tin;
- Trợ giúp truy cập phổ quát;
- Bảo quản.
2.1. Tạo lập nội dung thư viện số
Thứ nhất, khi tạo lập một thư viện số, phải xác định loại thông tin 
cung cấp và loại thông tin loại bỏ. Không may, hầu hết thông tin thư 
viện số muốn cung cấp không được số hoá, nên yêu cầu bổ sung là xác 
định các quyền ưu tiên số hoá và các quá trình chuyển đổi.
Thứ hai là bản chất động của thông tin số hoá. Nội dung có thể 
thay đổi theo thời gian, đòi hỏi lưu trữ nhiều ấn bản, phải có cơ chế 
cho phép phân biệt ấn bản. Những thách thức liên quan khác bao gồm 
định danh các phương pháp bắt và chỉ mục vật tải liên tục ở thời gian 
thực và các kỹ thuật đối với xử lý, lưu trữ và quản trị lượng thông tin 
rất lớn và phức tạp. 
Thứ ba, vì các liên kết siêu văn bản cho phép thư viện số cung cấp 
liên kết tới thông tin, thư viện số phải quyết định kiểu truy cập được 
cung cấp. Các vấn đề liên quan về quyền sở hữu và lưu trữ thông tin 
ngày càng trở nên quan trọng.
2.2. Chỉ mục và lọc thông tin
Sau khi vấn đề thu thập và lưu trữ được giải quyết, thách thức tiếp 
theo là tìm ra cách làm cho thông tin thích hợp có thể có đối với cá 
nhân có quyền tại thời điểm thích hợp. Các khách hàng phải có khả 
537THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
năng định danh, định vị và lọc thông tin sao cho chỉ thông tin thích 
hợp được đáp ứng và tổ chức nó thành các đơn vị quản lý được thông 
qua xếp hạng và phân loại. Tác nhân trí tuệ nhân tạo có thể được sử 
dụng nhiều để định vị và lọc thông tin trong tương lai.
Có hai loại quá trình định vị thông tin khác nhau:
- Loại thứ nhất là hữu ích trong tìm kiếm rộng, trong đó thông tin 
không cần được xác định cụ thể. Thông tin thích hợp bị tản mát 
nhiều trong một số nguồn tin không đồng nhất phân tán. Thách 
thức chính là biểu diễn tích hợp thông tin không liền mạch tới 
khách hàng. Sự lựa chọn là cung cấp các kỹ thuật tổ chức và phân 
loại có hiệu quả bó chùm thông tin thành đơn vị quản lý được. 
- Loại thứ hai bao hàm tìm kiếm trọng tâm, hoàn toàn xác định 
và rất hẹp. Loại này đòi hỏi thông tin rất chi tiết. Vì tính chính 
xác là quan trọng nhất, các kỹ thuật lọc hiệu quả được dùng 
nhằm đáp ứng một lượng thông tin thích hợp nhất.
Mặt khác, giao diện người dùng là rất quan trọng. Thậm chí thông tin 
thích hợp nhất là không có giá trị, nếu khách hàng không hiểu sự trình bày. 
Những thư viện số tốt nhất là đồng dạng nhưng tuỳ biến, giao diện người 
dùng động có thể tích hợp trơn tru các kiểu dữ liệu thông thường từ nguồn 
có cấu trúc và không có cấu trúc với các kiểu dữ liệu đặc biệt (bản đồ, dữ liệu 
ba chiều và dữ liệu đồ họa liên tục). Những hệ thống này kết hợp các giải 
thuật và kỹ thuật cho phép tương hỗ ngữ nghĩa, sao cho người sử dụng có 
thể tìm kiếm ở lĩnh vực tri thức xa lạ bằng từ vựng và bản thể quen thuộc.
Vấn đề quan trọng khác của định vị thông tin là tìm ra quan hệ 
khoá, đặc biệt trong các nguồn tin không đồng nhất phân tán. Khai mỏ 
dữ liệu, trích lọc mẫu, liên kết và dị thường từ những nguồn dữ liệu lớn 
là lĩnh vực nghiên cứu đầy hứa hẹn, có thể tạo ra phần đáng kể đối với 
các ứng dụng thư viện số multimedia cỡ lớn phức tạp.
538 Đỗ Quang Vinh
2.3. Trợ giúp truy cập phổ quát
Mục đích cuối cùng của một thư viện số là truy cập phổ quát, phù 
hợp với mục đích thư viện truyền thống là cung cấp truy cập thông tin 
công cộng. Nhằm thực hiện truy cập phổ quát, thư viện số cần phải giải 
quyết bài toán tích hợp thông tin và các nguồn tin không đồng nhất 
phân tán bằng cách thiết kế và cài đặt giao diện người dùng hiệu quả và 
giải quyết bài toán từ vựng.
Một trong những thách thức với cung cấp truy cập phổ quát là tạo 
ra các kỹ thuật trợ giúp tính đa dạng của thiết bị hiển thị thông tin trong 
điều khiển thông tin. Không chỉ có tính đa dạng của các hệ điều hành 
trong lĩnh vực máy tính, mà còn có tính đa dạng của các thiết bị hiển thị 
như tivi, máy fax, màn hình video và các thiết bị thông tin khác.
Thách thức chủ yếu khác là làm sao cho băng thông hạn chế có thể 
dùng được cho truyền thông tin thích nghi với số lượng người sử dụng 
tăng lên và kho dữ liệu lớn hơn, phức tạp hơn. Để đạt được truy cập 
phổ quát hợp lý, sự sử dụng thông minh băng thông, bao hàm khả năng 
bảo đảm băng thông cho một khoảng thời gian cho trước được định rõ 
và các chính sách trợ giúp sử dụng được ban hành.
2.4. Bảo quản
Vật tải điện tử không dễ phân huỷ như các loại khác. Tuy nhiên, sự 
thay đổi liên tiếp và sự nâng cấp khác ở dạng tài liệu điện tử (như chuẩn 
MARC, SGML, HTML, XML, .v.v...) và các vấn đề không tương thích 
cần phải được quan tâm chu đáo để bảo vệ dữ liệu.
3. NHỮNG THÁCH THỨC VÀ XU HƯỚNG PHÁT TRIỂN CỦA THƯ VIỆN SỐ
Những năm qua, có một số lợi ích khiến sự chuyển tiếp tới và 
sự mở rộng thư viện số được kiên trì ủng hộ. Bốn áp lực và xu hướng 
chính là: kinh tế, sự truy cập, công nghệ mới và các chuẩn.
539THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
3.1. Kinh tế
Sản xuất, lưu trữ, phân phối và tái sản xuất thông tin điện tử là rẻ 
hơn so với thông tin truyền thống. Hơn nữa, các thư viện số có thể hợp 
tác với nhau bằng cách cung cấp một cổng (liên kết) tới thông tin quản 
lý hoặc cung cấp bởi thư viện khác, cho phép chuyên môn hoá cũng 
như duy trì ngân sách thu thập và sản xuất trong khi vẫn cung cấp truy 
cập tới một lượng lớn thông tin. Những áp lực kinh tế khác hướng thư 
viện đến số hoá bao gồm: 
- Lạm phát: sự tăng nhanh giá điều hành thư viện, đặc biệt ở thu 
thập hoặc mở rộng kho tài liệu các tạp chí học thuật. Trong 20 năm 
qua, giá tạp chí tăng vọt lên 400% trong khi giá sách và sách chuyên 
khảo tăng 40%.
- Khối lượng: sự bùng nổ về lượng, tính đa dạng và tính phức tạp 
của thông tin.
- Bảo trì: sự khủng hoảng bảo quản ở các kho tài liệu đang tồn tại, 
đặc biệt là giấy a xít.
- Multimedia: lượng thông tin multimedia tăng lên đòi hỏi các tiện 
ích xem hoặc nghe đặc biệt và các yêu cầu phân thành mục lục và lưu 
trữ khác.
- Sự cộng tác: những ưu điểm từ tài nguyên chia sẻ trong các thư 
viện và nhà cung cấp thông tin khác, cả về mặt kinh tế lẫn về cải thiện 
mức dịch vụ.
- Truyền thông khoa học: bài toán giá rất gay gắt vốn gắn với truyền 
thông khoa học truyền thống (như giá cung cấp truy cập quá mức tới số 
tạp chí học thuật thích hợp, tới bảo trì mức dịch vụ đầy đủ). 
540 Đỗ Quang Vinh
3.2. Cải thiện mức dịch vụ
Thư viện số có khả năng cung cấp một mức dịch vụ không thể đạt 
được trước đây, nghĩa là sự tìm kiếm câu và từ riêng lẻ và phân phát 
thông tin tới người dùng, một thông tin không bị phân huỷ theo thời 
gian, dù nó là văn bản, âm thanh hoặc ảnh. Thông tin trước đây là 
không có sẵn hoặc khó thu thập, hiện nay thường là sẵn có. Truy cập 
thông tin có thể được cải thiện bằng một số cách: thời gian truy cập/
tốc độ tìm kiếm, tính sẵn có, nội dung/tính thích đáng, tính trực quan 
đã cải thiện/giao diện người dùng. Về mặt lịch sử, sự nghiên cứu nâng 
cao chất lượng dịch vụ thư viện tập trung vào sự cải thiện nói chung tới 
truy cập thông tin. Xu hướng hiện tại là tùy biến riêng lẻ hoặc đáp ứng 
các phương pháp truy cập thông tin và giao diện người dùng.
Do đặc điểm sản xuất và phân phối thông tin số, tiết kiệm đáng kể 
về thời gian từ sản xuất tới sử dụng. Thông tin số chỉ cần tạo lập và lưu 
trữ một lần là ngay lập tức sẵn có trên mạng đồng thời tới nhiều người 
dùng, trái với nhiều bản sao chép được tạo ra theo thời gian và cung 
cấp qua các kênh phân phối truyền thống. Chẳng hạn, nhiều Website 
Internet mới đưa ra thông tin ở thời gian thực, không có thời gian trễ 
trong in ấn và phân phối.
3.3. Sử dụng công nghệ mới
Để đáp ứng có hiệu quả nhu cầu thông tin của khách hàng, thư 
viện số cần sử dụng một tổ hợp những thành tựu công nghệ và có khả 
năng thiết kế, xây dựng, quản trị và sử dụng các mạng toàn cầu. Nó 
phải có khả năng thích nghi nhanh với những thay đổi động trong công 
nghệ và đương đầu với kích cỡ, quy mô và tính phức tạp của các mạng 
lẫn thông tin có sẵn truyền qua chúng.
Nhiều thành tựu công nghệ trong sản xuất, quản trị và phân phối 
thông tin là nguyên nhân tạo khả năng cho thư viện số, bao gồm:
541THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
- Vật tải lưu trữ;
- Số hoá hoặc các kỹ thuật bắt thông tin (như công nghệ nhận 
dạng ký tự quang OCR);
- Chỉ số hoá tự động và tổ chức lượng thông tin lớn;
- Tốc độ tính toán;
- Công nghệ mạng (bao hàm nén dữ liệu);
- Tìm kiếm và phục hồi dựa trên nội dung;
- Tìm kiếm và phục hồi dựa trên đặc tính hoặc dựa trên kết cấu;
- Chỉ số hoá toàn văn;
- Khai phá tri thức hoặc tài nguyên;
- Multimedia và siêu văn bản hypertext;
- Các chuẩn: SGML, HTML và Z39.50;
- Các kỹ thuật hướng đối tượng;
- Cải tiến trong thiết kế giao diện người dùng và trực quan dữ liệu.
3.4. Các chuẩn
Để thư viện số thực sự là cổng toàn cầu, quan trọng là có các chuẩn 
kỹ thuật được thế giới chấp nhận đối với biểu diễn, tạo dạng, truyền thông 
tin và các giao thức. Đây là cách duy nhất đảm bảo tính tương thích. Vì 
thế, tính tương thích giữa thiết bị, dữ liệu, thực hành và thủ tục là cần thiết 
nhằm đạt được truy cập phổ quát và trao đổi thông tin điện tử toàn cầu. 
Không may, có nhiều rào cản xã hội, văn hoá và chính trị trước phát triển 
các chuẩn quốc tế, ngay cả khi lợi ích là rõ ràng với tất cả mọi người.
Một số tổ chức quốc tế để hết tâm trí vào phát triển chuẩn, bao 
gồm: Tổ chức chuẩn hoá quốc tế ISO (International Organization for 
542 Đỗ Quang Vinh
Standardization) - có trách nhiệm đối với ngôn ngữ đánh dấu chung 
chuẩn hoá SGML; IETF (Internet Engineering Task Force) quan tâm 
đặc biệt đến kiến trúc Internet, tương tác và vận hành Internet. Một 
trong những chuẩn quan trọng nhất từ viễn cảnh thư viện số là chuẩn 
tìm kiếm thông tin phân tán Z39.50.
Trong khi các chuẩn tài liệu và thông tin như SGML, HTML, TEI, 
VRML (Virtual Reality Modeling Language) và MARC tồn tại, trên thực 
tế, hầu hết sự trao đổi thông tin điện tử xảy ra qua E-mail, FTP nặc danh, 
Gopher và các nền tảng trình duyệt Web với TeX, LaTeX, PostScript, 
PDF, văn bản ASCII và tài liệu định dạng Word. Hầu hết trong những 
dạng này không có các cơ chế phân biệt phần đóng góp của nhiều tác giả 
hoặc nhiều ấn bản, cũng không có khả năng bao hàm các liên kết động 
tới thông tin khác. Nhiều dạng sử dụng trong thực tế là thương mại, giữ 
độc quyền và vì thế chúng không có khả năng truy cập phổ quát.
4. TÍNH LIÊN TÁC NGỮ NGHĨA TRONG THƯ VIỆN SỐ
4.1. Tính liên tác ngữ nghĩa là thách thức lớn
Cách nhìn chia sẻ là một mạng toàn thể các kho phân tán, trong đó 
loại đối tượng bất kỳ có thể được tìm qua các tập hợp chỉ số khác nhau. 
Tương lai gần, các công nghệ phải được phát triển để tìm kiếm trong suốt 
qua các kho phân tán, điều khiển bất kỳ những biến đổi ở các giao thức 
và dạng, nghĩa là quan tâm tính tương hỗ cấu trúc. Tương lai xa, các công 
nghệ phải được phát triển để điều khiển trong suốt những biến đổi ở nội 
dung và tri thức. Đây là những bước đi theo cách đối sánh khái niệm yêu 
cầu bởi người sử dụng với đối tượng chỉ số hoá trong kho tài liệu.
Tính liên tác ngữ nghĩa sâu xa là khả năng của người sử dụng truy 
cập nhất quán và rõ ràng tới các lớp đối tượng số và dịch vụ tương tự, 
phân tán qua các kho không đồng nhất, cùng với tổ chức và dàn xếp 
bù phần mềm cho những biến đổi theo từng điểm. Để đạt được tính 
liên tác ngữ nghĩa đòi hỏi mô tả bằng tìm kiếm, trao đổi đối tượng và 
543THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
các giao thức tìm kiếm đối tượng. Vấn đề ở đây bao hàm định nghĩa, 
sử dụng, bắt và tính toán siêu dữ liệu từ các đối tượng, cả văn bản lẫn 
multimedia, sử dụng mô tả đối tượng tính toán, tổ chức và tích hợp 
các kho không đồng nhất với ngữ nghĩa khác hẳn nhau, bó chùm và tổ 
chức phân cấp tự động thông tin, các giải thuật đánh giá tự động, xếp 
hạng và thẩm định chất lượng, thể loại và các đặc tính thông tin khác.
Định nghĩa và sử dụng siêu dữ liệu, bó chùm và tổ chức phân cấp 
tự động thông tin là các thành phần chính để xây dựng các hệ thống 
phân loại tự động đối với thư viện số.
4.2. Nghiên cứu về tính liên tác 
Các hệ thống phân loại thư viện và các từ điển đồng nghĩa chủ đề riêng 
biệt như phân loại thư viện quốc hội Mỹ, phân loại Dewey và hệ thống 
ngôn ngữ y học thống nhất UMLS là những nỗ lực đáng kể của con người 
để có người quản lý thư viện được huấn luyện giỏi về hệ thống phân loại, 
gán nhãn tri thức nhất quán. Các hệ thống phân loại thư viện và các từ điển 
đồng nghĩa thường bắt danh từ/cụm danh từ và chỉ biểu diễn các quan hệ 
hạn chế. Biểu diễn này thường thô nhưng chính xác.
Các biểu diễn trí tuệ nhân tạo như mạng ngữ nghĩa, hệ chuyên 
gia và bản thể học phản ảnh cách tiếp cận bắt tri thức khác. Các biểu 
diễn như thế thường giàu hơn và mịn hơn. Chỉ các nguyên mẫu thực 
nghiệm trong những lĩnh vực hẹp được tạo ra. Tính hữu ích của chúng 
trong các ứng dụng thư viện số cỡ lớn vẫn là đáng nghi ngờ.
Cách tiếp cận truyền thống để tạo ra các hệ thống phân loại và nguồn 
tri thức trong khoa học thư viện và trí tuệ nhân tạo kinh điển thường được 
xem xét từ trên xuống top-down vì biểu diễn tri thức và dạng được định 
nghĩa trước bởi các chuyên gia và nhà quản lý thư viện có kinh nghiệm. 
Quá trình sáng tạo tri thức là có cấu trúc và hoàn toàn xác định. Cách tiếp 
cận từ dưới lên bottom-up bổ sung để sáng tạo tri thức được đề xuất bởi các 
nhà nghiên cứu về học máy, phân tích thống kê và mạng nơ-ron.
544 Đỗ Quang Vinh
Dựa vào cơ sở dữ liệu thực, các nhà nghiên cứu phát triển các 
chương trình phân đoạn và chỉ mục tài liệu một cách hệ thống, nhận 
dạng mẫu trong các cơ sở dữ liệu multimedia khác nhau. Phân tích các 
cơ sở dữ liệu chứa dữ liệu có cấu trúc và số thường được coi là khai thác 
dữ liệu/khám phá tri thức. Tạo ra tri thức một cách giải thuật từ các cơ 
sở dữ liệu multimedia, đặc biệt là văn bản được coi là lõi của quản trị 
tri thức.
Trong số các kỹ thuật phân tích và chỉ mục ngữ nghĩa được coi là 
có thể mở rộng được, các lớp giải thuật và phương pháp sau đây được 
khảo sát và thử nghiệm trong thư viện số.
 4.2.1. Nhận dạng đối tượng, phân đoạn và chỉ mục
Các kỹ thuật quan trọng nhất trong tìm kiếm thông tin bao hàm 
nhận dạng đặc tính khoá ở đối tượng. Chỉ mục tự động và xử lý ngôn 
ngữ tự nhiên thường được dùng để trích lọc tự động từ khoá/cụm danh 
từ có nghĩa từ văn bản. Các kỹ thuật chỉ mục và phân đoạn dựa vào văn 
bản, màu sắc và hình dạng thường được dùng để nhận dạng ảnh. Đối 
với ứng dụng audio và video, nhận dạng tiếng nói và phân đoạn cảnh 
được dùng để nhận dạng ký hiệu có nghĩa trong luồng audio và video.
Thư viện số phát triển một kỹ thuật phân đoạn danh từ đối với chỉ 
mục tài liệu văn bản. Đối với chỉ mục thuật ngữ, chỉ mục cụm danh từ 
để xác định các khái niệm từ một kho tài liệu. Nó bắt đầu với một quá 
trình mã hoá văn bản để tách biệt ký tự phân cách và các ký hiệu. Nó 
tuân theo chỉ mục tiếng nói từng phần POST và các luật phân đoạn 
danh từ ngữ pháp. Đối với thư viện số, kỹ thuật phân đoạn danh từ sản 
xuất chỉ số chính xác hơn chỉ mục từ đảo và trợ giúp tìm kiếm dựa vào 
nội dung. Bằng cách dùng kỹ thuật xử lý ngôn ngữ tự nhiên mở rộng 
được, thư viện số có khả năng chỉ mục hiệu quả, tự động và chính xác 
các kho tài liệu của riêng nó.
545THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
4.2.2. Phân tích ngữ nghĩa
Một số lớp kỹ thuật được sử dụng đối với phân tích ngữ nghĩa văn 
bản và đối tượng bao gồm:
- Học máy ký hiệu như không gian ấn bản.
- Thu gộp và phân loại dựa vào đồ thị như thu gộp phân cấp của Ward.
- Phân tích thống kê đa mục tiêu như chỉ mục ngữ nghĩa, xác định 
tỷ xích đa chiều, hồi quy.
- Tính toán dựa vào mạng nơ-ron nhân tạo như mạng lan 
truyền ngược, ánh xạ tự tổ chức Kohonen và lập trình tiến hoá/lập 
trình di truyền.
Các kỹ thuật phổ biến này là lựa chọn tốt cho xử lý, phân tích và 
tóm tắt lượng thông tin multimedia lớn, thay đổi nhanh và khác nhau.
Kỹ thuật không gian khái niệm là một ví dụ về phân tích thống kê, 
ngữ nghĩa kho tài liệu thư viện số cỡ lớn. Không gian khái niệm được 
tính toán cho các kho tài liệu có cỡ 100000 trang Web, 1 triệu bản tóm 
tắt công nghệ và 10 triệu bản tóm tắt y học.
4.2.3. Biểu diễn tri thức
Các kết quả từ quá trình phân tích ngữ nghĩa có thể được trình 
bày bằng một trong những biểu diễn tri thức sau đây:
- Các hệ thống phân loại;
- Các mạng ngữ nghĩa;
- Các luật quyết định hoặc logic vị từ.
Nhiều nhà nghiên cứu cố gắng tích hợp các kết quả như thế với các 
cấu trúc tri thức sáng tạo của con người đang tồn tại như bản thể học, 
546 Đỗ Quang Vinh
chủ đề và từ điển đồng nghĩa. Sự kích hoạt dàn trải dựa vào các phương 
pháp suy diễn thường được sử dụng để nghiên cứu kỹ lưỡng các cấu 
trúc tri thức cỡ lớn khác nhau.
4.2.4. Tương tác người - máy HCI
Một trong những xu hướng chính ở hầu hết ứng dụng thư viện 
số là đặt trọng tâm vào HCI đồ họa thân thiện người dùng. Các trình 
duyệt dựa vào Web đối với văn bản, ảnh và video làm người sử dụng 
tăng thêm kỳ vọng về biểu diễn và thao tác thông tin. Những thành tựu 
ở các ngôn ngữ và nền tảng phát triển như Java, OpenGL, VRML và sự 
sẵn có của các workstation đồ hoạ cao cấp làm cho trực quan thông tin 
trở thành một lĩnh vực nghiên cứu nhiều triển vọng.
Những thử nghiệm đầu tiên khẳng định sức quyến rũ đồ hoạ của 
trực quan 3D, đặc biệt đối với thế hệ Web gần đây. Nói riêng, hầu hết 
người sử dụng thư viện số có thể biểu lộ các phong cách nhận thức khác 
nhau và có xu hướng thích 3D hơn. Nghiên cứu HCI nhiều hơn trong 
ngữ cảnh của thư viện số là cần thiết vì sự phong phú về nội dung và 
dạng vật tải thư viện số và tính đa dạng trong phong cách và nhu cầu 
của người sử dụng.
5. ỨNG DỤNG PHẦN MỀM MÃ NGUỒN MỞ XÂY DỰNG THƯ VIỆN SỐ
Ở đây, chúng tôi giới thiệu tóm tắt một số phần mềm mã nguồn 
mở được sử dụng để xây dựng thư viện số:
+ Hệ phần mềm mã nguồn mở, miễn phí Greenstone của dự án 
New Zealand Digital Library đã được sử dụng ở Đại học Quốc gia TP 
Hồ Chí Minh, Trường Đại học Bách khoa TP. Hồ Chí Minh, Thư viện 
Tổng hợp TP. Hồ Chí Minh, Đại học Thái Nguyên, Trường Đại học 
Nông nghiệp, 
547THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ
+ Hệ phần mềm mã nguồn mở, miễn phí DSpace của MIT Librar-
ies và Hewlett-Packard Labs phát triển vào năm 2002, đã được sử dụng 
ở Trường Đại học Đà Lạt, Trường Đại học Hà Nội, Trường Đại học 
Nội vụ Hà Nội, 
+ Hệ phần mềm mã nguồn mở EPrints của University of South-
ampton (Anh);
+ Hệ phần mềm mã nguồn mở, miễn phí Omeka của George Ma-
son University (Mỹ);
+ Hệ phần mềm mã nguồn mở Fedora của Cornell University và 
the University of Virginia Library (Mỹ); 
+ Hệ phần mềm mã nguồn mở, miễn phí mới nhất Invenio của 
Trung tâm Nghiên cứu châu Âu CERN ở Thụy Sỹ.
6. KẾT LUẬN
Thư viện số chịu tác động của xã hội quan trọng cũng như thành 
tựu công nghệ. 
Thư viện số trở nên quan trọng về mặt quốc gia và quốc tế, một 
phần là do sự tăng theo hàm mũ của thông tin trên Web. 
Công nghệ thư viện số sẽ thống trị Internet của thế kỷ 21. Có một 
tỷ kho phân tán trên khắp thế giới, trong đó mỗi một cộng đồng nhỏ 
bảo trì một kho tài liệu tri thức riêng của mình. Chỉ mục ngữ nghĩa là 
có giá trị đối với mỗi một kho, dùng ngữ nghĩa mở rộng nhằm tạo ra 
trợ giúp tìm kiếm và điều hướng cho hệ thống thuật ngữ chuyên ngành 
của mỗi một cộng đồng. Sự chuyển qua khái niệm chỉ mục ngữ nghĩa 
tạo khả năng cho thành viên của một cộng đồng dễ dàng tìm kiếm hệ 
thống thuật ngữ của cộng đồng khác.
548 Đỗ Quang Vinh
TÀI LIỆU THAM KHẢO
1. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge.
2. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic 
Institue and State University.
3. Lesk M. (2005), Understanding Digital Libraries, 2nd Edition, 
Morgan Kaufmann, San Francisco.
4. Lourdes T.D. (2006), Thư viện số và truy cập mở tài liệu lưu trữ, 
Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội.
5. Sun Microsystems (2002), Digital Library Technology Trends.
6. UNESCO Institute for Information Technologies in Education 
(2005), Digital Libraries in Education, Moscow. 
7. Witten I.H., Bainbridge D. (2003), How to Build a Digital Li-
brary, Morgan Kaufmann, San Francisco.
8. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb 
Đại học Quốc gia Hà Nội.

File đính kèm:

  • pdfthu_vien_so_va_phan_mem_ma_nguon_mo.pdf