Hiểu siêu dữ liệu và mục đích của nó
“Siêu dữ liệu là biên mục được thực hiện bởi con người”1 Thế giới công nghệ thông tin đang bàn luận ngày càng nhiều về siêu dữ liệu. Tất cả mọi người ngày hôm nay dường như đang tạo ra một định dạng siêu dữ liệu nào đó. Thường có một thẻ trong một tài liệu HTML để chứa đựng siêu dữ liệu cho các nguồn tài nguyên Internet; các nhà khoa học đã phát triển một siêu dữ liệu để mô tả những bộ gen; các nhà xuất bản có một định dạng siêu dữ liệu để tạo điều kiện cho việc tiếp thị sản phẩm, dịch vụ thông tin và dữ liệu giá tới người bán lẻ. Vậy, điều gì sẽ xảy ra trong một thế giới công nghệ hiện đang dẫn dắt tất cả mọi người tin rằng siêu dữ liệu là câu trả lời? Nếu một sự lựa chọn cho rằng siêu dữ liệu sẽ là câu trả lời, thì câu hỏi đó sẽ là gì và nó có ý nghĩa như thế nào đối với thư viện và những mục lục thư viện (library catalogs)?
Tóm tắt nội dung tài liệu: Hiểu siêu dữ liệu và mục đích của nó
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 29 HIỂU SIÊU DỮ LIỆU VÀ MỤC ĐÍCH CỦA NÓ KAREN COYLE “Siêu dữ liệu là biên mục được thực hiện bởi con người”1 Thế giới công nghệ thông tin đang bàn luận ngày càng nhiều về siêu dữ liệu. Tất cả mọi người ngày hôm nay dường như đang tạo ra một định dạng siêu dữ liệu nào đó. Thường có một thẻ trong một tài liệu HTML để chứa đựng siêu dữ liệu cho các nguồn tài nguyên Internet; các nhà khoa học đã phát triển một siêu dữ liệu để mô tả những bộ gen; các nhà xuất bản có một định dạng siêu dữ liệu để tạo điều kiện cho việc tiếp thị sản phẩm, dịch vụ thông tin và dữ liệu giá tới người bán lẻ. Vậy, điều gì sẽ xảy ra trong một thế giới công nghệ hiện đang dẫn dắt tất cả mọi người tin rằng siêu dữ liệu là câu trả lời? Nếu một sự lựa chọn cho rằng siêu dữ liệu sẽ là câu trả lời, thì câu hỏi đó sẽ là gì và nó có ý nghĩa như thế nào đối với thư viện và những mục lục thư viện (library catalogs)? ĐỊNH NGHĨA SIÊU DỮ LIỆU (METADATA) Trước tiên chúng ta hãy định nghĩa siêu dữ liệu là gì? Một định nghĩa chung nhất cho siêu dữ liệu đó là “dữ liệu về dữ liệu”. Định nghĩa này thoạt nghe sẽ cảm thấy cuốn hút, nhưng nó không giúp chúng ta hiểu toàn bộ siêu dữ liệu là gì. Những gì giải thích sau đây ít cuốn hút hơn, nhưng nó đưa đến một cách hiểu tốt hơn. Với cách này, thì siêu dữ liệu là thông tin được cấu trúc, điều này có nghĩa là nó thuộc phạm trù sáng tạo của con người, và chúng ta không tìm thấy nó trong tự nhiên. Một minh họa tốt cho thông tin được cấu trúc là việc sử dụng kinh độ và vĩ độ để mô tả trái đất và các điểm trên đó. Trái đất trong thực tế hiển nhiên không có những đường kinh tuyến vòng quanh nó, mặc dù hiện nay chúng ta đã quen thuộc nhìn thấy bản đồ và quả địa cầu với những đường kinh tuyến đó, song sự sáng tạo ra kinh độ và vĩ độ cho phép chúng ta nói về các vị trí trên hành tinh này và di chuyển chính xác qua những khoảng cách rộng lớn mà không có một cột mốc nào chỉ dẫn cho chúng ta cả. Minh họa đó dẫn chúng ta đến một đặc tính cần thiết thứ hai của siêu dữ liệu: siêu dữ liệu được con người phát triển cho một mục đích hoặc một chức năng nào đó. Bởi vậy, một bản đồ hệ thống tàu điện ngầm dùng cho người lái tàu với các tuyến đường và điểm chuyển tiếp được mã hóa màu sắc. Bản đồ này thường chỉ vừa đủ đại diện cho tỷ lệ và địa lý thực tế của một thành phố mà tuyến xe điện ngầm đó phục vụ, song nó thực sự hữu ích bởi vì nó đưa ra một bức tranh tập trung của hệ thống tàu điện ngầm, mặc dù nó không quan tâm đến sự chính xác về mặt địa lý. Một bản đồ đường bộ của một khu vực tương tự sẽ thực tế hơn về mặt địa lý, song nếu bản đồ đó do một ban quản lý về BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 30 du lịch thiết kế thì nó thường làm nổi bật lên vị trí các khách sạn, bảo tàng, điểm di tích và bãi đỗ xe. Một bản đồ của một khu vực do một câu lạc bộ đi bộ sử dụng thường tập trung vào xây dựng những hình học và mốc chỉ ra thắng cảnh tự nhiên. Rõ ràng rằng không có một bản đồ duy nhất nào phục vụ mọi nhu cầu, bởi vậy không có một loại siêu dữ liệu nào cho các tài liệu hoặc các đối tượng thông tin khác nhau. Tại sao lại như vậy, chính bởi vì không phải chỉ chính đối tượng thông tin quyết định siêu dữ liệu mà còn cả nhu cầu và mục đích của người tạo ra nó cũng như đối tượng mà nó hướng đến. Nếu không quá siêu hình thì siêu dữ liệu không phải là một thế giới, nó là cách chúng ta nhìn thế giới như thế nào vào một thời điểm vì một mục đích nào đó. Siêu dữ liệu cũng thường được sử dụng như là dữ liệu đại diện cho một vật thực tế. Trong một mục lục thư viện, các tiêu đề (headings) là thông tin đại diện cho những quyển sách trên giá sách. Trong khi người sử dụng thư viện thường khó khăn xem mỗi sách để quyết định họ cần quyển sách nào thì ít ra quyển sách cụ thể vẫn ở trên giá để họ có thể xem qua. Trong môi trường số, vai trò đại diện của siêu dữ liệu là rất quan trọng bởi vì nhiều nguồn tài nguyên không dễ dàng có thể xem toàn văn và nhiều nguồn không chứa đựng dữ liệu rõ ràng mô tả về chính chúng. Sự quan tâm ngày càng tăng đến siêu dữ liệu là một phần trong nỗ lực tổ chức lại thế giới hỗn loạn của các nguồn tài nguyên số và cung cấp sự truy cập và dịch vụ hoàn hảo hơn mà nó chưa từng có trước kia. Nó cũng là một cách trao đổi dữ liệu giữa nơi lưu trữ tài nguyên khác hẳn nhau, đồng thời cho phép tìm kiếm rộng khắp trên nhiều kho dữ liệu số. XML và RDF Hai từ viết tắt mà người ta thường nghe và được sử dụng đồng thời khi họ bàn luận về siêu dữ liệu là XML và RDF. XML là từ viết tắt của eXtensible Markup Language2 và RDF là viết tắt là Resource Description Framework3. Một số người nói về XML và RDF dường như chúng chính là những định dạng siêu dữ liệu, nhưng điều này là một sự nhầm lẫn giữa khổ mẫu (form) và nội dung. Cả XML và RDF thực tế là những định dạng dữ liệu chung mà người ta có thể dùng cho nhiều ứng dụng. Cụ thể, XML thường được sử dụng như là định dạng tài liệu và là một định dạng mở rộng của HTML. Nếu một nhân viện thư viện chưa quen thuộc với cấu trúc biểu ghi XML thì nó trông có vẻ khá phức tạp và bí ẩn. Thực tế thì định dạng cơ bản của nó khá đơn giản mặc dù người ta có thể dùng nó để tạo ra những biểu ghi dữ liệu phức tạp. Nếu một thủ thư biết về một biểu ghi MARC như là có các trường dữ liệu được mô tả bởi các thẻ trường (tags), ví dụ như sử dụng thẻ “245” ám chỉ cho thẻ “nhan đề” - “title”: 245$a Hamlet, Prince of Denmark sau đó XML chỉ là một cách khác tạo ra thẻ nhằm gắn phần tử dữ liệu vào trong đó, mặc dù với tài liệu XML nhất thiết phải đưa ra thẻ bắt đầu và thẻ kết thúc (với một dấu “/” trước tên thẻ đó) bao lấy mỗi phần tử dữ liệu: Hamlet, Prince of Denmark BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 31 Những thẻ này có thể là bất kỳ cái gì mà chúng ta muốn chúng như vậy, miễn là chúng cần được định nghĩa trước trong một cấu trúc định nghĩa định dạng dữ liệu. Bởi vậy, nếu muốn, người ta có thể định nghĩa bằng bất kỳ kí tự nào cho một thẻ nhan đề: Hamlet, Prince of Denmark Hamlet, Prince of Denmark XML, cũng như thẻ MARC và trường con, cần thiết phải là một cấu trúc có thứ bậc. Lợi thế đối với MARC21 đó là nó có nhiều mức phân cấp tới mức cần thiết chứ không phải chỉ hai cấp độ của thẻ và trường con. Trong tài liệu XML, sự phân cập này được lồng vào nhau như “búp bê Nga” tới mức cần thiết. Định dạng RDF là một hoặc hai bước tiến vượt xa hơn XML. RDF nhấn mạnh vào mối quan hệ giữa các phần tử dữ liệu. Một mối quan hệ chính trong RDF đó là “về” (“about”). Ở đâu một nguồn tài nguyên Web là đối tượng của tài liệu RDF, và các trường khác trong tài liệu đó là sự mô tả về nguồn tài nguyên đó. Đó là một cách hiểu đơn giản nhất. RDF cũng có thể tận dụng các mối quan hệ như: subClassOf subPropertyOf member isDefinedby và những mối quan hệ khác. RDF là một cấu thành cần thiết của một nỗ lực mà người ta gọi là “Web ngữ nghĩa”4 (“Sementic Web”), một cố gắng của tổ chức 3WC (World Wide Web Consortium) nhằm bổ sung một cấu thành có ngữ nghĩa vào việc chia sẻ dữ liệu qua Internet. RDF phức tạp hơn và ít được sử dụng hơn XML, và người ta vẫn chưa rõ ràng liệu nó có kế thừa như là một ngôn ngữ chung để mô tả thế giới Web không. Dường như rõ ràng rằng nó đòi hỏi chúng ta phải hiểu sâu những khái niệm có tính triết học nhất định hơn là đối với XML và số người thấy nó vốn đã khó hiểu (và tôi ở trong nhóm đó) lớn hơn nhiều số người cho nó là một giải pháp. (Ví dụ dưới đây của một biểu ghi sử dụng một định dạng đơn giản của RDF). SIÊU DỮ LIỆU CHO ĐỐI TƯỢNG GIỐNG TÀI LIỆU Như là các thủ thư, chúng ta sẽ làm việc với siêu dữ liệu mô tả tài liệu và các đối tượng giống tài liệu (Document-like objects) mặc dù chúng ta thấy công việc của mình chính là lưu trữ, tổ chức, và cung cấp dịch vụ liên quan đến nhiều loại siêu dữ liệu khác nhau, ví dụ như siêu dữ liệu khoa học. Song, đối với bài báo này, tôi sẽ tập trung vào siêu dữ liệu mô tả tài liệu, và xoay quanh một vấn đề chính là siêu dữ liệu này sẽ khác với mục lục của thư viện như thế nào? Chúng ta có thể ghi nhận rằng các định dạng siêu dữ liệu giới thiệu trong bài báo này (Dublin Core, MODS và METS) chỉ là ba trong số nhiều định dạng đang được sử dụng hiện nay, song ba định dạng này là ba tiêu chuẩn được sử dụng thường xuyên nhất trong các thư viện số. Biên mục thư viện rõ ràng là điều kiện tuyệt đối cần thiết của mô tả siêu dữ liệu tài liệu. Nó có thể truy tìm nguồn gốc BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 32 về tận giữa những năm 1800 với sự thống trị của Jewett và Panizzi. Nó đã quen thuộc, thậm chí với một người có chút kiến thức trong thế giới nói tiếng Anh (Anglo-American). Số mục lục thư viện hiện có vừa đủ để áp đảo bất cứ lược đồ siêu dữ liệu nào khác sẽ được sử dụng cho sách (mặc dù không thể dùng cho bài báo tạp chí). Bởi vậy, khi người phát triển trong các ứng dụng Internet cần siêu dữ liệu cho các tài liệu truy cập trực tuyến, họ đã không chấp nhận một tiêu chuẩn sẵn có của thư viện. Trong thực tế, một tiêu chuẩn siêu dữ liệu tài liệu thường thấy nhất trong những ứng dụng không phải thư viện đó là Dublin Core. Để hiểu được nguyên nhân tai sao lại như vậy, chúng ta cần xem xét đến mục đích của nó. Dublin Core Bởi vì từ “Dublin” trong “Dublin Core” ám chỉ cho thành phố ở bang Ohio, trụ sở của OCLC và bởi vì OCLC là tổ chức hỗ trợ tiêu chuẩn Dublin Core (DC), cho nên người ta thường tưởng lầm rằng DC là một sự kế thừa nào đó từ truyền thống của thư viện. Trên thực tế, đã có nhiều nỗ lực để chia tách chuẩn Dublin Core khỏi những tiêu chuẩn truyền thống của thư viện, và nỗ lực đó đã phần lớn thành công. Mục đích của Dublin Core là cung cấp một bộ phần tử dữ liệu đơn giản cho việc mô tả tài liệu và các đối tượng khác trên Internet. Nó sẽ đơn giản tới mức bất kỳ ai cũng có thể tạo ra một biểu ghi cho tài liệu riêng của mình. Dublin Core có 15 phần tử dữ liệu chính (“core”)5, mà những phần tử này sẽ được chi tiết hóa hơn bằng việc sử dụng các bộ chuẩn hóa dữ liệu (qualifiers). Những phần tử chính này có ý nghĩa rất mở rộng, bởi vậy thay thế thẻ Tác giả (Author), nó sẽ là “Người tạo lập” (Creator), song thẻ “Người tạo lập” có thể được gán cho tên tác giả, người tạo lập hoặc người sáng tác vv. Tôi có thể dễ dàng làm một biểu ghi Dublin Core cho bất thứ cái gì, kể cả cho chính bài báo mà tôi vẫn chưa viết xong này: creator = Karen Coyle title = Understanding Metadata and its Purpose date = December, 2004 description = The first draft of an article for Journal of Academic Librarianship subject = metadata type = text Một hy vọng của tiêu chuẩn Dublin Core đó là mọi tài liệu trên Internet sẽ có được sự mô tả thư tịch riêng của chúng, và chúng sẽ có những phần tử dữ liệu được mã hóa cho các phần thông tin như tác giả, nhan đề, ngày tháng. Theo một ý nghĩa khác, tiêu chuẩn này đại diện cho một quan điểm rất giống như một thủ thư, điều này có nghĩa là một tài liệu có thể được tìm theo tên tác giả hoặc nhan đề. Trên Internet ngày hôm nay, Dublin Core quả thật đã được sử dụng ngày càng nhiều mặc dù nó vẫn chưa tạo ra một mục lục của nguồn tài nguyên Internet. Thay vào đó, Dublin Core đã trở thành một siêu dữ liệu mô tả tài liệu cho nhiều ứng dụng dựa trên Web. Một ví dụ của ứng dụng này đó là “Creative Commons License”. Creative Commons6 là cả một dịch vụ Web và một phong trào có tính xã hội. Nó được phát triển bởi Larry Lessig, một BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 33 giáo sư luật trường đại học Standford nổi tiếng về việc bị chỉ trích đối với sự tăng hiệu lực của luật bản quyền không có lợi cho quyền của công chúng đối với việc sử dụng và sử dụng lại những ý tưởng của người đi trước7. Với sự quan tâm tạo điều kiện cho người tạo lập có thể cho phép sử dụng những tác phẩm của mình, một bộ những cấp phép đã được phát triển để dễ dàng gắn vào các tập tin trên Internet. Những bộ cấp phép này xác lập rằng người tạo lập lên một tác phẩm cho phép sử dụng và sử dụng lại cái gì. Ngoài sự cấp phép này ra, phần mềm Creative Commons cho phép người tạo lập gắn thêm một phần nhỏ những gì mà các thủ thư gọi là siêu dữ liệu “mô tả”: Người tạo lập (creator), nhan đề (title), và ngày tháng (date), và mô tả ngắn về một tiêu đề. Họ sử dụng những phần tử dữ liệu Dublin Core là creator, title, date, description (được mã hóa trong một biểu ghi như là” dc:creator”, “dc:title”, ). (Hình 1). Để sử dụng phần mềm Creative Commons License không cần hiểu về luật bản quyền hoặc các thoả thuận hợp đồng, vì gần như bất kỳ ai đều có thể dễ dàng hiểu các phần tử mô tả. Theo nghĩa này, Dublin Core đã đạt được mục đích cung cấp một bộ phần tử chính có thể dễ dàng nhúng vào nhiều ứng dụng Web khác nhau. Một trong những điều gì làm cho Dublin Core dễ dàng sử dụng đối với bất kỳ ai, đó là nó không gắn liền với một quy tắc biên mục. Đây là cái gì đi ngược lại khuynh hướng của nguyên tắc biên mục thư viện và nó nhất định làm giảm đi khả năng có thể sử dụng lại nội dung của các biểu ghi Dublin Core. Có nhiều sự mô tả mỗi phần tử dữ liệu theo tiêu chuẩn Dublin Core, bởi vậy ý nghĩa của một phần dữ liệu được định nghĩa chung chung, song biên mục vẫn hợp lệ khi biên mục một phần tử dữ liệu “Creator=Karen Coyle cũng như “Creator = Coyle, Karen”. Lợi thế của điều này đó là Dublin Core có thể được sử dụng bởi nhiều cộng đồng và văn hóa khác nhau; và điều bất lợi hiển nhiên đó là nội dung của các trường dữ liệu không nhất quán hay thống nhất trên mọi ứng dụng, điều đó làm cho sự vận hành liên kết trở lên khó khăn. Hình 1 Creative Commons License với Phần tử Dữ liệu Dublin Core in đậm BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 34 MODS: Một khổ mẫu MARC nhẹ nhàng và đơn giản hơn Khổ mẫu MARC một biểu ghi được cấu trúc chuyên biệt ở mức cao cho việc mã hóa thông tin thư tịch. Nó nổi tiếng trong thế giới thư viện và được hậu thuẫn bởi nhiều hệ thống thư viện tại Hoa Kỳ, Canada và nhiều nước khác, đặc biệt trong thế giới các quốc gia nói tiếng Anh. Trong một môi trường nối kết mạng mà ở đó siêu dữ liệu mô tả được chuyển tiếp qua nhiều hệ thống và có thể gắn liền vào trong hoặc với nhiều loại siêu dữ liệu khác, thì quả thật lý tưởng để sử dụng biểu ghi MARC cho mục đích này. Tuy nhiên, vấn đề của MARC đó là việc nhúng dữ liệu này nói chung đòi hỏi sử dụng một cấu trúc dữ liệu XML, và MARC không phải một biểu ghi XML. Thư viện Quốc hội Mỹ đã tạo ra một cách nhằm biên dịch biểu ghi MARC sang XML, nhưng đã không nhận được sự hưởng ứng, vì một lý do có thể nhận thấy, đó là: biểu ghi MARC lớn và chi tiết hơn là mọi hệ thống có thể cần, và việc sử dụng các thẻ số và mã trường con làm cho mọi người khó hiểu nếu không được đào tạo đầy đủ. Bởi vậy, người ta đã cần một phiên bản MARC nhẹ nhàng và đơn giản hơn mà có thể chấp nhận những phần tử dữ liệu chính từ một biểu ghi MARC và chuyển chúng vào một khổ mẫu XML dễ dàng hiểu hơn. Vậy, tiêu chuẩn MODS đã ra đời (Tiêu chuẩn Mô tả Đối tượng Siêu Dữ liệu – Metadata Object Description Standard). MODS sử dụng những thẻ mà người ta dễ dàng hiểu để thay thế cho những thẻ bằng 3 chữ số và mã trường con của MARC (vd., “Nhan đề” (“title”) thay thế cho “245”). Nó bỏ qua phần lớn các phần tử dữ liệu của trường cố định, ngoại trừ những mã khổ mẫu có tính vật lý (của mã 007) và nhiều mã dành cho thể loại (của mã 008). Nó cũng giới thiệu một số cách thực hành hiệu quả và cách tân hơn. MODS định nghĩa một cấu trúc gọi là “Tên” (“Name”) đại diện nhiều trường bao gồm cả trường con để chứa đựng thông tin tên cá nhân, công ty và cho tên một hội nghị. Cấu trúc này có thể được sử dụng bất kỳ khi nào một tên xuất hiện, nó có thể là mục dữ liệu chính, phụ hoặc chủ đề. Bởi vậy, với một trường tên như: Shakespeare, William 1564– 1616 Có thể được sử dụng như một trường tác giả, hoặc có thể trở thành một phần của “tiêu đề đề mục” (Subsject Heading): Shakespeare, William 1564– 1616 Bibliography Periodicals Mặc dù được sinh ra từ MARC21 và chi tiết hơn nhiều tiêu chuẩn Dublin Core, những MODS lại ít quy tắc biên mục hơn MARC21. Tương tự như Dublin Core, không có nhiều trường phụ thuộc BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 35 và tất cả các trường đều có thể lặp lại. MODS chứa đựng nhiều giá trị từ MARC, song nó cũng có những nhiều điểm khác với MARC21: Không có những khái niệm về “dẫn mục chính” (“main entry”) hoặc “dẫn mục phụ” (“added entry”), tất cả tác giả đơn giản chỉ là “tác giả”; và một biểu ghi có thể có nhiều nhan đề mà không có một “nhan đề chính” (“main title”). Khi những biểu ghi MARC21 được biên dịch tới MODS, thì người ta có một biểu ghi trong XML mang dấu ấn của MARC. Biểu ghi MODS có thể được tạo ra từ siêu dữ liệu thư tịch mà không khởi đầu từ mục lục thư viện, ví dụ như trích dẫn của bài báo, và nó thường được sử dụng trong cở sở dữ liệu có sự trộn lẫn của mục lục thư viện và dữ liệu biên mục khác. METS – Một siêu dữ liệu cấu trúc Đó là một định dạng siêu dữ liệu tài liệu và mục đích của nó không phải là “mô tả” theo nghĩa biên mục của thuật ngữ đó. Một định dạng siêu dữ liệu đang được sử dụng phổ biến bởi nhiều thư viện số và lưu trữ số gọi là Tiêu chuẩn Mã hóa và Truyền Siêu dữ liệu (METS – Metadata Encoding and Transmission Standard). METS đóng vai trò như là môt tiêu chuẩn “gói siêu dữ liệu” (“wrapper”) và nó giúp tái đóng gói các tập tin cùng tạo lên một đối tượng số. Không giống như một cuốn sách đóng tập, tài liệu số thường được tạo lên từ nhiều tập tin riêng rẽ đại diện cho những trang của cuốn sách hoặc các đơn vị số khác. Và không giống như một cuốn sách in, người ta thường không nhìn thấy trang bìa hoặc trang nhan đề, cũng không có một hình ảnh thu nhỏ nào thông qua trang sách để tìm thấy một vị trí cụ thể trong cuốn sách. Chúng ta hãy nghĩ về tiêu chuẩn METS như là một tiêu chuẩn đóng tập, đóng gói và di chuyển cho một nhóm tập tin số. Nó cũng bao gồm thông tin kỹ thuật cần thiết để quản lý và hiểu những tập tin đó, như định dạng tập tin, công nghệ được sử dụng để số hóa nếu tiêu đề đó đã bắt đầu đời sống của nó trên giấy, và sự chuyển đổi sang hình thức số và nén số đã được sử dụng đối với những tập tin đó. Điều gì mà tiêu chuẩn METS không định nghĩa đó là siêu dữ liệu mô tả. Thay vào đó, nó cho phép người ta tạo ra biểu ghi METS nhúng bất cứ siêu dữ liệu mô tả nào mà họ mong muốn để sử dụng cho tài liệu đó. Điều này minh họa một đặc tính quan trọng của thế giới siêu dữ liệu, mà chúng ta đã thấy trong ví dụ của phần mềm Creative Commons: siêu dữ liệu có thể được sử dụng lại thay vì sáng tạo ra nó. Những biểu ghi METS thường mang siêu dữ liệu mô tả theo tiêu chuẩn Dublin Core, hoặc MODS. SIÊU DỮ LIỆU VÀ MỤC LỤC THƯ VIỆN Vậy tất cả những gì đề cập ở trên có thể làm việc với mục lục thư viện, và quan trọng hơn cả, liệu siêu dữ liệu có thay thế mục lục thư viện không? Như tôi đã đề cập ở trên, một trong những vấn đền chính đối với biểu ghi Dublin Core đó là thiếu qui tắc biên mục, và bởi thế hầu như không có được sự dự báo giữa cộng đồng người dùng hoặc các dự án thực hiện về nội dung của những trường dữ liệu. Cái gì mà việc biên mục và mục BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 36 lục thư viện có thể đem đến đó là khả năng tương thích ở mức cao về dữ liệu chứa đựng trong các biểu ghi. Sự tương thích này tạo ra một dịch vụ cho người dùng. Người dùng có thể chuyển từ một mục lục thư viện này đến một mục lục thư viện khác mà vẫn đảm bảo thống nhất về dữ liệu. Song, giá trị chính của sự tương thích này là nó tạo cho chúng ta khả năng biên mục hợp tác và trao đổi biểu ghi thư tịch giữa các thư viện và hệ thống thư viện với nhau. Điều này cũng cho phép các nhà cung cấp hệ thống thư viện tạo ra một sản phẩm có thể sử dụng ở bất kỳ thư viện nào, ví như phiếu mục lục theo kích cỡ tiêu chuẩn có thể đề vừa bất kỳ ngăn kéo mục lục phiếu nào. Hiệu quả từ sự tương thích này thật là to lớn và cộng đồng thư viện phụ thuộc vào điều này để biên mục các tài liệu gốc của mình. Song, vì thư viện đang chuyển sang việc tổ chức những tài liệu ít có tính truyền thống hơn, cho nên cả qui tắc biên mục và hệ thông thư viện trước kia đều không đem đến các giải pháp khả thi. Hãy tưởng tượng rằng bạn có một bộ lữu trữ ảnh về thành phố của quê hương bạn kể từ đầu thế kỷ 20, và bạn muốn nó sẵn có trên Web. Và chúng ta giả sử bạn có khoảng một nghìn bức ảnh trong số chúng mà hầu như bạn không biết về tác giả chụp chúng là ai, và thường không rõ về ngày tháng chụp. Bạn chỉ có thể thấy rằng ai đó đã ghi bằng bút chì lên phía sau bức ảnh cho biết bức ảnh này chụp cái gì. Vd., “Main Street, circa 1910”. Để biên mục và tạo ra một biểu ghi MARC21 của những bức ảnh này thường rất tốn thời gian và thường kết quả là biểu ghi sẽ có rất ít thông tin. Thay vào đó, bạn có thể tạo ra một biểu ghi Dublin Core đơn giản như sau: date = circa 1910 description = Main Street Biểu ghi này có thể không được nhập vào một mục lục trực tuyến mặc dù biểu ghi như thế này có thể là điểm truy cập cho các công nghệ tìm kiếm siêu dữ liệu cho phép một tìm kiếm duy nhất để có thể tìm kiếm với nhiều cơ sở dữ liệu có định dạng siêu dữ liệu khác nhau. Lợi ích chính đó là những biểu ghi như thế này có thể được nhân viên thư viện tạo ra nhanh và dễ dàng mà không cần phải đào tạo nhiều. Bởi thế, siêu dữ liệu cho một nguồn tài nguyên nào đó dễ dàng có thể được tạo ra, mà nếu theo cách mô tả khác thường thì không có thông tin gì cả. Tiêu chuẩn siêu dữ liệu như Dublin Core thiếu cấp độ dự báo cho phép sử dụng lại một cách hệ thống trên diện rộng những biểu ghi. Trên thực tế, những khổ mẫu siêu dữ liệu này, và nhiều khổ mẫu dữ liệu khác thường được sử dụng trong các hệ thống riêng biệt và đơn lẻ. Dù rằng thư viện đã bắt đầu trao đổi với nhau từ cuối thế kỷ 19, nhưng chúng ta mới thấy những hệ thống riêng biệt này bắt đầu trao đổi dữ liệu, cho nên các nhà phát triển đi đến một kết luận rằng, không phải cấu trúc dữ liệu, mà là nội dung của những biểu ghi siêu dữ liệu làm nên sự khác biệt giữa một giải pháp trên một hệ thống duy nhất và hệ thống mục lục gắn kết. Nói một cách khác, chúng ta có thể thấy khi siêu dữ liệu tăng lên và trở nên đủ lớn thì nó sẽ trở thành mục lục thư viện. BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 37 CHÚ GIẢI VÀ THAM KHẢO 1. Cách giải thích này lần đầu tiên được đưa ra bởi Tom Delsey của Thư viện Quốc gia Canada nói (“Metadata: Cataloging for men”), và Michael Gorman (‘‘. . . metadata is cataloging done by men.’’). 2. Tiêu chuẩn XML được định nghĩa bởi 3WC ( song nhiều tiêu chuẩn ứng dụng XML lại được định nghĩa bởi nhiều nhóm khác, ví dụ như nhóm tiêu chuẩn kinh doanh điện tử (e-business standard group), OASIS ( 3. 4. 5. 15 phần tử Dublin Core là như sau: Contributor, Coverage, Creator, Date, Description, Format, Identifier, Language, Publisher, Relation, Rights, Source, Subject, Title, Type ( 6. 7. Lawrence Lessig là một tác giả của các cuốn sách “Code and Other Laws of Cyberspace (New York: Basic Books, c1999); The Future Of Ideas: The Fate Of The Commons In A Connected World (New York: Random House, 2001); Free Culture: How Big Media Uses.Technology And The Law To Lock Down Culture And Control Creativity (New York: Penguin Press, 2004)”. 8. “Siêu dữ liệu là Phiếu mục lục GIỐNG NHAU: • Được biên mục bởi con người; • Trình bày lý lịch của tài liệu hay còn được gọi là thư tịch (biểu ghi thư tịch – bibliographic record và siêu dữ liệu thư tịch – bibliographic metadata): tác giả, nhan đề, năm xuất bản, vv; so sánh với hộ tịch: họ và tên, ngày sinh, vv KHÁC NHAU: • Phiếu mục lục tách rời kho tài liệu; trong khi siêu dữ liệu thường kèm theo nội dung tài liệu; • Những thành phần mô tả của phiếu mục lục hay biểu ghi thư tịch thường tách rời theo từng cụm từ hay nhản trường (MARC) được trao đổi dưới dạng liên biến (analog); trong khi thành phần mô tả siêu dữ liệu được đóng gói bằng công nghệ web và trao đổi dưới dạng kỹ thuật số (digital). được thể hiện trong môi trường số” BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 10/2007 38 Minh họa một biểu ghi thư tịch MARC so với siêu dữ liệu thư tịch MARC-XML và Dublin Core trong OPAC của Thư viện ĐH Khoa học Tự nhiên TP. HCM Biểu ghi thư tịch MARC của nhan đề sách “Tổng quan khoa học thông tin và thư viện” Siêu dữ liệu thư tịch MARC-XML và Siêu dữ liệu thư tịch Dublin Core (được đóng gói bằng ngôn ngữ XML)
File đính kèm:
- hieu_sieu_du_lieu_va_muc_dich_cua_no.pdf