Este documento es una traducción al castellano del informe del grupo incubadora del W3C Incubator 25 de Octubre 2011 "Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets", publicada el 25 de octubre de 2011. La presente traducción se concluyó el 24 de noviembre de 2011.

La versión original en inglés es el único documento válido y se encuentra en: http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/
Puede ver la última versión del documento en inglés en: http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/

Se ha tratado de respetar al máximo el contenido del documento original en inglés, adaptando la expresión al español para ayudar a una mejor comprensión del mismo. Por tanto, esta traducción puede contener errores, en ningún caso achacables a sus autores originales. Cualquier sugerencia de corrección, duda o comentario sobre la misma puede realizarse dirigiéndose a alguno de sus autores: Tomás Saorín Pérez y Juan Antonio Pastor Sánchez.

W3C W3C Incubator Report

Grupo Incubadora de Datos Enlazados Bibliotecarios: Conjuntos de Datos, Vocabularios controlados y Conjuntos de Elementos de Metadatos

Informe del grupo incubadora del W3C Incubator 25 de Octubre 2011

Versión original (en Inglés):
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/
Última versión publicada:
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Autores
Antoine Isaac, Europeana and Vrije Universiteit Amsterdam, Netherlands
William Waites, University of Edinburgh (School of Informatics), UK
Jeff Young, OCLC Online Computer Library Center, Inc., US
Marcia Zeng, Kent State University, US (W3C Invited Expert)
Traductores (versión en castellano):
Tomás Saorín Pérez, Universidad de Murcia
Juan Antonio Pastor Sánchez, Universidad de Murcia

Resumen

La misión del Grupo Incubadora de Datos Enlazados Bibliotecarios del W3C, comisionado entre Mayo de 2010 y Agosto de 2011, ha consistido en “ayudar a la aumentar la interoperatibilidad global de los datos bibliotecarios en la web, reuniendo a personas implicadas en las actividades de la web semántica – centradas en los datos enlazados – en un sentido amplio en el campo de las bibliotecas, a partir de iniciativas ya existentes, e identificando vías de colaboración futuras”. En los Datos Enlazados, los datos se expresan usando estándares como RDF (Marco para la Descripción de Recursos), el cual especifica relaciones entre objetos, y URIs (Identificadores Uniformes de Recursos o direcciones web).

Este informe sobre Conjuntos de Datos, Vocabularios controlados y Conjuntos de Elementos de Metadatos es un complemento del informe principal realizado por el grupo. A partir de los datos recopilados en los Casos de Uso, y con los añadidos del grupo de expertos, este documento proporciona un resumen del estado actual de los componentes estructurales de los Datos Enlazados, en especial aquellos que están más relacionados con los esfuerzos llevados a cabo desde el área de las bibliotecas.

Estatus de este documento

Esta sección describe el status de este documento en el momento de su publicación. Otros documentos pueden sustituirlo. Está disponible una lista de los Informes Finales de Grupos Incubadora. También se puede consultar un índice de los informes técnicos del W3C en: http://www.w3.org/TR/.

La publicación de este documento por parte del W3C, como parte de la Actividad Incubadoras W3C, no indica que el W3C asuma su contenido, ni que existan o vaya a dedicar recursos para los asuntos en él recogidos. La participación en los Grupos Incubadora y la publicación de los Informes de los Grupos Incubadora en el sitio web del W3C son beneficios de la pertenencia al W3C.

Los Grupos Incubadora tienen la misión de producir un trabajo que pueda ser implementado libre de derechos, como se contempla en la Política de Patentes del W3C. Los participantes en este Grupo Incubadora han aceptado licenciar sus resultados conforme a la Política de Patentes del W3C en el caso de que partes de este informe sean posteriormente incorporados a Recomendaciones del W3C.

Índice de contenidos

1 Introducción: Alcance y definiciones

Este documento es uno de los resultados del Grupo Incubadora del W3C para Datos Enlazados Bibliotecarios. Es un intento de identificar un conjunto de recursos útiles para la creación o consumo de datos enlazados en el campo de las bibliotecas. Está concebido tanto para novatos en el área que precisan de una introducción en el área de los datos enlazados bibliotecarios, como para expertos que buscan una visión general rápida para actualizar sus conocimientos. En el informe final del Grupo Incubadora se sugiere que el éxito de los datos enlazados en cualquier campo depende de la habilidad de los profesionales para identificar, reutilizar o conectar los conjuntos de datos y los modelos de datos ya existentes. Los datos enlazados bibliotecarios no son una excepción. Este esfuerzo de identificación es crucial, dada la complejidad y la variedad de los recursos de datos en el campo de las bibliotecas. Muchos de ellos están ya disponibles como datos enlazados en el momento de redactar este informe. Se espera que el documento sirva de ayuda a aquellos que han desarrollado estos proyectos.

Este documento también se propone proporcionar a la comunidad de datos enlazados la oportunidad de comprender el punto de vista específico, los recursos y la terminología usada por parte del colectivo bibliotecario para sus datos. Al mismo tiempo  servirá de ayuda a la los profesionales de las Bibliotecas, Información y Documentación a comprender el modo en el que los conceptos relacionados con los datos enlazados encajan con sus propias tradiciones profesionales. En intentos anteriores de explicación de la terminología bibliotecaria se han identificado los siguientes tipos de recursos de interés, que no son excluyentes entre sí (como se hace evidente a lo largo del documento):

Este informe se concibe como un punto de entrada para que los profesionales puedan encontrar, comprender y explorar algunos ejemplos de conjuntos de metadatos, vocabularios controlados y conjuntos de datos. Se basa fundamentalmente en el informe de Casos de Uso del Grupo Incubadora. No se pretende realizar un listado exhaustivo de los diferentes recursos relacionados con la “Nube” de Datos Enlazados del sector de las bibliotecas. Se espera que este documento cumpla un papel de complemento motivador para herramientas con listados más completos, como Motores de Búsqueda de Web Semántica (como Sindice o Falcons), otros estudios como Linked Open Vocabularies, o registros como Open Metadata Registry, Schemapedia o Data Hub. Por supuesto, se anima a los lectores del documento a usar estas fuentes, de la misma forma que hizo el grupo con el registro “Data Hub”.

2 Datos Enlazados Bibliotecarios y la "Central de Datos (Data Hub)

La "Central de Datos" (o “Data Hub”) es un registro de datos. Es un sitio en el que se puede compartir información sobre paquetes de datos de cualquier tipo y describirlos de forma colaborativa. Aunque el registro no es en sí mismo un servicio conforme a las pautas de datos enlazados, existe una versión de la información que contiene adaptada a ellas. Gran parte de los datos descritos están en formato de datos enlazados.

El “Data Hub” organiza los paquetes de datos en grupos que están a cargo de una comunidad. Se usa para mantener información sobre la pertenencia en un ámbito más amplio denominado  “Nube de los Datos Abiertos Enlazados” (LOD Cloud), así como para el subconjunto que pertenece al área Datos Enlazados Bibliotecarios (LLD), que incluye, en la forma definida anteriormente, tanto conjuntos de datos como vocabularios controlados. Los responsables de estos grupos han alcanzado un conjunto de convenciones para proceder a un etiquetado en el “Data Hub” que permita describir los paquetes a incluir en el mismo. Esta documentación, detallada a continuación, incluye información sobre el volumen de datos, recursos de ejemplo y métodos de acceso (por ejemplo el protocolo y lenguaje de consulta SPARQL para RDF y Puntos de Acceso SPARQL) así como un aspecto crucial; enlaces a otros paquetes de datos. Véase:

Añadir un nuevo paquete de datos al Data Hub ayuda a su visibilidad, ya que se trata de un catálogo consultado con bastante frecuencia. Seguir las convenciones de los grupos LOD cloud y  LLD garantiza que sus relaciones con otros paquetes están documentadas y que se contabilizarán como parte del corpus creciente de los Datos Enlazados. Los Conjuntos de Datos aquí referenciados aparecerán en diagramas y visualizaciones que se producen en el marco del estudio de los Datos Enlazados. Al tener los datos documentados de forma consistente es posible construir herramientas para alcanzar una mayor comprensión de su naturaleza y de la forma en la que encajan juntos. Además de ser interesante por sí mismo, este proceso es de importancia debido a que esta clase de conocimiento hace más fácil determinar cuál de los paquetes de datos es más apropiado para una determinada función; esto es, los datos resultan más fáciles de utilizar.

Para ilustrar con un ejemplo el resultado de este proceso, consideremos el siguiente diagrama:

Snapshot of the graph of interrelated Library Linked Data sets from the Data Hub

(Para un gráfico actualizado consultar: http://semantic.ckan.net/group/?group=http://ckan.net/group/lld)

Los círculos de color brillante representan los paquetes que forman parte del Data Hub del grupo de Datos Bibliotecarios. Los círculos grises a los paquetes que están conectados, pero no pertenecen a dicho grupo (por lo general suelen pertenecer al Grupo de Datos Abiertos Enlazados). El tamaño de los círculos y el grosor de las líneas está en relación con el tamaño de los datos y el número de enlaces respectivamente salientes (representados mediante una escala logarítmica).

Este gráfico se genera de forma automática, a partir de un algoritmo, y representa el estado del Grupo de Datos Enlazados Bibliotecarios en el “Data Hub” en el momento de publicación de este informe. Ha cambiado de forma significativa desde que dio comienzo el proyecto, y con toda seguridad mostrará un aspecto diferente en el futuro próximo. Como ejemplo, para la fecha de escritura del informe el Fichero de Autoridades de Nombres Personales de la Biblioteca del Congreso acaba de ser publicado y aparece sin conexiones con la periferia, pero es probable que ésto cambie en pocos meses.

El gráfico demuestra la dificultad de representar una web de enlaces compleja y en evolución, dado el crecimiento explosivo de la Nube de Datos Enlazados Abiertos.
Sin embargo, se aprecia a primera vista que hay agrupaciones de paquetes densamente conectadas en los Datos Enlazados bibliotecarios, y que muchos están conectados a través de conjuntos de datos que del sector de las bibliotecas, siendo DBpedia y GeoNames los más destacados. También está claro que los enlaces con otros datos que no ocupan una posición central es bastante frecuente: no solamente los puntos centrales son útiles.

3 Conjuntos de Datos publicados

Esta sección recoge un listado de todos los Conjuntos de Datos (en su mayoría bibliográficos) que están disponibles en el grupo Datos Enlazados Bibliotecarios del “Data Hub” en el momento de la publicación de este informe. Se invita al lector a seguir los enlaces de cada uno de los paquetes reseñados, para ampliar información.

BibBase
BibBase.org facilita la difusión de publicaciones científicas en internet.
Bibliografía Nacional Británica (BNB)
La Bibliografía Nacional Británica (BNB) publicada como Datos Enlazados, enlaza con fuentes externas como VIAF, LCSH, Lexvo, GeoNames, MARC country, y vocabularios como Dewey.info, RDF Book Mashup....
Calames
Calames es el catálogo colectivo francés de archivos y manuscritos, mantenido por ABES.
Crónica de América
Da acceso a prensa histórica y una selección de páginas digitalizadas. Contiene 140,000 periódicos y 3.2 millones de páginas.
Conjunto de datos número 1 de la Biblioteca de la Universidad de Cambridge
Estos datos son el resultado principal del proyecto COMET project, una colaboración entre la Biblioteca de la Universidad de Cambridge y CARET, financiada por JISC.
data.bnf.fr - Biblioteca Nacional de Francia
data.bnf.fr reune datos de diferentes conjuntos de datos de la Biblioteca Nacional de Francia, creando páginas web sobre obras, autores, así como una vista en RDF de los datos extraídos.
Revista del Consejo Escocés de Montañismo, números 1 a 36
Archivo digital del la Revista del Club Escocés de Montañismo, numeros 1 a 36, 1890-1901, creado por Alan Dawson de la Universidad de Strathclyde, con la financiación del Trust de Montañismo Escocés.
CrossRef DOI Resolver
Los Identificadores de Objetos Digitales (DOI) suponen una estrategia de identificadores persistentes usada por unos 3,000 editores para identificar sus documentos, generalmente publicaciones académicas.
Datos Abiertos Enlazados de Europeana
El proyeto piloto data.europeana.eu forma parte de los esfuerzos de Europeana para hacer disponibles sus metadatos como Datos Enlazados en la web. Actualmente contiene 3.5 million de ítems.
Freebase
Freebase es un base de datos abierta del información de todo el mundo. Está construida por la comunidad y para la comunidad — cualquier es libre de consultarla, contribuir con datos, desarrollar aplicaciones sobre ella o integrarla en sus sitios web.
Catálogo de la Biblioteca Nacional Húngara (NSZL)
OPAC y Biblioteca Digital, con los correspondientes datos de autoridades en formato Datos Abiertos Enlazados.
Base de datos de Publicaciones Periódicas Enlazadas
Es un conjunto de datos del Grupo Incubadora que agrega metadatos de publicaciones periódicas procedentes de CrossRef, Highwire Press, y la Biblioteca Nacional de Medicina (National Library of Medicine).
lobid. Índice de Bibliotecas y Organizaciones Afines
lobid-organisations ofrece URIs sobre bibliotecas, a partir de los datos existentes y consolidados en el ISIL (Identificador Normalizado Internacional para Bibliotecas y Organizaciones Afines).
lobid. Recursos Bibliográficos
lobid-resources es un servicio que ofrece acceso a metadatos sobre recursos bibliográficos (libros, artículos de revista, pdfs etc.). En la atualidad tiene más de 7 millones de registros.
Medline
Representación en RDF del catálogo Medline. Contiene información sobre unos 19 millones de artículos enlazados a http://dx.doi.org/ con identificadores de artículos y http://crossref.org/ con identificadores de revistas
Colecciones especiales de la Universidad Noruega de Ciencia y Tecnología (NTNU)
Manuscritos históricos digitalizados conservados en las colecciones especiales de la NTNU
La Biblioteca Abierta
Una página para cada uno de los libros publicados en cualquier época. Actualmente recopila más de 20 millones de registros a partir de una variedad de importantes catálogos así como contribuciones individuales.
Libros en Idioma Inglés, recogidos en los Catálogos del Siglo XVII de Libros Impresos Subastados
Abarca los libros recogidos en la sección de libros impresos en inglés de los catálogos de subastas de Holanda de colecciones académicas y del clero.
Colección del Archivo Institucional de ePrints3 (RKBExplorer)
Versión en Datos Enlazados de varios archivos de ePrints3.
ECS Southampton EPrints
Datos dinámicos producidos por el servidor EPrints, diferentes de los ofrecidos a través del servicio RKB Explorer.
Datos Bibliográficos Sudoc
Sudoc es el catálogo colectivo universitario francés, mantenido por ABES. Contiene 10 millones de registros bibliográficos.
Réplica de los Datos Bibliotecarios Abiertos en la Plataforma Talis
Modelada usando volcados de datos en JSON procedentes de Open Library. Proporciona un  “SPARQL endpoint” (Puntos de Acceso SPARQL) e interfaz OpenSearch (con salida RSS 1.0).
theses.fr
theses.fr es el motor de búsqueda de tesis francesas, mantenido por ABES.
Servicio de Datos Enlazados de la Biblioteca Universitaria de Mannheim
Publica mediante RDF un conjunto de recursos bibliográficos: Datos bibliográficos del Consorcio de Bibliotecas de Suroeste de Alemania, del Sistema de Información de la Biblioteca de Hessen, y otros.
Listas de Lecturas Recomendadas de la Universidad de Sussex
Versión como Datos Enlazados de los recursos disponibles desde un motor de búsqueda de la universidad para bibliografía recomendada.
Archivos de Prensa del Siglo XX
Más de 30 millones de documentos, en su mayor parte recorte de prensa sobre personajes, empresas y otras instituciones, productos y un amplio conjunto de temas de economía.

4 Vocabularios controlados

4.1 Vocabularios controlados publicados 

Esta sección descrbe vocabularios controlados que ya existentes y que están disponibles como Datos Enlazados, o bien que se contemplan como relevantes en alguno de los casos de uso del Grupo Incubadora.

Para cada elemento se ofrece una introducción concisa al vocabulario, así como enlaces a sus localizaciones. Los casos de uso relacionados con el vocabulario, recogidos por el el Grupo Incubadora, también se listan como ejemplos en cada entrada.

4.1.1 Sistemas de clasificación

Clasificación Decimal Dewey (DDC)

"Dewey Summaries" es un conjunto de datos que contiene las clases principales de la Clasificación Decimal Dewey (DDC) en su edición 22ª. Da acceso a sus tres niveles superiores en 11 idiomas junto al acceso a la edición Abridged 14 (rúbricas asignables y títulos) en tres idiomas.

Clasificación Decimal Universal (CDU)

La Clasificación Decimal Universal (CDU) es un esquema multilingüe de clasificación para todos los campos del conocimiento. "UDC Summary" representa una selección de unas 2000 clases extraídas del esquema de la CDU. [1]

4.1.2 Ficheros de encabezamientos de materia y de autoridades

Encabezamientos de materia de la Biblioteca del Congreso (LCSH)

LCSH es una extensa lista de encabezamientos de materia publicada de forma impresa y como datos enlazados. Los encabezamientos de materia están accesibles desde el servicio Library of Congress Authoritiesand Vocabularies.

Repertorio de Autoridades y Materias Enciclopédico y Alfabético Unificado (RAMEAU)

RAMEAU es un vocabulario para encabezamientos de materia usado por la Biblioteca Nacional Francesa (BnF). Ha sido desarrollado a partir del repositorio de encabezamientos de materia de la Universidad de Quebec, el cual a su vez deriva de LCSH. RAMEAU ha sido publlicada como datos enlazados por el proyecto TELplus.

Control de palabras clave de autoridades (SWD)

Vocabulario controlado a cargo de la Biblioteca Nacional Alemana (DNB) en cooperación con varias redes de bibliotecas. La inclusión de palabras clave en SWD viene definida por las "Reglas para el Catálogo de Palabras Clave" ("Rules for the Keyword Catalogue", RSWK). [2]

Lista de encabezamientos de materia de la Biblioteca Nacional de la Dieta (NDLSH)

La Lista de Encabezamientos de la Biblioteca Nacional de la Dieta (NDLSH) es una lista de encabezamientos de materia que se usa en el catálogo de la Biblioteca Nacional de la Dieta (órgano máximo de poder estatal de Japón), que incluye principalmente los encabezamientos de materia y algunos nombres propios. [3]

4.1.3 Datos de autoridades de nombres personales

Fichero virtual internacional de autoridades (VIAF)

VIAF es un proyecto conjunto de múltiples bibliotecas nacionales de todo el mundo que combina virtualmente los ficheros de autoridades de nombres personales de las instituciones participantes en un único servicio de autoridades de nombres personales. A la fecha de este informe reúne 21 ficheros de nombres personales, corporativos y conferencias de las 18 organizaciones que participan en VIAF. [4]

Lista unificada Getty de nombres de artistas (ULAN)

ULAN es un vocabulario estructurado de más de 225,000 nombres, así como información biográfica y bibliográfica de artistas y arquitectos, enriquecido numerosas variantes de nombres, seudónimos y variantes  en otros idiomas.

Aunque ULAN no está aún pubicado como datos enlazados en sí mismo, está incluído como aportación del Getty Research Institute a VIAF.

Fichero de autoridades de nombres de la Biblioteca del Congreso (LC/NAF)

LC/NAF proporciona nombres autorizados para personas, organizaciones, eventos, lugares y títulos; contiene más de 8 millones de descripciones creadas a lo largo de múltiples décadas, conforme a diferentes políticas de catalogación. LC Names se llama oficialmente "Name Authority Component (NACO) Authority File" y es un esfuerzo cooperativo en el que los participantes siguen un conjunto común de normas y pautas.

GeoNames

La base de datos geográfica GeoNames contiene más de 10 millones de nombres geográficos y consite en 7.5 millones de características únicas de 2.8 millones de lugares habitados y 5.5 millones de nombres alternativos. [5]

4.1.4 Tesauros

Tesauro de Economía STW

Este tesauro ofrece un vocabulario para cada materia en Economía. También abarca términos técnicos usados en derecho, sociología, ciencias políticas y nombres geográficos. [6]

AGROVOC

AGROVOC es un vocabulario controlado estructurado publicado por la Organización para la Alimentación y la Agricultura de las Naciones Unidas (FAO). Está diseñado para cubrir la terminología de todos los campos temáticos de la agricultura, silvicultura, pesca, alimentación y campos relacionados (por ejemplo, medio ambiente). [7]

Eurovoc

Eurovoc es un tesauro multilingüe y multidisciplinar que abarca las actividades de la Unión Europea, en especial las del Parlamento Europeo. Contiene términos en 24 idiomas (a la fecha de este informe). [8]

Tesauro para Materiales Gráficos (TGM)

El Tesauro para Materiales Gráficos de la Biblioteca del Congreso de los Estados Unidos de América incluye más de 7,000 términos de materia para indizar los temas reflejados o representados en imágenes, y 650 términos de géneros/formatos para indizar tipos de fotografías, grabados, dibujos, materiales efímeros y otras categorías. [9]

4.1.5 Otros vocabularios controlados

Vocabulario DCMI para tipos de recurso

Una lista general, multidominio de los términos aprobados por la Dublin Core Metadata Initiative (DCMI) para ser usados como valores para el elemento "Tipo de recurso" para identificar el género de un recurso.

Lista de códigos MARC para relatores (también en Conjuntos de Elementos de Metadatos)

MARC (MAchine-Readable Cataloging) Relators proporciona una lista de propiedades para describir las relaciones entre un nombre y un recurso bibliográfico.

PRONOM

PRONOM es el registro en línea de información técnica sobre formatos de fichero, productos de software y otros componentes técnicos requeridos para dar soporte al acceso a largo plazo a registros electrónicos y otros objetos digitales de valor cultural, histórico o empresarial. [10]

Conjunto de licencias Creative Commons (CC)

Creative Commons ofrece una infraestructura para un conjunto de licencias de copyright y herrmientas para crear un equilibrio dentro del esquema tradicional de la legislación de propiedad intelectual de "todos los derechos reservados". [11]

Vocabularios de preservación de la Biblioteca del Congreso

Se ofrecen dos vocabularios principales. Preservation Events es un esquema de conceptos para la preservación de eventos, esto es, acciones realizadas sobre objetos digitales dentro de un determinado repositorio de preservación. Preservation Level Role es un esquema de conceptos para la preservación de roles de nivel, es decir, valores que especifican en qué contexto se puede aplicar un conjunto de opciones de preservación..

4.1.6 Fuentes complementarias

Wordnet

WordNet es una base de datos léxica para el idioma Inglés que agrupa nombres, verbos, adjetivos y adverbios en conjuntos de sinónimos (llamados "synsets"). Cada "synset" expresa un concepto distinto. Los synsets están interconectador por medio de relaciones semántico-conceptuales y léxicas. [12]. Wordnet ha sido publicado como datos enlazados por la Universidad Vrije de Amsterdam.

Freebase (también en Conjuntos de Datos)

Freebase es una colección de datos estructurados, abiertos y con licencia Creative Commons, así como una plataforma para acceder y manipular datos a través de la API de Freebase. Freebase imoprta datos de una amplia variedad de fuente de datos abiertos, como Wikipedia, MusicBrainz, y otras [13]. Téngase en cuenta que Freebase es fundamentalmente un conjunto de datos, pero al incluir numerosos recursos de referencias permite que algunas partes sean usadas como vocabulario controlado en ciertos casos.

DBpedia

DBpedia extrae información estructurada de Wikipedia. El conjunto de datos de DBpedia caracteriza mediante etiquetas y resúmenes más de 3 millones de objetos, de los que la mitad están clasificados en una ontología. Contiene millones de enlaces a imágenes, páginas web externas y enlaces externos a otros conjuntos de datos en RDF. [14]. De forma similar a Freebase, DBpedia puede verse como un conjunto de datos general, pero algunas de las entidades que describe - lugares, personas, "categorías" - pueden usarse, en algunos casos, como valores de referencia en vocabularios controlados.

4.2 Trabajos en curso, o relevantes para los casos de uso pero no oficialmente activos

Tesauro de Resúmenes sobre Pesca y Ciencias Acuáticas (ASFA thesaurus)

Este tesauro se usa para la indización por materias en Aquatic Sciences and Fisheries Abstracts (ASFA), un servicio de resumen e indización que abarca publicaciones de todo el mundo sobre ciencia, tecnología, gestión y conservación de recursos marinos, de marismas y de agua dulce, así como sus aspectos legales, ambientales y socio-económicos.

Metadatos de referencia sobre pesca

El sistema Fisheries Reference Metadata almacena todos los sistemas de clasificación (para especies, países, zonas acuáticas, servicios, flotas pesqueras, equipamientos para la pesca, etc.) usados por la FAO para describir observaciones sobre el sector pesquero, como series de datos temporales de capturas pesqueras o estadísticas de producción y especies.

Tesauro y Glosario sobre Agricultura de la Biblioteca Nacional de Agricultura

Se tratan de vocabularios en línea para términos de agricultura en inglés y español, ofrecidos por la Biblioteca Nacional de Agricultura (NAL) del Departamento de Agricultura de Estados Unidos. Los temas abarcados en Agricultura están definidos con amplitud en el "NAL Agricultural Thesaurus", e incluyen terminología de las ciencias biológicas, físicas y sociales. Las definiciones de los términos del tesauro se publican de forma separada en el "Glossary of Agricultural Terms". [15]

Tesauro Getty de Arte y Arquitectura (AAT)

Un vocabulario controlado multilingüe para bellas artes, arquitectura, artes decorativas, materiales de archivo y restos culturales materiales, que se usa para la indización, catalogación y búsqueda, así como herramienta de investigación.

Encabezamientos de Materia de Medicina (MeSH)

Un amplio vocabulario controlado producido por la Biblioteca Nacional de Medicina (NLM) de Estados Unidos, para información y documentos biomédicos y relacionados con la salud. La versión en español y frances de MeSH está acesible como una ontología de la web semántica en BioPortal. La traducción al noruego de MeSH se ha publicado como datos enlazados por la Universidad Noruega de Ciencia y Tecnología. Otra versión de MeSH, en SKOS (Sistema para la Organización Simple del Conocimiento), está disponible a través de OCLC Terminology Services.

Iconclass

Un sistema de clasificación para describir y clasificar el tema de las imágenes representadas en en varios medios, tales como pinturas, dibujos y fotografías.

Tesauro Getty de Nombres Geográficos (TGN)

Un vocabulario estructurado que abarca más de 1.3 millones de nombres de lugares de todo el planeta, incluyendo nombres vernáculos e históricos, coordenadas, tipos de lugares y notas descriptivas, centrado en lugares importantes para el estudio del arte y la arquitectura.

4.3 Otros vocabularios controlados relevantes para el campo de los Datos Enlazados Bibliotecrios, no mencionados en los casos de uso

Encabezamientos de materia del New York Times

El New York Times usa aproximadamente 30,000 etiquetas para dar soporte a sus páginas temáticas (Times Topics Pages). Estas etiquetas (categorizadas en "personas", "organizaciones", "lugares" y "desciptores") están publicadas como datos enlazados y mapeadas con Freebase, DBpedia, y GeoNames.

Lista MARC de países

La lista MARC de países identifica entidades nacionales actuales, estados de los EE.UU., provincias y territorios de Canadá y Australia, divisiones del Reino Unido y dominios internacionalmente reconocidos. Las entradas incluyen su referencia equivalente en códigos ISO 3166.

Lista MARC de idiomas

El listado MARC de idiomas proporciona cadenas de tres caracteres alfabéticos en minúscula que sirven como identificadores de idiomas y grupos de idiomas. Tiene referencias cruzadas, en los casos apropiados, con ISO  639-1, 639-2, y 639-5.

Lista MARC de Áreas Geográficas

La lista MARC de áreas geográficas identifica países independientes, divisiones políticas de primer nivel de algunos países, regiones, características geográficas, áreas en el espacio exterior y cuerpos celestes. La lista contiene más de 550 códigos diferentes. [16]

5 Metadata Element Sets

En esta sección se listan conjuntos de elementos de metadatos mencionados en los casos de uso recopilados por el Grupo de Datos Enlazados Bibliotecraios durante 2010-2011. Se incluyen algunos de los vocabularios RDF más relevantes para los profesionales que quieran reutilizar tecnologías de la Web Semántica ya disponibles para crear o convertir datos del área de las bibliotecas.

Estos vocabularios RDF están representados usando los elementos de los lenguajes de modelado de RDF Schema (RDFS) y OWL Web Ontology Language (OWL). Además de la documentación que proporcionan quienes los mantienen, una ontología puede también consultarse usando una herramienta genérica para creación y visualización como Protégé, el Manchester ontology browser, OWL Sight o el Live OWL Documentation Environment (LODE) (ver como ejemplo el Description of a Project (DOAP) ontology rendered in LODE).

Para cada conjunto de elementos, se aporta un sitio web legible por personas al mismo tiempo que se indica el correspondiente espacio de nombres RDF, así como el prefijo abreviado común que se usa para él, usando la sintaxis XML para la declaración de espacios de nombres. También se proporciona, o reutiliza, una breve descripción, centrada en el alcance principal o dominio de uso del conjunto de elementos. A veces se han enfatizado decisiones importantes de diseño que caracterizan a un conjunto de elementos de metadatos, incluyendo indicaciones sobre si el conjunto de elementos está conectado con otro, y su relación con usos bibliotecarios tradicionales. Finalmente, los casos recopilados por el Grupo Incubadora se listan también bajo cada entrada como ejemplos relevantes de uso.

Con intención ilustrativa, se incluye una representación de la nube de etiquetas de los conjuntos de elementos de metadatos presentados en esta sección, adaptando un sitio web creado por Paul Walk:

Metadata Element Set Tag Cloud

Téngase en cuenta que esta nube de etiquetas es una instantánea contextual específica del uso de conjuntos de metadatos. En particular, el tamaño de cada etiqueta está en relación directa con el número de casos individuales que usan cada vocabulario, conforme ha sido recogido por el Grupo Incubadora de Datos Enlazados Bibliotecrios. Más allá de este análisis basado en los casos del Grupo Incubadora, los miembros de la comunidad de datos enlazados bibliotecarios deberían considerar el mantenimiento de listados precisos y actualizados de conjuntos de datos y vocabularios controlados, del tipo del  Data Hub Library Linked Data group, de forma que se pudiera medir el uso de conjuntos de elementos de metadatos. Una versión depurada y específica para un área de trabajo sobre las estadísticas de uso de la Nube de Datos Enlazados Abiertos ayudaría a la comunidad a obtener una idea más nítida sobre qué conjuntos de elementos de metadatos están siendo ampliamente usados y cuáles se utilizan de manera menos frecuentes.

La representación de enlaces entre conjuntos de elementos de metadatos también es valiosa para los profesionales que quieren reutilizar datos entre vocabularios, o que quieren hacer sus datos más usables por parte de una comunidad amplia. La constelación "Upper Mapping and Binding Exchange Layer" (UMBEL) ha sido la primera en ilustrar conexiones entre clases procedentes de  vocabularios conocidos de datos enlazados. El esfuerzo de la iniciativa sobre Vocabularios Abiertos Enlazados (Linked Open Vocabulary) generaliza y automatiza la recopilación de esta información. Para un amplio rango de conjuntos de elementos de metadatos, por ejemplo Dublin Core, "Linked Open Vocabulary" ofrece una visión detallada de las relaciones con otros conjuntos de elementos, basada en definiciones legibles por ordenador (ontologías).

5.1 Conjuntos de Elementos de Metadatos publicados como vocabularios RDF

Esta subsección lista las ontologías relevantes (tanto OWL como RDFS) disponibles en el momento de elaboración de este informe. Para ayudar al lector a orientarse por su cuenta entre dicha selección, primero se introducen los conjuntos de elementos de metadatos del ámbito bibliotecario, archivos, museos e información. Posteriormente se presentan otros conjuntos relevantes, que surgen desde otras comunidades. Esta categorización es en algunos casos arbitraria, ya que muchos vocabularios son ahora mismo el resultado de trabajos inter-comunitarios. No obstante, esta realidad expone el gran potencial de la enfoque a partir del concepto de Datos Enlazados, en el que la norma es que sea fácil compartir, reutilizar o extender una variedad de conjuntos de elementos independientemente de su origen.


Originados en las comunidades bibliotecarias, de archivos, museos e información.

Dublin Core y Términos de Metadatos DCMI

Las propiedades originales del  Conjunto de Elementos de Metadatos Dublin Core- quince elementos de propiedad genéricos para describir recursos de información - están identificados usando el espacio de nombres http://purl.org/dc/elements/1.1/. Declarados como propiedades RDF en el año 2000 - antes de la finalización de RDFS en 2004 - estas propiedades carecen de rangos definidos (rdfs:range), lo que permite que se usen tanto valores literales como recursos completamente RDF.

Un segundo espacio de nombres es el conjunto más amplio Términos de Metadatos DCMI -  http://purl.org/dc/terms/ - incluye 15 propiedades en paralelo con las propiedades "sin-restricciones"  /elements/1.1/ , añadiendo restricciones de rango rdfs:range, además de varias docenas de propiedades adicionales. La interoperabilidad de las propiedades "restringidas"  /terms/ con las propiedades "sin-restricciones" /element/1.1/ se preserva mediante relaciones de sub-propiedad (rdfs:subPropertyOf).

Iniciativa de Archivos Abiertos-Reutilización e Intercambio de Objetos (OAI-ORE)

El modelo de Reutilización de Objetos de la Iniciativa de Archivos Abiertos (OAI-ORE) define elementos para describir agregaciones de recursos web, cuya unión forma objetos digitales complejos, tales como un artículo de revista y sus diferentes variaciones digitales y materiales anexos. Además propone un mecanismo de "mapa de recursos" para indicar y describir los metadatos de origen de estas agregaciones, así como "proxies" para describir cualquier recurso dado desde la perspectiva de una agregación específica, cuando los recursos son incluidos a partir de diferentes agregaciones.

Sistema de Organización Simple del Conocimento (SKOS)

SKOS ofrece un modelo para expresar la estructura básica y el contenido de esquemas de conceptos como un tesauro, un esquema de clasificacion, una lista de encabezamientos de materia, taxonomías, folksonomías y otros tipos similares de vocabularios controlados [17]. SKOS evita de forma deliberada usar rdfs:domains con algunas de sus propiedades (especialmente las propiedades de etiquetado y nota), permitiendo reutilizarlas para cualquier tipo de recurso.

Extensión de SKOS para etiquetas (SKOS-XL)

SKOS-XL es una extensión de SKOS para dar soporte a la descripción de entidades léxicas vinculadas a conceptos. "Reifica" las etiquetas skos:Concepts, tratándolas totalmente como recursos RDF. De este modo es posible que sean anotadas con más detalle, o permitir ser enlazadas usando, por ejemplo, la propiedad "isTranslationOf".

Lista de códigos MARC para relatores (también en vocabularios controlados)

El vocabulario "MARC Relators" proporciona una lista de propiedades para describir las relaciones entre un nombre y un recurso bibliográfico.

Modelo CIDOC de referencia conceptual (CRM)

El modelo CIDOC de referencia conceptual (CRM) está orientado a objetos. Ha sido desarrollado por el Consejo Internacional de Museos (ICOM) para representar y hacer interoperable descripciones de objetos en el sector cultural. Hace un uso intensivo de eventos para enlazar juntos objetos, personas, lugares y otras nociones conceptuales.

Una versión alternativa en OWL-Description Logic (OWL-DL) (OWL 1 y 2) está disponible en http://erlangen-crm.org (espacio de nombres: http://erlangen-crm.org/current/) y http://bloody-byte.net/rdf/cidoc-crm/ (espacio de nombres: http://purl.org/NET/cidoc-crm/core#).

Vocabularios Dublin Core para la descripción de colecciones

El grupo de estudio de la DCMI Collection Description Community desarrolló un perfil de aplicación Dubin Core para colecciones y varios vocabularios. Su trabajo se basaba en el Research Support Libraries Programme (RSLP) Collection Description Schema.

Requerimientos Funcionales para Registros Bibliográficos (FRBR) y ontologías relacionadas

FRBR es un modelo de referencia conceptual desarrollado por IFLA (International Federation of Library Associations and Institutions) para "ofrecer un marco que ponga en relación los datos de los registros bibliográficos con las necesidades de los usuarios de esos registros" (Informe final FRBR, sec. 2.1) y para asegurar su relevancia en el mundo actual. Se pueden ver más detalles aquí.

La "familia FRBR" de IFLA consiste en tres modelos conceptuales, cada uno de los cuales abarca un aspecto de los datos de los registros bibliográficos y de autoridad. Las entidades, atributos y relaciones definidos en cada uno de ellos están incluidos en el Open Metadata Registry:

El Informe Final FRBR describe un modelo entidad-relación que ha sido la fuente para varias implementaciones de otras ontologías:

Descripción Bibliográfica Internacional Normalizada (ISBD)

Se trata de un registro preliminar de las clases y propiedades de las normas (ISBD) en su edición consolidada. Las ISBD (ver más explicaciones aquí) son útiles y aplicables para descripciones de recursos bibliográficos en cualquier tipo de catálogo.

Esquema RDF para la descripción de metadatos de autoridades (MADS/RDF)

MADS/RDF está diseñado para los valores controlados de nombres (personasles, corporativos, geográficos, etc.), tesauros, taxonomías, sistemas de encabezamientos de materia y otras listas de valores controlados. La ontología MADS/RDF está mapeada a SKOS.

Vocabulario Gemeinsame NormDatei (GND)

Para sus servicios de datos enlazados, la Biblioteca Nacional Alemana (GND) ha creado un espacio de nombres dedicado a descripciones detalladas de recursos de autoridad (Gemeinsame NormDatei, GND). Este conjunto de clases y propiedades refina específicamente las posibilidades ofrecidas por SKOS y por los Vocabularios RDA.


Originados en otras comunidades

Friend of a Friend (FOAF)

FOAF es una ontología muy usada para describir personas y sus relaciones con otros personas y con recursos web.

Vocabulario de conjuntos de datos interrelacionados (VoID)

VoID es esquema RDF para describir enlaces entre conjuntos de datos. Con VoID se puede ejecutar efectiva y eficientemente tanto el descubrimiento como el uso de conjuntos de datos que estén enlazados. Un conjunto de datos VoID es una colección de datos, publicados y mantenidos por un único proveedor, disponible en RDF y accesible, por ejemplo, a través de URIs HTTP de-referenciables o a través de un SPARQL endpoint.

Ontología Bibliográfica (BIBO)

BIBO puede usarse como una ontologías de citas o de clasificación de documentos, o como una forma para describir cualquier clase de objeto bibliográfico mediante RDF.

Vocabulario UMBEL

El Conjunto de Datos de conceptos de referencia "Upper Mapping and Binding Exchange Layer" (UMBEL) se deriva de la ontología OpenCyc. Incluye miles de conceptos coherentemente estructurados y enlazados, y es ampliamente aplicable para ofrecer nodos de orientación en cualquier dominio de conocimiento. El Vocabulario UMBEL proporciona clases y propiedades para describir conocimiento conceptual. También está pensado para actuar como la base para construir ontologías de dominio [18]. Reusa vocabularios externos siempre que es posible.

vCard

La ontología vCard permite representar perfiles de tarjetas de empresa definidas en  vCard (RFC2426).

Ontología Lexvo.org

El nombre Lexvo se deriva del griego antiguo λεξικόν (lexicon) y el latino vocabularium (vocabulario) [19]. La ontología proporciona un vocabulario para definir URIs globales para idiomas, palabras, caracteres y otros objetos relacionados con el lenguaje humano.

Formato para ficheros intercambiables de imágenes (EXIF)

Se trata de un esquema RDF para EXIF — un estándar para imágenes que soporta sobre todo metadatos técnicos, por lo general embebidos en un fichero de imagen (por ejemplo, un fichero JPEG) en el que cada clave de la especificación EXIF ha sido directamente mapeada a su propiedad correspondiente. Para preservar las agrupaciones de claves de metadatos que existen en la especificación EXIF original (por ejemplo, composición de píxeles y localización geográfica) existen otras iniciativas, como la ontología EXIF OWL [20].

Modelo Abierto de Procedencia (OPM)

El "Open Provenance Model" es un modelo genérico para expresar y compartir información de procedencia. Consiste en un Vocabulario Open Provenance Model ligero que permite una representación básica de los datos de procedencia, y una más especificación más expresivo, Open Provenance Model OWL Specification, orientada a los procesos de inferencia.

Ontología Musical

La "Music Ontology Specification" ofrece los conceptos principales y propiedades para describir música (es decir, artistas, albumes y pistas) en la Web Semántica. Aplica las distinciones FRBR al dominio de la música.

Lenguaje para la expresión de derechos Creative Commons (CC REL)

CC REL permite describir licencias de copyright mediante RDF.

Ontología de Tipos de Citas (CiTO)

CiTO, una de las ontologías SPAR, es una ontología mínima para describir citas de referencia en artículos de investigación.

Descripción de proyectos (DOAP)

Description of a Project (DOAP) es un vocabulario para describir proyectos de software, especialmente los de código abierto.

Vocabulario W3C Geo

Esta pequeña ontología está dirigida a representar el geo-posicionamiento (latitud, longitud y altitud) para objetos espaciales, conforme al estándar WGS84.

Comunidades en Línea Semánticamente Interconectadas (SIOC)

El núcleo de la ontología SIOC puede usarse para describir comunidades online y sus actividades (por ejemplo, tablónes de mensajes, wikis, blogs, etc.).

Vocabulario Schema.org

Schema.org es un conjunto de constructos que permiten a diseñadores web la inclusión de metadatos estructurdos en sus páginas web, para que sean consumidor por los grandes motores de búsqueda Bing, Google, y Yahoo! Schema.org está diseñado para representar recursos de una gran diversidad de dominios. Por ello se duplican muchos elementos de otros conjuntos de elementos de metadatos, y falla en la captura de la riqueza de los datos bibliotecarios. No obstante puede usarse para el intercambio de información simple sobre bibliotecas y los recursos que poseen, como se demuestra en un post del blog de Eric Hellman.

Open Graph

El protocolo de Facebook "Open Graph" permite la descripción de recursos (películas, libros, etc.) que pueden ser de interés para los miembros de una red social. Su propósito principal es permitir que los sitios web incluyan marcado RDFa, el cual se usa en combinación con el botón "Me gusta"para comunicar al servicio Facebook datos sobre los objetos mencionados en las páginas web.

Ontología W3C para recursos multimedia

La "Ontology for Media Resources" define en cojunto básico (core) de propiedades de metadatos para recursos de medios, junto los mapeos con elementos de conjuntos de formatos de de metadatos existentes. Está orientado sobre todo a recursos de medios disponibles en la web, en contraposición a recursos que están sólo accesible en los fondos locales de museos y archivos.

5.2 Trabajos en curso para convertir vocabularios a RDF

Descripción General Archivística Internacional Normalizada (ISAD(G))

ISAD(G) define los elementos que deben incluirse en herramientas de investigación archivística.

Modelo de Datos Europeana (EDM)

"Europeana Data Model" es un vocabulario centrado en la representación de metadatos de objetos culturales, proporcionando acceso a las representaciones digitales de los mismos. EDM se situa en un contexto de agregación de datos, donde los objetos pueden ser complejos y en el que diferentes proveedores de datos pueden alojar diferentes visiones de los mismos. EDM reutiliza, amplia y ha sido inporado por otros conjuntos de elementos, principalmente OAI-ORE, Dublin Core, SKOSy,  CIDOC CRM.

Contexto Archivístico Codificado – Instituciones, Personas y Familias (EAC-CPF)

EAC-CPF tiene como objetivo representar información de autoridades acerca del contextos de materiales de archivos, incluyendo "la identificación y características de personas, organizaciones y familias (agentes) que han creado, usado o forman parte de la temática de los registros, así como las relaciones entre ellos"  [21]. Es una iniciativa paralela al estándar Encoded Archival Description (EAD) para la representación de herramientas de investigación archivística.

El concepto principal en EAC-CPF es la distinción entre agentes e identidades: un mismo agente puede tener diferentes identidades y una identidad puede corresponder a varios agentes.

MARC21

MARC (MAchine-Readable Cataloging) ha desempeñado un papel crucial en la creación e intercambio de metadatos bibliotecarios. Se ha publicado una  Una version RDF de todos los elementos de MARC21 a través de Open Metadata Registry como un "camino de transición básico con menos pérdidas de datos en MARC 21 hacia RDF." Antes de esto, la Iniciativa MarcOnt creó una ontología OWL que incluía un pequeño subconjunto de elementos MARC, relacionada con otras ontologías

Preservación de Metadatos: Estrategias de Implementación (PREMIS)

PREMIS define un conjunto central de elementos de metadatos de preservación, con un soporte de diccionario de datos, aplicable a un amplio espectro de actividades de preservación digital.

Descripción Archivística Codificada (EAD) y otros conjuntos de elementos orientados a archivos

EAD es un estándar para la codificación de herramientas de investigación archivística usando XML (eXtensible Markup Language).

Nótese que el conjunto de elementos LOCAH solo maneja una parte de EAD, e introduce otros elementos que los participantes en LOCAH encontrarios útiles para publicar datos de una colección archivística como datos enlazados. El lector puede estar interesado en la propuesta más sencilla y ligera del vocabulario Archival mantenido por Aaron Rubinstein para la descripción de archivos y los nombres de las entidades asociadas a ellos.

5.3  Conjuntos de elementos de metadatos de los casos de uso que no están disponibles como vocabularios RDF

Categorías para la descripción de obras de arte (CDWA)

CDWA incluye 532 categorías y subcategorías para describir y acceder a información sobre arte, arquitectura, otro material cultural, grupos y colecciones de obras e imágenes relacionadas. También se ha desarrollado un subconjunto simplificado de estos elementos bajo la denominación de CDWA Lite.

Esquema de metadatos semánticos EBU P/Meta(P/META)

Se trata de un vocabulario normalizado para información relacionada con programas de información en la industria de la difusión profesional.

SPECTRUM

SPECTRUM es un estándar originario del Reino Unido para gestionar colecciones museísticas a partir de metadatos descriptivos de objetos en relación con la información sobre el préstamo de los mismos.

Esquema para la descripción de metadatos de objetos (MODS)

MODS incluye un subconjunto de campos MARC y utiliza etiquetas cuyo nombre se basa en expresiones lingüísticas y no en códigos numéricos. En algunos casos reagrupa elementos del formato bibliográfico MARC 21. MODS se expresa utilizando XML.

Pautas para la iniciativa de codificación de textos (TEI)

"Guidelines for Electronic Text Encoding and Interchange" es un estándar para representar toda clase de textos literarios y lingüísticos para investigación y docencia en línea.

5.4 Otros conjuntos de elementos de Metadatos (que no son vocabularios en RDF) relevantes para el campo bibliotecario, no mencionados en los casos de uso

Categorías centrales de la Asociación de Recursos Visuales (VRA Core)

"Visual Resources Association Core Categories" (VRA Core) especifica un conjunto de categorías centrales para la creación de registros que describan obras de la cultura visual así como imágenes que las documentan.

Diccionario de metadatos para la difusión pública (PBCore)

PBCore es un estándar de metadatos diseñado para describir media, digitales o analógicos. El Esquema de Definición XML (XSD) PBCore define la estructura y el contenido de PBCore. El conjunto de elementos y vocabularios controlados relacionados están disponibles en Open Metadata Registry.

Reconocimientos

Los miembros del Grupo Incubadora de Datos enlazados bibliotecarios Monica Duke, Ed Summers, y Bernard Vatant realizaron amplias revisiones de este documento.

En el momento de publicarse este informe, el Grupo de Datos Enlazados Bibliotecarios del “Data Hub” ha sido mantenido por Karen Coyle, Adrian Pohl, Ross Singer, y Lars Svensson, además de los participantes ya reconocidos.