Cómo el aprendizaje automático organiza las colecciones digitales de la Biblioteca del Congreso

La Biblioteca del Congreso adopta la esencia de los grandes datos. Cada colección de la biblioteca más grande del mundo, que contiene unos 170 millones de artículos y está en constante crecimiento, es un conjunto de datos que espera ser analizado. Pero, como en otros grandes negocios de datos, la separación se interpone. Afortunadamente, el aprendizaje automático hace el trabajo.

Considere la colección de periódicos de la Biblioteca del Congreso de los Estados Unidos. Un investigador esperaba usar la colección Chronicling America (millones de páginas de periódicos digitalizados que datan de 1789 a 1963) para comparar anuncios históricos con publicaciones contemporáneas de Craigslist para ver cómo se han desarrollado patrones de anuncios falsos con el tiempo. Incluso se inscribió en clases para aprender a trabajar con Python. Pero resultó que no había una forma efectiva de desglosar los anuncios por categoría y subgrupo del cuerpo del texto del periódico.

Un estudiante de posgrado enfrentó un problema similar que esperaba usar el archivo web de sitios web de campañas al estilo Wayback Machine de la biblioteca para ver si los candidatos habían cambiado de posición desde el evento. Pero debido a que los rastreadores web crean archivos Web ARCHive basados ​​en el tiempo de captura del sitio, sin coherencia temática, las consultas devuelven cantidades excesivamente grandes de datos no relacionados. Además, los archivos generalmente se vuelven enormes.

«Antes de que un investigador pueda trabajar con archivos web, necesita reducir significativamente los datos», dijo Kate Zward, exdirectora de estrategia digital de la Biblioteca del Congreso. «Y no es fácil para nosotros transferir estas colecciones de varios terabytes a los investigadores. Cuesta dinero».

Las interfaces de colección a menudo se construyen a nivel de elemento, sin ninguna ventana.

“Pero si estamos pensando en representar colecciones y datos a escala, debemos buscar un modelo completamente diferente”, dijo Megan Ferriter, directora de innovación de la Biblioteca del Congreso.

Para escalar mejor la información masiva de la biblioteca, la flexibilidad de las bases de datos y la nube resultaron útiles aquí.

Más sobre el aprendizaje automático¿Está construyendo una canalización de aprendizaje automático? Esto es lo que necesita saber.

Cómo la Biblioteca del Congreso convierte las colecciones en datos

La digitalización de los fondos de la biblioteca no es nada nuevo. La Biblioteca del Congreso ha estado haciendo esto desde 1993. También tiene varias API que le permiten crear subconjuntos de algunos conjuntos de datos más pequeños. El concepto de colecciones como datos, sin embargo, es más reciente.

Instituciones como la Biblioteca del Congreso están poniendo a disposición cada vez más colecciones digitalizadas u originalmente digitalizadas y metadatos asociados para el análisis computacional. Pero muchas colecciones no se han digitalizado de una manera que enfoque la lente del análisis de big data. Así que los archiveros de museos y bibliotecas han tenido que unirse en los últimos años para encontrar la mejor estructura.

El informe de 2019, Siempre ya computacional: colecciones como datos, en coautoría con Lori Allen, analista de programas, Oficina de estrategia digital, Biblioteca del Congreso, cubre una variedad de temas de colecciones. El contenido incluye consejos sobre el inventario de colecciones de texto completo: «estado de los derechos del documento, estado de la licencia, capacidad de descubrimiento y descarga», señalando las características que hacen que una colección digital sea un buen candidato para crear colecciones como datos: metadatos completos, resultados sólidos de OCR, popularidad y relevancia. para otros proyectos.

Al mismo tiempo, el informe también enfatiza que el concepto permanece en desarrollo. «No hay un estado de juego claro y compartido en las colecciones», dijo Ferriter. “¿Ha cambiado? Creo que la respuesta es no. Pero nuestra conciencia de ello ha cambiado. Y la gente piensa y habla mucho más a través de la lente de las colecciones como datos”.

Aún así, este «trabajo fundamental» ayudó a guiar los proyectos organizacionales de la Biblioteca del Congreso, especialmente con las portadas de la colección, dijo Ferriter. Esencialmente, es una preparación previa: documentar tanto como sea posible lo que contienen las colecciones para facilitar una mayor transformación de datos.

Ver 918 vacantes
Descubre quién está contratando chicago.
Ver todo Datos + Análisis trabajos en chicago
Ver 918 vacantes

Iniciativa «Computación del patrimonio cultural en la nube».

Al evaluar tales barreras de acceso, el ala de estrategia digital de la biblioteca también pregunta, ¿qué? exactamente ¿Qué líneas de investigación y enfoques técnicos solo se pueden lograr analizando conjuntos de datos a gran escala?

Con ese fin, la Biblioteca del Congreso emitió una convocatoria de propuestas en el otoño de 2020, el anuncio de la agencia busca investigadores para «experimentar con la resolución de problemas que solo se pueden explorar a escala» utilizando el aprendizaje automático.

El proyecto, llamado Computing Cultural Heritage in the Cloud (CHCC), tiene como objetivo crear un ciclo eficiente de enfoques de modelado y disputas de datos complementarios para mejorar los métodos de investigación de aprendizaje automático en la biblioteca y para el llamado GLAM (galerías, bibliotecas, archivos) . , museos) más ampliamente.

Los tres investigadores actuales, que comenzaron en mayo de 2021 y continuarán hasta diciembre de 2022, actualmente están documentando sus hallazgos individuales y compartiendo actualizaciones periódicas.

“Lo que estamos tratando de pensar es cómo creamos un modelo comparable para aquellos que quieren explorar colecciones digitales a mayor escala o explorar nuestras colecciones de investigación”, dijo Ferriter.

¿Otro objetivo del proyecto? Uso múltiple. Incluso si los investigadores hacen el trabajo duro de limpiar los datos para un caso de uso particular, la biblioteca actualmente no tiene una excelente manera de restaurar ese conjunto de datos limpio en su colección para uso futuro. Esperemos que eso cambie.

«Si tenemos un conjunto preliminar de transformaciones de datos que es un punto de partida para preguntas más específicas, podríamos intentar unirlo y planeamos hacerlo como parte de este proyecto», dijo Fettiter.

El personal identificó algunas colecciones con un gran potencial para el análisis de datos y comenzó a detallar las portadas de cada una con información sobre formato, tamaño, cuestiones de derechos, cualquier cosa que pudiera ayudar a futuras investigaciones sobre esa colección.

«Particularmente para fines computacionales, los investigadores quieren comprender la estructura de una colección en múltiples niveles, así como su procedencia: de dónde proviene y cómo se transformó, qué falta en los datos y qué tipo de usos se permiten con it», escribió Allen en una publicación en el blog en 2020, que incluía una plantilla de hoja de etapa inicial.

Las colecciones con potencial prioritario incluyen aquellas que no están restringidas por derechos y aquellas que históricamente han resultado fructíferas para los investigadores. Los ejemplos incluyen versiones digitalizadas de mapas estereográficos y mapas de Sanborn que pintan una imagen de la arquitectura y la planificación urbana de los siglos XIX y XX y se han utilizado para ayudar a comprender los cambios en entornos específicos. La gama completa de aplicaciones se verá influenciada por el estudio CHCC completado.

Más sobre ciencia de datosMejorar la equidad racial en la integración de datos

Cómo la Biblioteca del Congreso de EE. UU. utiliza éticamente el aprendizaje automático

La Biblioteca del Congreso está lejos de Silicon Valley tanto geográfica como temperamentalmente. Un informe sobre el estado del aprendizaje automático en bibliotecas encargado por la Biblioteca del Congreso de EE. UU. y publicado en 2020 contrasta el principio de «moverse rápido, romper cosas» definido por Big Tech y el enfoque metódico favorecido por los bibliotecarios. El contraste tiene implicaciones positivas para cosas como establecer estándares antes de que se introduzcan nuevas tecnologías, pero también es valioso para las cuestiones éticas más amplias de la inteligencia artificial.

Este artículo y otras investigaciones realizadas o apoyadas por la Biblioteca del Congreso explican por qué el error algorítmico es mucho más común en el análisis de colecciones históricas que en otros usos en el sector comercial. Como señala el informe, aunque el potencial de dañar a las instituciones de investigación es mucho menor que en casos de uso como el crédito y la reincidencia, los conjuntos de datos limitados o sesgados pueden conducir a estudios defectuosos o «replicar y reforzar involuntariamente términos obsoletos o incluso ofensivos». »

Las declaraciones de valores claras y un enfoque en la transparencia organizacional y la fluidez de los datos de las personas son clave, dicen los investigadores, pero también lo son los detalles más finos como la creación, y la disponibilidad inmediata, de conjuntos de datos de referencia y verdad. Esto significa que los datos de la imagen deben tener metadatos que no solo expliquen lo que se muestra, sino que tengan en cuenta una serie de características posibles, como «fuente de digitalización, contraste, sesgo, ruido, efecto de rango, complejidad (o alguna medida de complejidad). )». Como destaca el informe, los problemas técnicos están inextricablemente vinculados a los sociales.

Ese nivel de preocupación se debe a que las bibliotecas son más cautelosas, dijo Zvard.

«Hay una historia larga y bien desarrollada de ética profesional», dijo. «Las bibliotecas han estado manejando materiales confidenciales durante siglos y tienen una muy buena comprensión de lo que es apropiado».

Un proyecto cuyo consejo asesor incluye un defensor de la justicia y Algoritmos de opresión autor y Safia Noble, aconseja a los solicitantes que propongan proyectos que sean «diversos en materia, enfoque y colecciones requeridas».

Ver 918 vacantes
Descubre quién está contratando chicago.
Ver todo Datos + Análisis trabajos en chicago
Ver 918 vacantes

Por supuesto, la mayor promesa para el aprendizaje automático en la investigación del patrimonio cultural, tanto en general como dentro de los proyectos de la Biblioteca del Congreso, es que puede revelar conexiones y conocimientos que se ocultan inadvertidamente en las pilas.

«Una de las cosas más emocionantes de ver colecciones a gran escala», dijo Ferriter, «es que podemos ver historias y patrones de superficie que no estaban disponibles o no se presentaron de manera tan prominente al público».

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *