El aprendizaje automático puede impulsar la investigación legal: solo necesitamos los datos

¿Por qué un juez de un tribunal federal renuncia a las tasas de presentación el 20 % de las veces, mientras que otro juez del mismo distrito las dispensa el 80 % de las veces?

Esta extraña inconsistencia fue descubierta el año pasado por el equipo de investigación SCALES, un proyecto que aplica el aprendizaje automático a los datos de los registros judiciales para que los académicos del derecho puedan buscar patrones sistémicos, inconsistencias y sesgos en el sistema judicial.

El descubrimiento de exenciones de tarifas ha sido notable, pero los investigadores esperan que la plataforma, actualmente en versión beta, pronto permita a los usuarios realizar consultas y descubrir patrones que son aún más amplios y profundos.

Por ejemplo, «¿Cuál es la relación entre la duración de un caso y el distrito en el que se presenta?» preguntó Christian Hammond, profesor de informática en la Universidad Northwestern y miembro del equipo SCALES. O: «¿Cambia con el tiempo la duración de la consideración de diferentes casos en los tribunales?»

Hasta ahora, los investigadores han creado una aplicación de prueba de concepto, han completado una ronda inicial de pruebas de usuario para obtener comentarios sobre la interfaz y la funcionalidad, y han extraído análisis de datos y configuración de datos en el sistema.

«Considera qué preguntas puede responder y las proporciona como una forma de dar forma a la entrada», dijo Hammond (izquierda).

El proyecto, que incluye a profesores de derecho e ingeniería informática de la Universidad Northwestern, la Universidad de Texas en Austin, la Universidad Estatal de Georgia y la Universidad de Richmond, asume varios desafíos clave del análisis legal a gran escala: construir una plataforma de análisis que lo haga fácil de usar y recopilación de datos judiciales necesarios.

RelacionadoCómo Casetext hace que los abogados sean más accesibles Aith AI

Problema de acceso a datos

Un obstáculo de larga data para proyectos como SCALES es el acceso a los datos. Los registros judiciales federales en los EE. UU. son públicos, pero no son gratuitos. Se les paga a través de un sistema llamado Acceso Público a Registros Electrónicos de Tribunales (PACER), que cobra 10 centavos por página.

«Diez centavos por página pueden no parecer mucho, pero se suman rápidamente», dijo el año pasado Sarath Sanga, profesor de derecho en Northwestern. “Un caso puede costar fácilmente $100. Los casos por un año costarían decenas de millones».

Los defensores de los registros judiciales abiertos han denunciado durante mucho tiempo el obstáculo financiero.

«El hecho de que el gobierno no tenga una interfaz de búsqueda de fácil acceso y bien diseñada donde el público pueda acceder… las decisiones judiciales que constituyen jurisprudencia es absolutamente ridículo», dijo Michael Livermore, profesor de derecho en la universidad. . Virginia y mixta El derecho como datos: computación, texto y el futuro del análisis legal.

ver vacantes

Averigüe quién está contratando.

Ver todo Datos + Análisis empleos en empresas líderes en tecnología y startups

ver vacantes

Los críticos argumentan que la tarifa PACER impide el acceso público y genera solo una pequeña cantidad de ingresos, al menos en términos del presupuesto total anual de la corte. Según se informa, PACER genera alrededor de $ 145 millones al año en tarifas de acceso, pero en general, el sistema judicial recibe alrededor de $ 7 mil millones en fondos discrecionales anuales. Hablando convencionalmente, los legisladores deberían simplemente contar la pequeña diferencia en el presupuesto, creen los críticos.

Y cada vez estamos más cerca de esa decisión. En 2020, la Cámara aprobó la Ley de Tribunales Abiertos que, si se convierte en ley, eventualmente eliminaría las tarifas de PACER. El dinero recaudado antes de la liquidación financiará una actualización del sistema que se ha retrasado mucho.

Los investigadores de SCALES han apoyado la propuesta legislativa, pero no están esperando para comenzar a recopilar datos. En lugar de usar PACER, que costaría millones de dólares, el equipo está trabajando directamente con varios tribunales en las solicitudes de autorización, así como también analizando las opciones para acceder a los datos sin abrirlos directamente al público.

«El hecho de que el gobierno no tenga una interfaz de fácil acceso, bien diseñada y de búsqueda donde el público pueda acceder… decisiones judiciales que constituyen jurisprudencia es absolutamente ridículo».

SCALES no es el primer proyecto que aborda este problema. El Free Law Project y el Case Law Access Project de la Universidad de Harvard tienen un enfoque similar y permiten la carga masiva de datos. Hammond dijo que la esperanza de SCALES es ir un paso más allá en términos de usabilidad.

“Los datos son valiosos, pero si no sabes cómo acceder a ellos [it] y aplicar diferentes tipos de análisis, siguen siendo solo datos y se necesita a alguien más», dijo. «Estamos tratando de deshacernos de alguien más».

Ocurrió un error.

No se puede ejecutar JavaScript. Intente ver este video en www.youtube.com o habilite JavaScript si está deshabilitado en su navegador.

PESOS Introducción

Transformación, enriquecimiento y protección de datos forenses

Los datos, por supuesto, deben limpiarse y transformarse para que sean útiles para el aprendizaje automático. Esto siempre es un trabajo duro y por lo general ocupa más del 80 por ciento del tiempo de un proyecto de procesamiento de datos. Afortunadamente, los tipos de conjuntos de datos que maneja SCALES son al menos semiestructurados. Sin embargo, contienen ambigüedades que necesitan aclaración.

Por ejemplo, las mociones presentadas tienen varias descripciones: mociones para excluir, denegar, ingresar, etc. Entonces, un grupo de estudiantes marcó a mano la petición en varias entradas; Luego, el equipo usó estos datos etiquetados para entrenar a un etiquetador automático.

«La privacidad es una preocupación seria para nosotros».

Al mismo tiempo, es posible que los registros judiciales por sí solos no brinden tanta claridad como lo harían cuando se combinan con otros conjuntos de datos. Es por eso que SCALES también normaliza los datos de la corte contra conjuntos de datos adicionales externos sobre abogados, jueces, demandantes corporativos y más.

«Ahora podemos preguntar, ‘¿Existe una relación entre el número de solicitudes de exclusión y los resultados?’ Y podemos analizar preguntas como: ‘¿Existe una correlación entre el tamaño de la empresa y el rendimiento?'», dijo Hammond.

El objetivo es permitir que los investigadores resalten las tendencias generales y las inconsistencias, pero ¿la posibilidad de una mayor apertura también amenaza la difusión de la información personal de un reclamante?

Para ello, SCALES crea un sistema que permitirá la edición de documentos a nivel de personas y casos. Más importante aún, también proporciona entrenamiento federado. La técnica, popular en el cuidado de la salud, permite un análisis extenso de grandes conjuntos de datos utilizando el aprendizaje automático mientras mantiene oculta la información de identificación.

«La privacidad es un gran problema para nosotros», agregó Hammond.

RelacionadoEstas 11 startups están trabajando en la privacidad de datos en el aprendizaje automático

¿Por qué todavía existen los muros de pago?

Incluso si proyectos como SCALES están trabajando para resolver los problemas técnicos, la pregunta sigue siendo: ¿por qué persisten estos problemas de acceso a los datos? ¿Cómo sobrevivió el modelo de pago PACER, considerado por muchos una reliquia arcaica?

Para Livermore, todo se reduce a una respuesta simple: ingresos. Incluso si esto es una gota en el océano en comparación con la financiación general, es una fuente de ingresos a la que el sistema se ha acostumbrado.

«En la escala del gobierno de los Estados Unidos, no es tanto dinero, [so] es absurdo que esta sea una forma de aumentar las ganancias: estamos poniendo una barrera entre las personas y sus leyes para recaudar algo de dinero”, dijo Livermore.

«Es absurdo que esta sea una forma de aumentar las ganancias: estamos poniendo una barrera entre las personas y sus leyes para recaudar un poco de dinero».

Según Hammond, hay otro elemento: «La gente simplemente no quiere que la sigan».

La Ley de Tribunales Abiertos es el mayor motivo de esperanza entre los defensores de la transparencia en los últimos tiempos, pero ha habido otros avances positivos. La primavera pasada, la Corte Suprema dictaminó que las anotaciones legales a las leyes no podían tener derechos de autor después de que el estado de Georgia presentara reclamos sobre el material. anotado sus estatutos, ingresados por un tercero contratado, LexisNexis, están sujetos a derechos de autor y, por lo tanto, son elegibles para el acceso pago.

Algunas pruebas anecdóticas también apuntan a un cambio de actitud. ¿Recuerda ese distrito con los jueces que tenían tasas de exoneración muy diferentes? Estos jueces “expresaron su interés en utilizar [SCALES] datos para mejorar la toma de decisiones”, escribieron los investigadores en un informe con recomendaciones de política publicado en el Ciencia revista.

“Vemos esto como una confirmación temprana y alentadora de nuestra afirmación de que los jueces serán particularmente receptivos a la retroalimentación cuantitativa que sea directa, apolítica y no controvertida”, escribieron.

RelacionadoEl aprendizaje automático impulsará la investigación de la Biblioteca del Congreso