Large Language Models no Direito

Conceitos, Aplicações e Problemas

Julio Trecenti

Julio Trecenti

Doutor em estatística pelo IME-USP 🎉
Diretor na Associação Brasileira de Jurimetria
Sócio na Terranova Consultoria
Pós-doc em Jurimetria no CEOE-Unifesp
Sócio na Curso-R
Professor auxiliar no Insper

Conceitos

O que é jurimetria?

Jurimetria é a aplicação da estatística no direito. Ela é usada para descobrir regras jurídicas a partir das marcas que o Direito deixa na sociedade.

O que são LLMs?




LLMs (em inglês Large Language Models) são modelos de aprendizado de máquina treinados para entender e gerar texto humano.

Os LLMs são modelos generativos: eles aprendem a prever a próxima palavra de uma frase, dada uma sequência de palavras anteriores. Isso permite que eles sejam usados para gerar textos, códigos, etc.

chatGPT

chatGPT é uma variante do modelo GPT-4 treinada especificamente para conversação. Ela pode entender e responder a perguntas, realizar tarefas como extração de texto e até simular diálogos em cenários específicos.

OpenAI Playground

OpenAI Playground é uma interface web que permite aos usuários interagir com modelos de linguagem como o GPT-4. É útil para fins de experimentação e teste.

API do GPT-4

A API do GPT-4 permite a integração do modelo em aplicativos e serviços, possibilitando a automatização de diversas tarefas, incluindo as jurídicas.

Pacote {openai}

O pacote {openai} é uma biblioteca para R que facilita a interação com a API da OpenAI, permitindo o uso do GPT-4 dentro do ecossistema R.

Aplicações

Um mundo novo

As aplicações de GPT aparecem todos os dias. Vamos ver 3 exemplos:

  • Extração de informações
  • Análise de jurisprudência
  • Geração de textos

Vamos ao R!

Se quiser acessar o código, entre aqui:

Problemas

Muitos problemas

A aplicação de LLMs é nova e possui diversos problemas e limitações. Vamos ver apenas alguns:

  • Validação dos resultados
  • Análise de grandes documentos
  • Privacidade e LGPD
  • Código fechado
  • Pressão do mercado
  • Riscos de tomar decisões automatizadas

O problema da validação

Os textos que saem do GPT podem ser difíceis de validar, pois a resposta “verdadeira” pode ser escrita de diferentes formas.

Possível solução: Usar o próprio GPT-4 para avaliar

https://arxiv.org/abs/2303.16634

O problema dos grandes documentos

A capacidade de processamento e a limitação de tokens do GPT-4 podem ser desafiadoras ao lidar com documentos extensos.

Possível solução: Usar ferramentas de busca com LangChain e concorrentes

Fonte

O problema da privacidade: LGPD

O tratamento de dados sensíveis deve estar em conformidade com regulamentações de privacidade, como a LGPD no Brasil.

Possível solução: Aplicar modelos na Nuvem da Azure

Fonte

O problema do código fechado

A falta de transparência em como os modelos de IA são treinados e funcionam pode ser um problema em termos de confiabilidade e responsabilização.

Alternativa: Utilizar modelos open source, como o Llama 2

Fonte

O problema das decisões automatizadas

O uso indiscriminado de IA para tomar decisões jurídicas pode levar a erros e perpetuação de vieses, como racial e gênero.





Ainda não temos uma solução para esse problema.

O problema do mercado

A pressão por resultados rápidos pode levar a adoção apressada de tecnologias, sem a devida validação e testes.

Imagem de Allison Horst

Solução: RESPIRE!

Por onde começar?

Sugiro começar pelos cursos da https://DeepLearning.ai.

Os cursos são sérios, gratuitos e rápidos.

De lá, você pode optar por desenvolver pesquisas mais aprofundadas ou mergulhar na profissão de engenharia de prompts!

Não se deixe levar pelo hype.

Antonio Galves

Antonio Galves






Aprendi sobre modelos probabilísticos em textos com o professor Antonio Galves.

No curso Aplicações de Processos Estocásticos, aprendemos sobre as cadeias de alcance variável, uma classe de modelos probabilísticos que estendem as cadeias de Markov.

Os LLMs podem ser pensados como cadeias de alcance variável.

Obrigado, Galves!

Obrigado!