usando Raspagem de Dados e Aprendizado Fracamente Supervisionado
"1158"
Nosso foco está em Captchas de texto em imagem, porque é um dos mais utilizados em serviços públicos.
Desenvolver um método inovador, chamado WAWL (Web Automatic Weak Learning) para resolver Captchas, misturando técnicas de aprendizado fracamente supervisionado com raspagem de dados.
Desenvolver um método inovador, chamado WAWL (Web Automatic Weak Learning) para resolver Captchas, misturando técnicas de aprendizado fracamente supervisionado com raspagem de dados.
{captcha}
disponível para comunidadeWeb Automatic Weak Learning (WAWL)
Parte de um modelo inicial
Obtém novos dados automaticamente
Atualiza o modelo
\[\mathcal L(g(\mathbf x), {\mathbf y}) = -\log\left[1 - \sum_{y \in \mathcal A} {g_y}(\mathbf x) I(y\notin {\mathbf y})\right]\]
Nome | Exemplo | Descrição |
---|---|---|
cadesp | Centro de Apoio ao Desenvolvimento da Saude Publica | |
esaj | Tribunal de Justica da Bahia | |
jucesp | Junta Comercial de Sao Paulo | |
rfb | Receita Federal | |
sei | Sistema Eletronico de Informacoes - ME | |
tjmg | Tribunal de Justica de Minas Gerais | |
tjpe | Tribunal de Justica de Pernambuco | |
tjrs | Tribunal de Justica do Rio Grande do Sul | |
trf5 | Tribunal Regional Federal 5 | |
trt | Tribunal Regional do Trabalho 3 |
Também consideramos Captchas artificiais, criados diretamente no R.
captcha_access()
e outra captcha_test()
.{captchaDownload}
.As bases de dados com imagens anotadas foram disponibilizadas na aba de lançamentos (releases) do repositório principal do projeto de pesquisa.
As bases e modelos ajustados estão disponíveis para quem tiver interesse em fazer novas pesquisas e utilizar os resultados em suas aplicações.
Obter modelos preditivos de Captchas com diferentes acurácias
Construir bases de dados utilizando o oráculo
Ajustar modelo final para as bases de treino construídas
Ganho relativo maior que 3x; ganho absoluto de 33%.
A utilização da técnica levou o modelo a uma acurácia de 100%.
O resultado sugere que o método WAWL pode ser aplicado iterativamente para aprimorar o aprendizado do modelo.
A partir do modelo inicial 11% de acurácia.
Após 100 épocas, o modelo baixou 6391 imagens e chegou em uma acurácia de 87% na base de teste.
{captcha}
Para uma lista completa de referências, ver o repositório da tese.