Optimum RoBERTa-base-SQuAD2 Quantizado

Introdução

Este repositório contém uma versão quantizada do modelo optimum/roberta-base-squad2, desenvolvido por Branden Chan et al. A quantização foi realizada utilizando a biblioteca Optimum ONNX para reduzir o tamanho do modelo e melhorar a eficiência, mantendo uma precisão aceitável.

Avaliação

Os modelos foram testados utilizando 600 entradas do conjunto de validação da base de dados rajpurkar/squad_v2.

Redução da Latência:
- Modelo Original: 0.572 segundos por amostra
- Modelo Quantizado: 0.437 segundos por amostra
- Análise: A latência foi significativamente reduzida, tornando o modelo mais adequado para aplicações em tempo real.
Aumento da Eficiência:
- Tempo Total:
  - Modelo Original: 343.20 segundos
  - Modelo Quantizado: 262.41 segundos
  - Análise: O tempo total de execução foi consideravelmente reduzido.
- Amostras por Segundo:
  - Modelo Original: 1.75 amostras/segundo
  - Modelo Quantizado: 2.29 amostras/segundo
  - Análise: A taxa de processamento aumentou, permitindo que mais amostras sejam processadas no mesmo período de tempo.
Manutenção de Precisão Razoável:
- Exact Score:
  - Modelo Original: 81.67
  - Modelo Quantizado: 80.5
  - Análise: Pequena queda na precisão, mas ainda em nível aceitável.
- F1 Score:
  - Modelo Original: 83.75
  - Modelo Quantizado: 82.49
  - Análise: Queda ligeira no desempenho de F1 Score.
Comparação do Espaço Ocupado na Memória:
- Modelo Original: 476.52 MB
- Modelo Quantizado: 122.41 MB
- Análise: A quantização resultou em uma redução significativa no espaço ocupado, com o modelo quantizado utilizando apenas cerca de 25.7% do tamanho do modelo original.

Esses resultados indicam que a quantização foi bem-sucedida, alcançando uma redução significativa na latência, aumento na eficiência e uma economia substancial de espaço na memória, enquanto mantém uma precisão aceitável para tarefas de perguntas e respostas.