Optimum RoBERTa-base-SQuAD2 Quantizado
Introdução
Este repositório contém uma versão quantizada do modelo optimum/roberta-base-squad2
, desenvolvido por Branden Chan et al. A quantização foi realizada utilizando a biblioteca Optimum ONNX para reduzir o tamanho do modelo e melhorar a eficiência, mantendo uma precisão aceitável.
Avaliação
Os modelos foram testados utilizando 600 entradas do conjunto de validação da base de dados rajpurkar/squad_v2.
Redução da Latência:
- Modelo Original: 0.572 segundos por amostra
- Modelo Quantizado: 0.437 segundos por amostra
- Análise: A latência foi significativamente reduzida, tornando o modelo mais adequado para aplicações em tempo real.
Aumento da Eficiência:
- Tempo Total:
- Modelo Original: 343.20 segundos
- Modelo Quantizado: 262.41 segundos
- Análise: O tempo total de execução foi consideravelmente reduzido.
- Amostras por Segundo:
- Modelo Original: 1.75 amostras/segundo
- Modelo Quantizado: 2.29 amostras/segundo
- Análise: A taxa de processamento aumentou, permitindo que mais amostras sejam processadas no mesmo período de tempo.
- Tempo Total:
Manutenção de Precisão Razoável:
- Exact Score:
- Modelo Original: 81.67
- Modelo Quantizado: 80.5
- Análise: Pequena queda na precisão, mas ainda em nível aceitável.
- F1 Score:
- Modelo Original: 83.75
- Modelo Quantizado: 82.49
- Análise: Queda ligeira no desempenho de F1 Score.
- Exact Score:
Comparação do Espaço Ocupado na Memória:
- Modelo Original: 476.52 MB
- Modelo Quantizado: 122.41 MB
- Análise: A quantização resultou em uma redução significativa no espaço ocupado, com o modelo quantizado utilizando apenas cerca de 25.7% do tamanho do modelo original.
Esses resultados indicam que a quantização foi bem-sucedida, alcançando uma redução significativa na latência, aumento na eficiência e uma economia substancial de espaço na memória, enquanto mantém uma precisão aceitável para tarefas de perguntas e respostas.
- Downloads last month
- 4