Optimum RoBERTa-base-SQuAD2 Quantizado

Introdução

Este repositório contém uma versão quantizada do modelo optimum/roberta-base-squad2, desenvolvido por Branden Chan et al. A quantização foi realizada utilizando a biblioteca Optimum ONNX para reduzir o tamanho do modelo e melhorar a eficiência, mantendo uma precisão aceitável.

Avaliação

Os modelos foram testados utilizando 600 entradas do conjunto de validação da base de dados rajpurkar/squad_v2.

  1. Redução da Latência:

    • Modelo Original: 0.572 segundos por amostra
    • Modelo Quantizado: 0.437 segundos por amostra
    • Análise: A latência foi significativamente reduzida, tornando o modelo mais adequado para aplicações em tempo real.
  2. Aumento da Eficiência:

    • Tempo Total:
      • Modelo Original: 343.20 segundos
      • Modelo Quantizado: 262.41 segundos
      • Análise: O tempo total de execução foi consideravelmente reduzido.
    • Amostras por Segundo:
      • Modelo Original: 1.75 amostras/segundo
      • Modelo Quantizado: 2.29 amostras/segundo
      • Análise: A taxa de processamento aumentou, permitindo que mais amostras sejam processadas no mesmo período de tempo.
  3. Manutenção de Precisão Razoável:

    • Exact Score:
      • Modelo Original: 81.67
      • Modelo Quantizado: 80.5
      • Análise: Pequena queda na precisão, mas ainda em nível aceitável.
    • F1 Score:
      • Modelo Original: 83.75
      • Modelo Quantizado: 82.49
      • Análise: Queda ligeira no desempenho de F1 Score.
  4. Comparação do Espaço Ocupado na Memória:

    • Modelo Original: 476.52 MB
    • Modelo Quantizado: 122.41 MB
    • Análise: A quantização resultou em uma redução significativa no espaço ocupado, com o modelo quantizado utilizando apenas cerca de 25.7% do tamanho do modelo original.

Esses resultados indicam que a quantização foi bem-sucedida, alcançando uma redução significativa na latência, aumento na eficiência e uma economia substancial de espaço na memória, enquanto mantém uma precisão aceitável para tarefas de perguntas e respostas.

Downloads last month
4
Inference API
Unable to determine this model’s pipeline type. Check the docs .