nicholasKluge
/

TeenyTinyLlama-160m-IMDB

@@ -11,77 +11,42 @@ pipeline_tag: text-classification
 tags:
 - sentiment-analysis
 ---
-## bert-base-cased
-| Epoch | Training Loss | Validation Loss | Accuracy |
-|-------|----------------|------------------|----------|
-| 1 | 0.304600 | 0.224774 | 0.908200 |
-| 2 | 0.138800 | 0.222201 | 0.918200 |
-| 3 | 0.080800 | 0.316631 | 0.922200 |
-## Gpt2-portuguese-small
-| Epoch | Training Loss | Validation Loss | Accuracy |
-|-------|---------------|------------------|----------|
-| 1 | 0.341800 | 0.241748 | 0.897600 |
-| 2 | 0.202500 | 0.224077 | 0.911600 |
-| 3 | 0.149300 | 0.239030 | 0.916000 |
-## nicholasKluge/Teeny-tiny-llama-162m-imdb
-| Epoch | Training Loss | Validation Loss | Accuracy |
-|-------|---------------|------------------|----------|
-| 1 | 0.344300 | 0.224800 | 0.911400 |
-| 2 | 0.149300 | 0.248538 | 0.906200 |
-| 3 | 0.081900 | 0.286298 | 0.909600 |
 ```python
 # IMDB
 ! pip install transformers datasets evaluate accelerate -q
 import evaluate
 import numpy as np
-from huggingface_hub import login
 from datasets import load_dataset, Dataset, DatasetDict
 from transformers import AutoTokenizer, DataCollatorWithPadding
 from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
-# Basic fine-tuning arguments
-token="your_token"
-task="christykoh/imdb_pt"
-model_name="neuralmind/bert-base-portuguese-cased"
-output_dir="checkpoint"
-learning_rate=4e-5
-per_device_train_batch_size=32
-per_device_eval_batch_size=32
-num_train_epochs=3
-weight_decay=0.01
 evaluation_strategy="epoch"
 save_strategy="epoch"
 hub_model_id="nicholasKluge/Teeny-tiny-llama-162m-imdb"
-# Login on the hub to load and push
-login(token=token)
 # Load the task
-dataset = load_dataset(task)
 # Create a `ModelForSequenceClassification`
 model = AutoModelForSequenceClassification.from_pretrained(
- model_name,
  num_labels=2,
  id2label={0: "NEGATIVE", 1: "POSITIVE"},
  label2id={"NEGATIVE": 0, "POSITIVE": 1}
 )
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-# If model does not have a pad_token, we need to add it
-#tokenizer.pad_token = tokenizer._eos_token
-#model.config.pad_token_id = model.config.eos_token_id
-# Pre process the dataset
 def preprocess_function(examples):
  return tokenizer(examples["text"], truncation=True, max_length=256)
@@ -90,7 +55,7 @@ dataset_tokenized = dataset.map(preprocess_function, batched=True)
 # Create a simple data collactor
 data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
-# Use accuracy as evaluation metric
 accuracy = evaluate.load("accuracy")
 # Function to compute accuracy
@@ -101,12 +66,12 @@ def compute_metrics(eval_pred):
 # Define training arguments
 training_args = TrainingArguments(
- output_dir=output_dir,
- learning_rate=learning_rate,
- per_device_train_batch_size=per_device_train_batch_size,
- per_device_eval_batch_size=per_device_eval_batch_size,
- num_train_epochs=num_train_epochs,
- weight_decay=weight_decay,
  evaluation_strategy=evaluation_strategy,
  save_strategy=save_strategy,
  load_best_model_at_end=True,

 tags:
 - sentiment-analysis
 ---
+# TeenyTinyLlama-162m-IMDB
+TeenyTinyLlama is a series of small foundational models trained on Portuguese.
+This repository contains a version of [TeenyTinyLlama-162m]() fine-tuned on a translated version of the IMDB dataset.
 ```python
 # IMDB
 ! pip install transformers datasets evaluate accelerate -q
 import evaluate
 import numpy as np
 from datasets import load_dataset, Dataset, DatasetDict
 from transformers import AutoTokenizer, DataCollatorWithPadding
 from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
 evaluation_strategy="epoch"
 save_strategy="epoch"
 hub_model_id="nicholasKluge/Teeny-tiny-llama-162m-imdb"
 # Load the task
+dataset = load_dataset("christykoh/imdb_pt")
 # Create a `ModelForSequenceClassification`
 model = AutoModelForSequenceClassification.from_pretrained(
+ "nicholasKluge/TeenyTinyLlama-162m",
  num_labels=2,
  id2label={0: "NEGATIVE", 1: "POSITIVE"},
  label2id={"NEGATIVE": 0, "POSITIVE": 1}
 )
+tokenizer = AutoTokenizer.from_pretrained("nicholasKluge/TeenyTinyLlama-162m")
+# Preprocess the dataset
 def preprocess_function(examples):
  return tokenizer(examples["text"], truncation=True, max_length=256)
 # Create a simple data collactor
 data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
+# Use accuracy as an evaluation metric
 accuracy = evaluate.load("accuracy")
 # Function to compute accuracy
 # Define training arguments
 training_args = TrainingArguments(
+ output_dir="checkpoints",
+ learning_rate=4e-5,
+ per_device_train_batch_size=16,
+ per_device_eval_batch_size=16,
+ num_train_epochs=3,
+ weight_decay=0.01,
  evaluation_strategy=evaluation_strategy,
  save_strategy=save_strategy,
  load_best_model_at_end=True,