Spaces:

somosnlp
/

SpanishMedicaLLM

Runtime error

inoid commited on Mar 30, 2024

Commit

78455b7

1 Parent(s): f9a5344

Add appy_chat_template process

Files changed (1) hide show

spanish_medica_llm.py CHANGED Viewed

@@ -698,13 +698,14 @@ def run_training_process():
     configAndRunTraining(base_model,train_dataset, eval_dataset, tokenizer)
 def run_finnetuning_process():
     #Loggin to Huggin Face
     login(token = os.environ.get('HG_FACE_TOKEN'))
     os.environ['WANDB_DISABLED'] = 'true'
     tokenizer = loadSpanishTokenizer()
     medicalSpanishDataset = applyChatInstructFormat( loadSpanishDatasetFinnetuning())
-    print ( tokenizer.apply_chat_template(medicalSpanishDataset[5], tokenize=False))
     print('----------------------------------------------------------')
     medicalSpanishDataset = tokenizer.apply_chat_template(medicalSpanishDataset, tokenize=False)
     medicalSpanishDataset = medicalSpanishDataset.train_test_split(0.2, seed=203984)

     configAndRunTraining(base_model,train_dataset, eval_dataset, tokenizer)
 def run_finnetuning_process():
     #Loggin to Huggin Face
     login(token = os.environ.get('HG_FACE_TOKEN'))
     os.environ['WANDB_DISABLED'] = 'true'
     tokenizer = loadSpanishTokenizer()
     medicalSpanishDataset = applyChatInstructFormat( loadSpanishDatasetFinnetuning())
+    print ( tokenizer.apply_chat_template(medicalSpanishDataset[5]['raw_text'], tokenize=False))
     print('----------------------------------------------------------')
     medicalSpanishDataset = tokenizer.apply_chat_template(medicalSpanishDataset, tokenize=False)
     medicalSpanishDataset = medicalSpanishDataset.train_test_split(0.2, seed=203984)