lole25
/

phi-2-gpo-ultrafeedback-lora

alignment-handbook

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

phi-2-gpo-ultrafeedback-lora / runs /Mar04_23-03-52_gpu4-119-4

Commit History

Model save

b6cf0f6
verified

lole25 commited on Mar 4

Training in progress, step 900

37bf073
verified

lole25 commited on Mar 4

Training in progress, step 800

f38868e
verified

lole25 commited on Mar 4

Training in progress, step 700

031042b
verified

lole25 commited on Mar 4

Training in progress, step 600

0ce0a29
verified

lole25 commited on Mar 4

Training in progress, step 500

6d7fc63
verified

lole25 commited on Mar 4

Training in progress, step 300

a2a548a
verified

lole25 commited on Mar 4

Training in progress, step 200

b872b70
verified

lole25 commited on Mar 4

Training in progress, step 100

01cfcf2
verified

lole25 commited on Mar 4