zfz1
/

deepseek-8b-orpo-lora

alignment-handbook

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

deepseek-8b-orpo-lora / eval_results.json

zfz1's picture

End of training

dd36c6b verified 5 months ago

history blame contribute delete

725 Bytes

	{
	"epoch": 1.9936102236421727,
	"eval_log_odds_chosen": 1.0634132623672485,
	"eval_log_odds_ratio": -0.421150267124176,
	"eval_logits/chosen": 35.52544021606445,
	"eval_logits/rejected": 34.42332077026367,
	"eval_logps/chosen": -0.3376733958721161,
	"eval_logps/rejected": -0.8398498296737671,
	"eval_loss": 0.6817505359649658,
	"eval_nll_loss": 0.6413611173629761,
	"eval_rewards/accuracies": 0.8088235259056091,
	"eval_rewards/chosen": -0.033767346292734146,
	"eval_rewards/margins": 0.0502176471054554,
	"eval_rewards/rejected": -0.08398497849702835,
	"eval_runtime": 252.7054,
	"eval_samples": 5398,
	"eval_samples_per_second": 21.361,
	"eval_steps_per_second": 0.336
	}