XueyingJia
/

pythia-1b-online-dpo-HH-merge-rewardmodel-resume

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

pythia-1b-online-dpo-HH-merge-rewardmodel-resume

1 contributor

History: 24 commits

XueyingJia's picture

Training in progress, step 1100

86924cd verified 16 days ago

.gitattributes

1.52 kB

initial commit 17 days ago
README.md

2.55 kB

Training in progress, step 100 17 days ago
adapter_config.json

655 Bytes

Training in progress, step 402 17 days ago
adapter_model.safetensors

4.2 MB
LFS

Training in progress, step 1100 16 days ago
special_tokens_map.json

587 Bytes

Training in progress, step 402 17 days ago
tokenizer.json

3.56 MB

Training in progress, step 402 17 days ago
tokenizer_config.json

5.52 kB

Training in progress, step 402 17 days ago
training_args.bin
Detected Pickle imports (9)
- "transformers.trainer_utils.IntervalStrategy",
- "accelerate.utils.dataclasses.DistributedType",
- "trl.trainer.online_dpo_config.OnlineDPOConfig",
- "transformers.trainer_utils.SchedulerType",
- "transformers.trainer_pt_utils.AcceleratorConfig",
- "transformers.training_args.OptimizerNames",
- "accelerate.state.PartialState",
- "torch.device",
- "transformers.trainer_utils.HubStrategy"
How to fix it?
6.07 kB
LFS

Training in progress, step 400 16 days ago