Training in progress, epoch 1

Browse files

Files changed (12) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
training_args.bin +2 -2
wandb/debug-internal.log +20 -0
wandb/debug.log +48 -0
wandb/run-20241205_143913-2mwisme1/files/output.log +5 -0
wandb/run-20241205_143913-2mwisme1/files/requirements.txt +814 -0
wandb/run-20241205_143913-2mwisme1/files/wandb-metadata.json +43 -0
wandb/run-20241205_143913-2mwisme1/logs/debug-core.log +7 -0
wandb/run-20241205_143913-2mwisme1/logs/debug-internal.log +20 -0
wandb/run-20241205_143913-2mwisme1/logs/debug.log +48 -0
wandb/run-20241205_143913-2mwisme1/run-2mwisme1.wandb +0 -0

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "up_proj",
-    "v_proj",
-    "down_proj",
     "k_proj",
     "o_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
+    "v_proj",
+    "up_proj",
     "o_proj",
+    "down_proj",
+    "q_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:089302d2055542e154d716dc0a614198b212c3143e1131cd700f2d11bfc89262
 size 97307544

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddce69774d1745c74f005a535e050ccc8c86ce46c4d92519e9f78a08c4dbd773
 size 97307544

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9c9e219ac9eec7c128200d707f49318339fc57b071a906213a35371f7c7ec9f
-size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:49eda80b5f50102214bcde180bdc1f218d118d0751c7f1bdaddb0e9e1a768dec
+size 5560

wandb/debug-internal.log ADDED Viewed

	@@ -0,0 +1,20 @@

+{"time":"2024-12-05T14:39:13.215311083Z","level":"INFO","msg":"using version","core version":"0.18.3"}
+{"time":"2024-12-05T14:39:13.215339406Z","level":"INFO","msg":"created symlink","path":"/kaggle/working/wandb/run-20241205_143913-2mwisme1/logs/debug-core.log"}
+{"time":"2024-12-05T14:39:15.217256419Z","level":"ERROR","msg":"dialing: google: could not find default credentials. See https://cloud.google.com/docs/authentication/external/set-up-adc for more information"}
+{"time":"2024-12-05T14:39:15.221746354Z","level":"INFO","msg":"created new stream","id":"2mwisme1"}
+{"time":"2024-12-05T14:39:15.221774614Z","level":"INFO","msg":"stream: started","id":"2mwisme1"}
+{"time":"2024-12-05T14:39:15.221805326Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"2mwisme1"}}
+{"time":"2024-12-05T14:39:15.221843207Z","level":"INFO","msg":"handler: started","stream_id":{"value":"2mwisme1"}}
+{"time":"2024-12-05T14:39:15.221842955Z","level":"INFO","msg":"sender: started","stream_id":{"value":"2mwisme1"}}
+{"time":"2024-12-05T14:39:15.415690183Z","level":"INFO","msg":"wandb-core","!BADKEY":null}
+{"time":"2024-12-05T14:39:15.416772438Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-12-05T14:39:26.759443118Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:15.890079536Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:20.002045749Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:23.883801968Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:24.057644952Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:27.124441713Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:27.164833611Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:30.712386169Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:30.719681016Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:33.978004525Z","level":"INFO","msg":"Resuming system monitor"}

wandb/debug.log ADDED Viewed

	@@ -0,0 +1,48 @@

+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Current SDK version is 0.18.3
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Configure stats pid to 260
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Loading settings from /kaggle/working/wandb/settings
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Loading settings from environment variables: {'api_key': '***REDACTED***'}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program': '<python with no main file>'}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:_log_setup():532] Logging user logs to /kaggle/working/wandb/run-20241205_143913-2mwisme1/logs/debug.log
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:_log_setup():533] Logging internal logs to /kaggle/working/wandb/run-20241205_143913-2mwisme1/logs/debug-internal.log
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:_jupyter_setup():478] configuring jupyter hooks <wandb.sdk.wandb_init._WandbInit object at 0x78025df07a30>
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:init():617] calling init triggers
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:init():624] wandb.init called with sweep_config: {}
+config: {}
+2024-12-05 14:39:13,211 INFO    MainThread:260 [wandb_init.py:init():667] starting backend
+2024-12-05 14:39:13,211 INFO    MainThread:260 [wandb_init.py:init():671] sending inform_init request
+2024-12-05 14:39:13,212 INFO    MainThread:260 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-12-05 14:39:13,212 INFO    MainThread:260 [wandb_init.py:init():684] backend started and connected
+2024-12-05 14:39:13,225 INFO    MainThread:260 [wandb_run.py:_label_probe_notebook():1346] probe notebook
+2024-12-05 14:39:13,734 INFO    MainThread:260 [wandb_init.py:init():779] updated telemetry
+2024-12-05 14:39:13,738 INFO    MainThread:260 [wandb_init.py:init():812] communicating run to backend with 90.0 second timeout
+2024-12-05 14:39:15,412 INFO    MainThread:260 [wandb_init.py:init():863] starting run threads in backend
+2024-12-05 14:39:16,103 INFO    MainThread:260 [wandb_run.py:_console_start():2465] atexit reg
+2024-12-05 14:39:16,103 INFO    MainThread:260 [wandb_run.py:_redirect():2313] redirect: wrap_raw
+2024-12-05 14:39:16,103 INFO    MainThread:260 [wandb_run.py:_redirect():2378] Wrapping output streams.
+2024-12-05 14:39:16,104 INFO    MainThread:260 [wandb_run.py:_redirect():2403] Redirects installed.
+2024-12-05 14:39:16,111 INFO    MainThread:260 [wandb_init.py:init():907] run started, returning control to user process
+2024-12-05 14:39:16,115 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb None None {'peft_config': {'default': {'peft_type': <PeftType.LORA: 'LORA'>, 'auto_mapping': None, 'base_model_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', 'revision': None, 'task_type': <TaskType.CAUSAL_LM: 'CAUSAL_LM'>, 'inference_mode': False, 'r': 16, 'target_modules': {'k_proj', 'v_proj', 'up_proj', 'o_proj', 'down_proj', 'q_proj', 'gate_proj'}, 'lora_alpha': 16, 'lora_dropout': 0, 'fan_in_fan_out': False, 'bias': 'none', 'use_rslora': False, 'modules_to_save': None, 'init_lora_weights': True, 'layers_to_transform': None, 'layers_pattern': None, 'rank_pattern': {}, 'alpha_pattern': {}, 'megatron_config': None, 'megatron_core': 'megatron.core', 'loftq_config': {}, 'use_dora': False, 'layer_replication': None, 'runtime_config': {'ephemeral_gpu_offload': False}}}, 'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': 128004, 'eos_token_id': [128001, 128008, 128009], 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', '_attn_implementation_autoset': True, 'transformers_version': '4.47.0.dev0', 'model_type': 'llama', 'quantization_config': {'bnb_4bit_compute_dtype': 'float16', 'bnb_4bit_quant_type': 'nf4', 'bnb_4bit_use_double_quant': True, 'llm_int8_enable_fp32_cpu_offload': False, 'llm_int8_has_fp16_weight': False, 'llm_int8_skip_modules': None, 'llm_int8_threshold': 6.0, 'load_in_4bit': True, 'load_in_8bit': False, 'quant_method': 'bitsandbytes'}, 'unsloth_version': '2024.12.2', 'output_dir': '/kaggle/working', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'epoch', 'prediction_loss_only': False, 'per_device_train_batch_size': 2, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0002, 'weight_decay': 0.01, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 5, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/Dec05_14-38-49_004ac713e0a4', 'logging_strategy': 'epoch', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'epoch', 'save_steps': 500, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 3407, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_8bit', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': 'Llama-3.2-3B-appreciation', 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': None, 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False, 'dataset_text_field': 'text', 'packing': False, 'max_seq_length': 2048, 'dataset_num_proc': 2, 'dataset_batch_size': 1000, 'model_init_kwargs': None, 'dataset_kwargs': {}, 'eval_packing': None, 'num_of_sequences': 1024, 'chars_per_token': '<CHARS_PER_TOKEN>', 'use_liger': False}
+2024-12-05 14:39:16,125 INFO    MainThread:260 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3237063680 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7802a4f3a680>>
+2024-12-05 14:39:16,125 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb model/num_parameters 3237063680 None
+2024-12-05 14:39:26,758 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:39:26,759 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:15,889 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:20,001 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:20,001 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:23,882 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:24,057 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:24,057 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:27,123 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:27,130 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:27,130 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:30,711 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:30,719 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:30,719 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:33,975 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:37,610 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb None None {'peft_config': {'default': {'peft_type': <PeftType.LORA: 'LORA'>, 'auto_mapping': None, 'base_model_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', 'revision': None, 'task_type': <TaskType.CAUSAL_LM: 'CAUSAL_LM'>, 'inference_mode': False, 'r': 16, 'target_modules': {'k_proj', 'v_proj', 'up_proj', 'o_proj', 'down_proj', 'q_proj', 'gate_proj'}, 'lora_alpha': 16, 'lora_dropout': 0, 'fan_in_fan_out': False, 'bias': 'none', 'use_rslora': False, 'modules_to_save': None, 'init_lora_weights': True, 'layers_to_transform': None, 'layers_pattern': None, 'rank_pattern': {}, 'alpha_pattern': {}, 'megatron_config': None, 'megatron_core': 'megatron.core', 'loftq_config': {}, 'use_dora': False, 'layer_replication': None, 'runtime_config': {'ephemeral_gpu_offload': False}}}, 'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': 128004, 'eos_token_id': [128001, 128008, 128009], 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', '_attn_implementation_autoset': True, 'transformers_version': '4.47.0.dev0', 'model_type': 'llama', 'quantization_config': {'bnb_4bit_compute_dtype': 'float16', 'bnb_4bit_quant_type': 'nf4', 'bnb_4bit_use_double_quant': True, 'llm_int8_enable_fp32_cpu_offload': False, 'llm_int8_has_fp16_weight': False, 'llm_int8_skip_modules': None, 'llm_int8_threshold': 6.0, 'load_in_4bit': True, 'load_in_8bit': False, 'quant_method': 'bitsandbytes'}, 'unsloth_version': '2024.12.2', 'output_dir': '/kaggle/working', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'epoch', 'prediction_loss_only': False, 'per_device_train_batch_size': 2, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0002, 'weight_decay': 0.01, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 5, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/Dec05_14-41-15_004ac713e0a4', 'logging_strategy': 'epoch', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'epoch', 'save_steps': 500, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 3407, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_8bit', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': 'Llama-3.2-3B-appreciation', 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': None, 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False, 'dataset_text_field': 'text', 'packing': False, 'max_seq_length': 2048, 'dataset_num_proc': 2, 'dataset_batch_size': 1000, 'model_init_kwargs': None, 'dataset_kwargs': {}, 'eval_packing': None, 'num_of_sequences': 1024, 'chars_per_token': '<CHARS_PER_TOKEN>', 'use_liger': False}
+2024-12-05 14:41:37,619 INFO    MainThread:260 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3237063680 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7802a4f3a680>>
+2024-12-05 14:41:37,619 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb model/num_parameters 3237063680 None

wandb/run-20241205_143913-2mwisme1/files/output.log ADDED Viewed

	@@ -0,0 +1,5 @@

+==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
+   \\   /|    Num examples = 468 | Num Epochs = 5
+O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
+\        /    Total batch size = 8 | Total steps = 290
+ "-____-"     Number of trainable parameters = 24,313,856

wandb/run-20241205_143913-2mwisme1/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,814 @@

+brotlipy==0.7.0
+PySocks==1.7.1
+conda-content-trust==0+unknown
+six==1.16.0
+ruamel-yaml-conda==0.15.100
+xformers==0.0.28.post3
+peft==0.13.2
+keras==3.7.0
+triton==3.1.0
+ml-dtypes==0.3.2
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-nvtx-cu12==12.1.105
+pfzy==0.3.4
+nvidia-nccl-cu12==2.21.5
+inquirerpy==0.3.4
+nvidia-cuda-nvrtc-cu12==12.1.105
+mpmath==1.3.0
+hf_transfer==0.1.8
+cut-cross-entropy==24.12.1
+nvidia-cudnn-cu12==9.1.0.70
+pip3-autoremove==1.2.2
+nvidia-cuda-runtime-cu12==12.1.105
+tensorboard==2.16.2
+torch==2.5.1+cu121
+unsloth_zoo==2024.12.1
+tensorflow==2.16.2
+unsloth==2024.12.2
+shtab==1.7.1
+nvidia-cublas-cu12==12.1.3.1
+transformers==4.47.0.dev0
+sympy==1.13.1
+bitsandbytes==0.44.2.dev0
+trl==0.12.1
+torchaudio==2.5.1+cu121
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cusolver-cu12==11.4.5.107
+torchvision==0.20.1+cu121
+nvidia-cusparse-cu12==12.1.0.106
+tyro==0.9.2
+nvidia-nvjitlink-cu12==12.1.105
+jupyter-lsp==1.5.1
+packaging==21.3
+jupyter_server==2.12.5
+Wand==0.6.13
+pytesseract==0.3.13
+pypdf==5.0.1
+pdf2image==1.17.0
+kaggle-environments==1.14.15
+safetensors==0.4.5
+py-cpuinfo==9.0.0
+qgrid==1.3.1
+woodwork==0.31.0
+gcsfs==2024.6.1
+google-auth-httplib2==0.2.0
+onnx==1.17.0
+pytorch-ignite==0.5.1
+MarkupSafe==2.1.5
+sentry-sdk==2.15.0
+torchinfo==1.8.0
+ndindex==1.9.2
+learntools==0.3.4
+s3fs==2024.6.1
+eval_type_backport==0.2.0
+aiobotocore==2.15.1
+featuretools==1.31.0
+plotly-express==0.4.1
+aiohttp==3.9.5
+easyocr==1.7.2
+slicer==0.0.7
+pyemd==1.0.0
+tsfresh==0.20.3
+vec_noise==1.1.4
+pandasql==0.7.3
+setproctitle==1.3.3
+albucore==0.0.17
+multiprocess==0.70.16
+opencv-python-headless==4.10.0.84
+gymnasium==0.29.0
+openpyxl==3.1.5
+cesium==0.12.3
+torchmetrics==1.4.2
+shap==0.44.1
+watchdog==5.0.3
+google-api-python-client==2.147.0
+ghapi==1.0.6
+jieba==0.42.1
+alembic==1.13.3
+docker-pycreds==0.4.0
+scipy==1.14.1
+blinker==1.8.2
+nbdev==2.3.31
+bqplot==0.12.43
+pydub==0.25.1
+python-bidi==0.6.0
+pycryptodome==3.20.0
+tables==3.10.1
+ninja==1.11.1.1
+tokenizers==0.20.0
+pydegensac==0.1.2
+pyclipper==1.3.0.post5
+blosc2==2.7.1
+PyArabic==0.6.15
+fastai==2.7.17
+gym-notices==0.0.8
+itsdangerous==2.2.0
+numpy==1.26.4
+Werkzeug==3.0.4
+traittypes==0.2.1
+optuna==4.0.0
+Pympler==1.1
+albumentations==1.4.17
+scikit-learn==1.2.2
+numba==0.60.0
+timm==1.0.9
+pytorch-lightning==2.4.0
+colorlog==6.8.2
+gym==0.26.2
+execnb==0.1.6
+llvmlite==0.43.0
+llvmlite==0.43.0
+earthengine-api==1.1.2
+pettingzoo==1.24.0
+segment_anything==1.0
+aioitertools==0.12.0
+rgf-python==3.12.0
+Flask==3.0.3
+wandb==0.18.3
+stable-baselines3==2.1.0
+datasets==3.0.1
+lightning-utilities==0.11.7
+huggingface-hub==0.25.1
+et-xmlfile==1.1.0
+accelerate==0.34.2
+Shapely==1.8.5.post1
+shapely==2.0.6
+Shimmy==1.3.0
+stumpy==1.13.0
+Rtree==1.3.0
+fsspec==2024.6.1
+fsspec==2024.9.0
+fastcore==1.7.10
+fastdownload==0.0.7
+gatspy==0.3
+botocore==1.35.23
+dill==0.3.8
+google-cloud-bigquery==2.34.4
+google-cloud-videointelligence==2.13.5
+google-api-core==2.11.1
+google-api-core==2.20.0
+google-cloud-aiplatform==0.6.0a1
+google-cloud-monitoring==2.21.0
+google-auth==2.30.0
+google-cloud-automl==1.0.1
+google-cloud-storage==1.44.0
+googleapis-common-protos==1.63.1
+google-cloud-translate==3.12.1
+google-cloud-core==2.4.1
+google-generativeai==0.8.2
+google-cloud-vision==2.8.0
+google-cloud-datastore==2.20.1
+google-cloud-artifact-registry==1.11.3
+google-cloud-language==2.14.0
+en-core-web-sm==3.7.1
+en-core-web-lg==3.7.1
+docstring-to-markdown==0.15
+jupyterlab-lsp==5.1.0
+traceml==1.0.8
+qtconsole==5.6.0
+ipywidgets==7.7.1
+pytoolconfig==1.3.1
+rope==1.13.0
+async-lru==2.0.4
+datatile==1.0.3
+pydocstyle==6.3.0
+QtPy==2.4.1
+isort==5.13.2
+tomlkit==0.13.2
+olefile==0.47
+mccabe==0.7.0
+pylint==3.3.1
+jupyter-console==6.6.3
+astroid==3.3.4
+yapf==0.40.2
+jupyterlab==4.2.5
+flake8==7.1.1
+whatthepatch==1.0.6
+pyflakes==3.2.0
+pandas-summary==0.2.0
+nbconvert==6.4.5
+testpath==0.6.0
+nbclient==0.5.13
+python-lsp-server==1.12.0
+kornia==0.7.3
+snowballstemmer==2.2.0
+python-lsp-jsonrpc==1.1.2
+autopep8==2.0.4
+pycodestyle==2.12.1
+isoweek==1.3.3
+widgetsnbextension==3.6.9
+kornia_rs==0.1.5
+mistune==0.8.4
+openslide-python==1.3.1
+html5lib==1.1
+ppft==1.7.6.9
+pathos==0.3.3
+pox==0.3.5
+pandas-datareader==0.10.0
+category-encoders==2.6.4
+mlcrate==0.2.0
+Janome==0.5.0
+annoy==1.17.3
+yellowbrick==1.5
+emoji==2.13.2
+librosa==0.10.2.post1
+soxr==0.5.0.post1
+memory-profiler==0.61.0
+sentencepiece==0.2.0
+audioread==3.0.1
+cufflinks==0.17.3
+soundfile==0.12.1
+lime==0.2.0.1
+colorlover==0.3.0
+CVXcanon==0.1.2
+sklearn-pandas==2.2.0
+scikit-multilearn==0.2.0
+path==17.0.0
+odfpy==1.4.1
+mpld3==0.5.10
+kaggle==1.6.17
+narwhals==1.9.0
+fury==0.11.0
+xarray-einstats==0.8.0
+scikit-surprise==1.1.4
+ydata-profiling==4.10.0
+panel==1.5.1
+plotnine==0.13.6
+py4j==0.10.9.7
+fuzzywuzzy==0.18.0
+fastprogress==1.0.3
+update-checker==0.18.0
+missingno==0.5.2
+catboost==1.2.7
+pyexcel-io==0.6.6
+stopit==1.1.2
+arviz==0.20.0
+branca==0.8.0
+mizani==0.11.4
+nltk==3.2.4
+semver==3.0.2
+SimpleITK==2.4.0
+TPOT==0.12.1
+nibabel==5.2.1
+folium==0.17.0
+gpxpy==1.6.2
+bayesian-optimization==1.5.1
+hyperopt==0.2.7
+python-louvain==0.16
+orderly-set==5.2.2
+typing-inspect==0.9.0
+ecos==2.0.14
+lxml==5.3.0
+trx-python==0.3
+iniconfig==2.0.0
+leven==1.0.4
+path.py==12.5.0
+pymc3==3.11.4
+wavio==0.0.9
+lml==0.1.0
+deap==1.4.1
+marshmallow==3.22.0
+pygltflib==1.16.2
+numexpr==2.10.1
+pyLDAvis==3.4.1
+python-slugify==8.0.4
+pydantic==2.9.2
+langid==1.1.6
+setuptools-scm==8.1.0
+geojson==3.1.0
+scikit-plot==0.3.7
+holidays==0.57
+nose==1.3.7
+pytest==8.3.3
+google-ai-generativelanguage==0.6.10
+text-unidecode==1.3
+Theano-PyMC==1.1.2
+dipy==1.9.0
+h5netcdf==1.3.0
+funcy==2.0
+holoviews==1.19.1
+stanio==0.5.1
+squarify==0.4.4
+mlxtend==0.23.1
+future==1.0.0
+dataclasses-json==0.6.7
+prophet==1.1.5
+imgaug==0.4.0
+nilearn==0.10.4
+deepdiff==8.0.1
+eli5==0.13.0
+pyviz_comms==3.0.3
+pydicom==3.0.1
+mypy-extensions==1.0.0
+haversine==2.8.1
+sphinx-rtd-theme==0.2.4
+altair==5.4.1
+cmdstanpy==1.2.4
+pyexcel-ods==0.6.0
+preprocessing==0.1.13
+matplotlib-venn==1.1.1
+pyaml==24.9.0
+scikit-optimize==0.10.2
+vtk==9.3.1
+xvfbwrapper==0.2.9
+urwid_readline==0.15.1
+scikit-learn-intelex==2024.7.0
+Boruta==0.4.3
+pybind11==2.13.6
+line_profiler==4.1.3
+datashader==0.16.3
+fasttext==0.9.3
+s3transfer==0.6.2
+param==2.1.1
+pudb==2024.1.2
+jmespath==1.0.1
+xarray==2024.9.0
+colorcet==3.1.0
+urwid==2.6.15
+boto3==1.26.100
+imbalanced-learn==0.12.3
+daal4py==2024.7.0
+daal==2024.7.0
+libpysal==4.9.2
+pyct==0.5.0
+tbb==2021.13.1
+gensim==4.3.3
+textblob==0.18.0.post0
+xgboost==2.0.3
+opencv-python==4.10.0.84
+Theano==1.0.5
+hep-ml==0.7.2
+opencv-contrib-python==4.10.0.84
+kagglehub==0.3.1
+keras-core==0.1.7
+keras-nlp==0.15.1
+tensorflow_decision_forests==1.9.1
+wurlitzer==3.1.1
+tensorflow-text==2.16.1
+ydf==0.8.0
+keras-cv==0.9.0
+h2o==3.46.0.5
+polars==1.9.0
+pooch==1.8.2
+igraph==0.11.6
+optax==0.2.2
+orbax-checkpoint==0.6.4
+flax==0.8.4
+chex==0.1.86
+tensorstore==0.1.66
+dask-expr==1.1.15
+python-dateutil==2.9.0.post0
+geographiclib==2.0
+PyUpSet==0.1.1.post7
+pandas==2.2.3
+pandas==2.2.2
+cloudpickle==3.0.0
+matplotlib==3.7.5
+matplotlib==3.9.2
+ipympl==0.7.0
+PyYAML==6.0.2
+texttable==1.7.0
+geopy==2.4.1
+dask==2024.9.1
+mne==1.8.0
+pynvrtc==9.2
+pycuda==2024.1.2
+pytools==2024.1.14
+Mako==1.3.5
+jaxlib==0.4.26.dev20240620
+jax==0.4.26
+lightgbm==4.2.0
+pynvml==11.4.1
+annotated-types==0.7.0
+srsly==2.4.8
+catalogue==2.0.10
+partd==1.4.2
+langcodes==3.4.1
+preshed==3.0.9
+pytz==2024.2
+pytz==2024.1
+pynvjitlink-cu12==0.3.0
+spacy-legacy==3.0.12
+spacy==3.7.6
+murmurhash==1.0.10
+thinc==8.2.5
+language_data==1.2.0
+blis==0.7.10
+pydantic_core==2.23.4
+grpcio==1.62.2
+grpcio==1.64.1
+raft-dask==24.8.1
+msgpack==1.1.0
+msgpack==1.0.8
+distributed==2024.7.1
+wrapt==1.16.0
+pylibraft==24.8.1
+cymem==2.0.8
+nvtx==0.2.10
+spacy-loggers==1.0.5
+wasabi==1.1.2
+pyarrow==16.1.0
+cupy==13.3.0
+zict==3.0.0
+bokeh==3.5.2
+dask-cudf==24.8.3
+treelite==4.3.0
+xyzservices==2024.9.0
+cuml==24.8.0
+shellingham==1.5.4
+proto-plus==1.23.0
+locket==1.0.0
+tzdata==2024.2
+tzdata==2024.1
+typer-slim==0.12.5
+pyarrow-hotfix==0.6
+toolz==0.12.1
+rapids-dask-dependency==24.8.0a0
+rmm==24.8.2
+markdown-it-py==3.0.0
+fastrlock==0.8.2
+mdurl==0.1.2
+weasel==0.4.1
+rich==13.9.1
+rich==13.7.1
+cudf==24.8.3
+confection==0.1.4
+tblib==3.0.0
+joblib==1.4.2
+cuda-python==12.6.0
+typer==0.12.5
+typer==0.12.3
+marisa-trie==1.1.0
+distributed-ucxx==0.39.1
+cloudpathlib==0.19.0
+ucx-py==0.39.2
+cytoolz==0.12.3
+smart_open==7.0.4
+click==8.1.7
+dask-cuda==24.8.2
+protobuf==4.25.3
+protobuf==3.20.3
+ucxx==0.39.1
+sortedcontainers==2.4.0
+lz4==4.3.3
+pyparsing==3.1.4
+pyparsing==3.1.2
+zstandard==0.23.0
+unicodedata2==15.1.0
+fonttools==4.54.1
+fonttools==4.53.0
+pyshp==2.3.1
+pillow==10.4.0
+pillow==10.3.0
+cycler==0.12.1
+conda==24.9.0
+certifi==2024.8.30
+pyproj==3.7.0
+pyproj==3.6.1
+libmambapy==1.5.10
+Cartopy==0.23.0
+contourpy==1.3.0
+contourpy==1.2.1
+munkres==1.1.4
+kiwisolver==1.4.7
+kiwisolver==1.4.5
+mamba==1.5.10
+conda-libmamba-solver==23.12.0
+graphviz==0.20.3
+pycparser==2.22
+nbdime==3.2.0
+astunparse==1.6.3
+fastapi-cli==0.0.4
+jsonschema-specifications==2023.12.1
+pandocfilters==1.5.0
+opentelemetry-exporter-otlp==1.25.0
+libclang==18.1.1
+h11==0.14.0
+grpc-google-iam-v1==0.12.7
+rpds-py==0.18.1
+jupyterlab_pygments==0.3.0
+tensorflow-hub==0.16.1
+cryptography==42.0.8
+requests-oauthlib==2.0.0
+pydata-google-auth==1.8.2
+overrides==7.7.0
+ipython-genutils==0.2.0
+y-py==0.6.2
+opentelemetry-proto==1.25.0
+greenlet==3.0.3
+nvidia-ml-py==11.495.46
+PyJWT==2.8.0
+time-machine==2.14.1
+Cython==3.0.10
+tensorflow-probability==0.24.0
+click-plugins==1.1.1
+google-cloud-pubsub==2.21.3
+jupyter_core==5.7.2
+webcolors==24.6.0
+jupyterlab_server==2.27.2
+grpcio-status==1.48.0
+grpcio-status==1.48.2
+fqdn==1.5.1
+jeepney==0.8.0
+google-cloud-recommendations-ai==0.7.1
+httptools==0.6.1
+ipython-sql==0.5.0
+toml==0.10.2
+ipykernel==6.29.4
+tensorboardX==2.6.2.2
+objsize==0.6.1
+patsy==0.5.6
+immutabledict==4.2.0
+Jinja2==3.1.4
+requests-toolbelt==0.10.1
+statsmodels==0.14.2
+tenacity==8.3.0
+platformdirs==3.11.0
+platformdirs==4.2.2
+google-cloud-iam==2.15.0
+typeguard==4.3.0
+jupyter_server_terminals==0.5.3
+httpcore==1.0.5
+ipython==8.21.0
+ipython==8.25.0
+google-cloud-resource-manager==1.12.3
+tensorflow-estimator==2.15.0
+idna==3.7
+pandas-profiling==3.6.6
+tensorflow-cloud==0.1.16
+distlib==0.3.8
+lazy_loader==0.4
+termcolor==2.4.0
+tensorflow-datasets==4.9.6
+importlib_resources==6.4.0
+opentelemetry-exporter-otlp-proto-grpc==1.25.0
+jupyter-ydoc==0.2.5
+aiofiles==22.1.0
+wordcloud==1.9.3
+opencensus==0.11.4
+jupyterlab_git==0.44.0
+truststore==0.8.0
+linkify-it-py==2.0.3
+isoduration==20.11.0
+google-cloud-bigquery-connection==1.15.3
+setuptools==70.0.0
+opentelemetry-semantic-conventions==0.46b0
+cffi==1.16.0
+pure-eval==0.2.2
+webencodings==0.5.1
+orjson==3.10.4
+wheel==0.43.0
+multidict==6.0.5
+starlette==0.37.2
+Deprecated==1.2.14
+ImageHash==4.3.1
+parso==0.8.4
+psutil==5.9.3
+psutil==5.9.8
+stack-data==0.6.2
+stack-data==0.6.3
+virtualenv==20.21.0
+entrypoints==0.4
+opentelemetry-api==1.25.0
+GitPython==3.1.43
+oauthlib==3.2.2
+jupyter_server_fileid==0.9.2
+smmap==5.0.1
+tensorflow-serving-api==2.16.1
+kernels-mixer==0.0.13
+jedi==0.19.1
+argon2-cffi-bindings==21.2.0
+namex==0.0.8
+textual==0.67.1
+h5py==3.11.0
+pip==24.0
+argon2-cffi==23.1.0
+attrs==23.2.0
+uri-template==1.3.0
+multimethod==1.11.2
+zipp==3.19.2
+menuinst==2.1.1
+pydot==1.4.2
+defusedxml==0.7.1
+decorator==5.1.1
+fastjsonschema==2.19.1
+asttokens==2.4.1
+uvloop==0.19.0
+Markdown==3.6
+google-pasta==0.2.0
+tensorboard_plugin_profile==2.15.1
+parsy==2.1
+google-cloud-jupyter-config==0.0.10
+absl-py==1.4.0
+prometheus_client==0.20.0
+opt-einsum==3.3.0
+charset-normalizer==3.3.2
+kfp-server-api==2.0.5
+ray-cpp==2.24.0
+kfp-pipeline-spec==0.2.2
+appdirs==1.4.4
+google-resumable-media==2.7.1
+pluggy==1.5.0
+fiona==1.9.6
+simpervisor==1.0.0
+pkgutil_resolve_name==1.3.10
+sqlparse==0.5.0
+filelock==3.15.1
+papermill==2.6.0
+blessed==1.20.0
+executing==2.0.1
+watchfiles==0.22.0
+colorful==0.5.6
+wcwidth==0.2.13
+async-timeout==4.0.3
+debugpy==1.8.1
+pexpect==4.9.0
+ptyprocess==0.7.0
+google-cloud-bigtable==1.7.3
+archspec==0.2.3
+nbformat==5.10.4
+pins==0.8.6
+gast==0.5.4
+opencensus-context==0.1.3
+nest-asyncio==1.6.0
+ypy-websocket==0.8.4
+notebook==6.5.7
+exceptiongroup==1.2.0
+ansicolors==1.1.8
+multipledispatch==1.0.0
+hdfs==2.7.3
+jupyterlab_widgets==3.0.11
+Babel==2.15.0
+simple_parsing==0.1.5
+dacite==1.8.1
+cligj==0.7.2
+fastavro==1.9.4
+tifffile==2024.5.22
+python-json-logger==2.0.7
+cachetools==5.3.3
+cachetools==4.2.4
+tornado==6.4.1
+tangled-up-in-unicode==0.2.0
+anyio==4.4.0
+docstring_parser==0.16
+pickleshare==0.7.5
+sqlglot==19.9.0
+bigframes==0.22.0
+bleach==6.1.0
+keyrings.google-artifactregistry-auth==1.1.2
+tinycss2==1.3.0
+cached-property==1.5.2
+pymongo==3.13.0
+atpublic==4.1.0
+cloud-tpu-client==0.10
+tensorflow-metadata==0.14.0
+urllib3==1.26.18
+urllib3==2.2.1
+pyu2f==0.1.5
+mdit-py-plugins==0.4.1
+terminado==0.18.1
+Brotli==1.1.0
+grpc-interceptor==0.15.4
+uvicorn==0.30.1
+tensorflow-io-gcs-filesystem==0.37.0
+nb_conda==2.2.1
+httplib2==0.21.0
+gpustat==1.0.0
+yarl==1.9.4
+importlib-metadata==7.0.0
+httpx==0.27.0
+distro==1.9.0
+PyWavelets==1.6.0
+jupyter_server_ydoc==0.8.0
+pyasn1==0.6.0
+phik==0.12.4
+cloud-tpu-profiler==2.4.0
+email_validator==2.1.1
+keras-tuner==1.4.7
+array_record==0.5.1
+fasteners==0.19
+colorama==0.4.6
+matplotlib-inline==0.1.7
+nb_conda_kernels==2.5.1
+beautifulsoup4==4.12.3
+apache-beam==2.46.0
+tabulate==0.9.0
+tomli==2.0.1
+notebook_shim==0.2.4
+kfp==2.5.0
+jupyter-http-over-ws==0.0.8
+jsonpatch==1.33
+threadpoolctl==3.5.0
+ujson==5.10.0
+aiosqlite==0.20.0
+jaraco.classes==3.4.0
+soupsieve==2.5
+visions==0.7.5
+scikit-image==0.23.2
+gitdb==4.0.11
+pendulum==3.0.0
+memray==1.12.0
+notebook_executor==0.2
+google-crc32c==1.5.0
+frozendict==2.4.4
+geopandas==0.14.4
+jax-jumpy==1.0.0
+optree==0.11.0
+pyzmq==26.0.3
+opentelemetry-exporter-otlp-proto-common==1.25.0
+uc-micro-py==1.0.3
+xxhash==3.4.1
+pyasn1_modules==0.4.0
+uritemplate==3.0.1
+more-itertools==10.3.0
+prettytable==3.10.0
+promise==2.3
+pycosat==0.6.6
+google-auth-oauthlib==1.2.0
+traitlets==5.14.3
+conda_package_streaming==0.10.0
+ruamel.yaml==0.18.6
+google-cloud-spanner==3.47.0
+rfc3986-validator==0.1.1
+Send2Trash==1.8.3
+prompt_toolkit==3.0.47
+sniffio==1.3.1
+keyring==25.2.1
+referencing==0.35.1
+google-cloud-dlp==3.18.0
+conda-package-handling==2.3.0
+websockets==12.0
+flatbuffers==24.3.25
+jupyter-server-mathjax==0.2.6
+comm==0.2.2
+opentelemetry-exporter-otlp-proto-http==1.25.0
+websocket-client==1.8.0
+requests==2.32.3
+retrying==1.3.3
+retrying==1.3.4
+google-cloud-pubsublite==1.10.0
+explainable-ai-sdk==1.3.3
+jsonpointer==2.4
+typing_extensions==4.12.2
+backports.tarfile==1.2.0
+dnspython==2.6.1
+Farama-Notifications==0.0.4
+opentelemetry-sdk==1.25.0
+docopt==0.6.2
+ibis-framework==7.1.0
+jaraco.functools==4.0.1
+gviz-api==1.10.0
+frozenlist==1.4.1
+google-apitools==0.5.31
+python-multipart==0.0.9
+SQLAlchemy==2.0.30
+kubernetes==26.1.0
+witwidget==1.8.1
+docker==7.1.0
+bidict==0.23.1
+jupyter-events==0.10.0
+beatrix_jupyterlab==2024.66.154055
+imageio==2.34.1
+arrow==1.3.0
+nbclassic==1.1.0
+tqdm==4.66.4
+networkx==3.3
+python-dotenv==1.0.1
+tf_keras==2.16.0
+oauth2client==4.1.3
+kt-legacy==1.0.5
+fastapi==0.111.0
+db-dtypes==1.2.0
+SecretStorage==3.3.3
+seaborn==0.12.2
+rfc3339-validator==0.1.4
+tensorflow-io==0.37.0
+typing-utils==0.1.0
+jupytext==1.16.2
+jsonschema==4.22.0
+humanize==4.9.0
+google-cloud-functions==1.16.3
+jaraco.context==5.3.0
+htmlmin==0.1.12
+tensorflow-transform==0.14.0
+jupyter_server_proxy==4.2.0
+crcmod==1.7
+boltons==24.0.0
+ruamel.yaml.clib==0.2.8
+jupyter_client==7.4.9
+json5==0.9.25
+tensorboard-data-server==0.7.2
+aiosignal==1.3.1
+types-python-dateutil==2.9.0.20240316
+etils==1.7.0
+plotly==5.22.0
+regex==2024.5.15
+dataproc_jupyter_plugin==0.1.79
+pyOpenSSL==24.0.0
+py-spy==0.3.14
+dm-tree==0.1.8
+ray==2.24.0
+Pygments==2.18.0
+rsa==4.9
+bq_helper==0.4.1

wandb/run-20241205_143913-2mwisme1/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "os":  "Linux-6.6.56+-x86_64-with-glibc2.35",
+  "python":  "3.10.14",
+  "startedAt":  "2024-12-05T14:39:13.213016Z",
+  "program":  "kaggle.ipynb",
+  "email":  "[email protected]",
+  "root":  "/kaggle/working",
+  "host":  "004ac713e0a4",
+  "username":  "root",
+  "executable":  "/opt/conda/bin/python3.10",
+  "cpu_count":  2,
+  "cpu_count_logical":  4,
+  "gpu":  "[Tesla T4, Tesla T4]",
+  "gpu_count":  2,
+  "disk":  {
+    "/":  {
+      "total":  "8656922775552",
+      "used":  "6470900051968"
+    }
+  },
+  "memory":  {
+    "total":  "33662353408"
+  },
+  "cpu":  {
+    "count":  2,
+    "countLogical":  4
+  },
+  "gpu_nvidia":  [
+    {
+      "name":  "Tesla T4",
+      "memoryTotal":  "16106127360",
+      "cudaCores":  2560,
+      "architecture":  "Turing"
+    },
+    {
+      "name":  "Tesla T4",
+      "memoryTotal":  "16106127360",
+      "cudaCores":  2560,
+      "architecture":  "Turing"
+    }
+  ],
+  "cudaVersion":  "12.6"
+}

wandb/run-20241205_143913-2mwisme1/logs/debug-core.log ADDED Viewed

	@@ -0,0 +1,7 @@

+{"time":"2024-12-05T14:36:34.436169094Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp0_axua70/port-260.txt","pid":260,"debug":false,"disable-analytics":false}
+{"time":"2024-12-05T14:36:34.436205404Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2024-12-05T14:36:34.442826116Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":260}
+{"time":"2024-12-05T14:36:34.442818613Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":46213,"Zone":""}}
+{"time":"2024-12-05T14:36:34.628991059Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:44628"}
+{"time":"2024-12-05T14:39:13.215126888Z","level":"INFO","msg":"handleInformInit: received","streamId":"2mwisme1","id":"127.0.0.1:44628"}
+{"time":"2024-12-05T14:39:15.221780124Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"2mwisme1","id":"127.0.0.1:44628"}

wandb/run-20241205_143913-2mwisme1/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,20 @@

+{"time":"2024-12-05T14:39:13.215311083Z","level":"INFO","msg":"using version","core version":"0.18.3"}
+{"time":"2024-12-05T14:39:13.215339406Z","level":"INFO","msg":"created symlink","path":"/kaggle/working/wandb/run-20241205_143913-2mwisme1/logs/debug-core.log"}
+{"time":"2024-12-05T14:39:15.217256419Z","level":"ERROR","msg":"dialing: google: could not find default credentials. See https://cloud.google.com/docs/authentication/external/set-up-adc for more information"}
+{"time":"2024-12-05T14:39:15.221746354Z","level":"INFO","msg":"created new stream","id":"2mwisme1"}
+{"time":"2024-12-05T14:39:15.221774614Z","level":"INFO","msg":"stream: started","id":"2mwisme1"}
+{"time":"2024-12-05T14:39:15.221805326Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"2mwisme1"}}
+{"time":"2024-12-05T14:39:15.221843207Z","level":"INFO","msg":"handler: started","stream_id":{"value":"2mwisme1"}}
+{"time":"2024-12-05T14:39:15.221842955Z","level":"INFO","msg":"sender: started","stream_id":{"value":"2mwisme1"}}
+{"time":"2024-12-05T14:39:15.415690183Z","level":"INFO","msg":"wandb-core","!BADKEY":null}
+{"time":"2024-12-05T14:39:15.416772438Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2024-12-05T14:39:26.759443118Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:15.890079536Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:20.002045749Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:23.883801968Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:24.057644952Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:27.124441713Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:27.164833611Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:30.712386169Z","level":"INFO","msg":"Resuming system monitor"}
+{"time":"2024-12-05T14:41:30.719681016Z","level":"INFO","msg":"Pausing system monitor"}
+{"time":"2024-12-05T14:41:33.978004525Z","level":"INFO","msg":"Resuming system monitor"}

wandb/run-20241205_143913-2mwisme1/logs/debug.log ADDED Viewed

	@@ -0,0 +1,48 @@

+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Current SDK version is 0.18.3
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Configure stats pid to 260
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Loading settings from /kaggle/working/wandb/settings
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Loading settings from environment variables: {'api_key': '***REDACTED***'}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program': '<python with no main file>'}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_setup.py:_flush():79] Applying login settings: {}
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:_log_setup():532] Logging user logs to /kaggle/working/wandb/run-20241205_143913-2mwisme1/logs/debug.log
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:_log_setup():533] Logging internal logs to /kaggle/working/wandb/run-20241205_143913-2mwisme1/logs/debug-internal.log
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:_jupyter_setup():478] configuring jupyter hooks <wandb.sdk.wandb_init._WandbInit object at 0x78025df07a30>
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:init():617] calling init triggers
+2024-12-05 14:39:13,210 INFO    MainThread:260 [wandb_init.py:init():624] wandb.init called with sweep_config: {}
+config: {}
+2024-12-05 14:39:13,211 INFO    MainThread:260 [wandb_init.py:init():667] starting backend
+2024-12-05 14:39:13,211 INFO    MainThread:260 [wandb_init.py:init():671] sending inform_init request
+2024-12-05 14:39:13,212 INFO    MainThread:260 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2024-12-05 14:39:13,212 INFO    MainThread:260 [wandb_init.py:init():684] backend started and connected
+2024-12-05 14:39:13,225 INFO    MainThread:260 [wandb_run.py:_label_probe_notebook():1346] probe notebook
+2024-12-05 14:39:13,734 INFO    MainThread:260 [wandb_init.py:init():779] updated telemetry
+2024-12-05 14:39:13,738 INFO    MainThread:260 [wandb_init.py:init():812] communicating run to backend with 90.0 second timeout
+2024-12-05 14:39:15,412 INFO    MainThread:260 [wandb_init.py:init():863] starting run threads in backend
+2024-12-05 14:39:16,103 INFO    MainThread:260 [wandb_run.py:_console_start():2465] atexit reg
+2024-12-05 14:39:16,103 INFO    MainThread:260 [wandb_run.py:_redirect():2313] redirect: wrap_raw
+2024-12-05 14:39:16,103 INFO    MainThread:260 [wandb_run.py:_redirect():2378] Wrapping output streams.
+2024-12-05 14:39:16,104 INFO    MainThread:260 [wandb_run.py:_redirect():2403] Redirects installed.
+2024-12-05 14:39:16,111 INFO    MainThread:260 [wandb_init.py:init():907] run started, returning control to user process
+2024-12-05 14:39:16,115 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb None None {'peft_config': {'default': {'peft_type': <PeftType.LORA: 'LORA'>, 'auto_mapping': None, 'base_model_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', 'revision': None, 'task_type': <TaskType.CAUSAL_LM: 'CAUSAL_LM'>, 'inference_mode': False, 'r': 16, 'target_modules': {'k_proj', 'v_proj', 'up_proj', 'o_proj', 'down_proj', 'q_proj', 'gate_proj'}, 'lora_alpha': 16, 'lora_dropout': 0, 'fan_in_fan_out': False, 'bias': 'none', 'use_rslora': False, 'modules_to_save': None, 'init_lora_weights': True, 'layers_to_transform': None, 'layers_pattern': None, 'rank_pattern': {}, 'alpha_pattern': {}, 'megatron_config': None, 'megatron_core': 'megatron.core', 'loftq_config': {}, 'use_dora': False, 'layer_replication': None, 'runtime_config': {'ephemeral_gpu_offload': False}}}, 'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': 128004, 'eos_token_id': [128001, 128008, 128009], 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', '_attn_implementation_autoset': True, 'transformers_version': '4.47.0.dev0', 'model_type': 'llama', 'quantization_config': {'bnb_4bit_compute_dtype': 'float16', 'bnb_4bit_quant_type': 'nf4', 'bnb_4bit_use_double_quant': True, 'llm_int8_enable_fp32_cpu_offload': False, 'llm_int8_has_fp16_weight': False, 'llm_int8_skip_modules': None, 'llm_int8_threshold': 6.0, 'load_in_4bit': True, 'load_in_8bit': False, 'quant_method': 'bitsandbytes'}, 'unsloth_version': '2024.12.2', 'output_dir': '/kaggle/working', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'epoch', 'prediction_loss_only': False, 'per_device_train_batch_size': 2, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0002, 'weight_decay': 0.01, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 5, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/Dec05_14-38-49_004ac713e0a4', 'logging_strategy': 'epoch', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'epoch', 'save_steps': 500, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 3407, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_8bit', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': 'Llama-3.2-3B-appreciation', 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': None, 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False, 'dataset_text_field': 'text', 'packing': False, 'max_seq_length': 2048, 'dataset_num_proc': 2, 'dataset_batch_size': 1000, 'model_init_kwargs': None, 'dataset_kwargs': {}, 'eval_packing': None, 'num_of_sequences': 1024, 'chars_per_token': '<CHARS_PER_TOKEN>', 'use_liger': False}
+2024-12-05 14:39:16,125 INFO    MainThread:260 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3237063680 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7802a4f3a680>>
+2024-12-05 14:39:16,125 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb model/num_parameters 3237063680 None
+2024-12-05 14:39:26,758 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:39:26,759 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:15,889 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:20,001 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:20,001 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:23,882 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:24,057 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:24,057 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:27,123 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:27,130 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:27,130 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:30,711 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:30,719 INFO    MainThread:260 [jupyter.py:save_ipynb():387] not saving jupyter notebook
+2024-12-05 14:41:30,719 INFO    MainThread:260 [wandb_init.py:_pause_backend():443] pausing backend
+2024-12-05 14:41:33,975 INFO    MainThread:260 [wandb_init.py:_resume_backend():448] resuming backend
+2024-12-05 14:41:37,610 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb None None {'peft_config': {'default': {'peft_type': <PeftType.LORA: 'LORA'>, 'auto_mapping': None, 'base_model_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', 'revision': None, 'task_type': <TaskType.CAUSAL_LM: 'CAUSAL_LM'>, 'inference_mode': False, 'r': 16, 'target_modules': {'k_proj', 'v_proj', 'up_proj', 'o_proj', 'down_proj', 'q_proj', 'gate_proj'}, 'lora_alpha': 16, 'lora_dropout': 0, 'fan_in_fan_out': False, 'bias': 'none', 'use_rslora': False, 'modules_to_save': None, 'init_lora_weights': True, 'layers_to_transform': None, 'layers_pattern': None, 'rank_pattern': {}, 'alpha_pattern': {}, 'megatron_config': None, 'megatron_core': 'megatron.core', 'loftq_config': {}, 'use_dora': False, 'layer_replication': None, 'runtime_config': {'ephemeral_gpu_offload': False}}}, 'vocab_size': 128256, 'max_position_embeddings': 131072, 'hidden_size': 3072, 'intermediate_size': 8192, 'num_hidden_layers': 28, 'num_attention_heads': 24, 'num_key_value_heads': 8, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-05, 'pretraining_tp': 1, 'use_cache': True, 'rope_theta': 500000.0, 'rope_scaling': {'factor': 32.0, 'high_freq_factor': 4.0, 'low_freq_factor': 1.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}, 'attention_bias': False, 'attention_dropout': 0.0, 'mlp_bias': False, 'head_dim': 128, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['LlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 128000, 'pad_token_id': 128004, 'eos_token_id': [128001, 128008, 128009], 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'unsloth/llama-3.2-3b-instruct-bnb-4bit', '_attn_implementation_autoset': True, 'transformers_version': '4.47.0.dev0', 'model_type': 'llama', 'quantization_config': {'bnb_4bit_compute_dtype': 'float16', 'bnb_4bit_quant_type': 'nf4', 'bnb_4bit_use_double_quant': True, 'llm_int8_enable_fp32_cpu_offload': False, 'llm_int8_has_fp16_weight': False, 'llm_int8_skip_modules': None, 'llm_int8_threshold': 6.0, 'load_in_4bit': True, 'load_in_8bit': False, 'quant_method': 'bitsandbytes'}, 'unsloth_version': '2024.12.2', 'output_dir': '/kaggle/working', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': True, 'do_predict': False, 'eval_strategy': 'epoch', 'prediction_loss_only': False, 'per_device_train_batch_size': 2, 'per_device_eval_batch_size': 8, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 4, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 0.0002, 'weight_decay': 0.01, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 5, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 5, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/kaggle/working/runs/Dec05_14-41-15_004ac713e0a4', 'logging_strategy': 'epoch', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'epoch', 'save_steps': 500, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 3407, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': True, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/kaggle/working', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_8bit', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': True, 'resume_from_checkpoint': None, 'hub_model_id': 'Llama-3.2-3B-appreciation', 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': None, 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': False, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False, 'dataset_text_field': 'text', 'packing': False, 'max_seq_length': 2048, 'dataset_num_proc': 2, 'dataset_batch_size': 1000, 'model_init_kwargs': None, 'dataset_kwargs': {}, 'eval_packing': None, 'num_of_sequences': 1024, 'chars_per_token': '<CHARS_PER_TOKEN>', 'use_liger': False}
+2024-12-05 14:41:37,619 INFO    MainThread:260 [wandb_config.py:__setitem__():154] config set model/num_parameters = 3237063680 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x7802a4f3a680>>
+2024-12-05 14:41:37,619 INFO    MainThread:260 [wandb_run.py:_config_callback():1394] config_cb model/num_parameters 3237063680 None

wandb/run-20241205_143913-2mwisme1/run-2mwisme1.wandb ADDED Viewed

Binary file (32.8 kB). View file