jarski
/

rl_course_vizdoom_health_gathering_supreme

Reinforcement Learning

sample-factory

TensorBoard

deep-reinforcement-learning

Eval Results

Model card Files Files and versions Metrics Training metrics Community

jarski commited on Sep 1

Commit

6989bae

•

1 Parent(s): 51f7831

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

README.md +1 -1
replay.mp4 +2 -2
sf_log.txt +94 -0

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
-      value: 5.71 +/- 1.94
       name: mean_reward
       verified: false
 ---

       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
+      value: 5.12 +/- 1.81
       name: mean_reward
       verified: false
 ---

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cce57097af126fcc01887524d6abe4358ccfe84bf55e340acdf074224e39c67a
-size 9749920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e08a98f0bb243b3545f06655f5950aa864eb28f8c6715db9d22f49d33cfd5833
+size 9003016

sf_log.txt CHANGED Viewed

@@ -1448,3 +1448,97 @@ main_loop: 1800.7612
 [2024-09-01 07:03:27,285][00307] Avg episode rewards: #0: 8.908, true rewards: #0: 5.708
 [2024-09-01 07:03:27,288][00307] Avg episode reward: 8.908, avg true_objective: 5.708
 [2024-09-01 07:04:05,352][00307] Replay video saved to /content/train_dir/default_experiment/replay.mp4!

 [2024-09-01 07:03:27,285][00307] Avg episode rewards: #0: 8.908, true rewards: #0: 5.708
 [2024-09-01 07:03:27,288][00307] Avg episode reward: 8.908, avg true_objective: 5.708
 [2024-09-01 07:04:05,352][00307] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
+[2024-09-01 07:04:20,071][00307] The model has been pushed to https://huggingface.co/jarski/rl_course_vizdoom_health_gathering_supreme
+[2024-09-01 07:06:22,936][00307] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2024-09-01 07:06:22,939][00307] Overriding arg 'num_workers' with value 1 passed from command line
+[2024-09-01 07:06:22,942][00307] Adding new argument 'no_render'=True that is not in the saved config file!
+[2024-09-01 07:06:22,943][00307] Adding new argument 'save_video'=True that is not in the saved config file!
+[2024-09-01 07:06:22,947][00307] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2024-09-01 07:06:22,949][00307] Adding new argument 'video_name'=None that is not in the saved config file!
+[2024-09-01 07:06:22,952][00307] Adding new argument 'max_num_frames'=100000 that is not in the saved config file!
+[2024-09-01 07:06:22,953][00307] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2024-09-01 07:06:22,956][00307] Adding new argument 'push_to_hub'=True that is not in the saved config file!
+[2024-09-01 07:06:22,957][00307] Adding new argument 'hf_repository'='jarski/rl_course_vizdoom_health_gathering_supreme' that is not in the saved config file!
+[2024-09-01 07:06:22,960][00307] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2024-09-01 07:06:22,961][00307] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2024-09-01 07:06:22,962][00307] Adding new argument 'train_script'=None that is not in the saved config file!
+[2024-09-01 07:06:22,964][00307] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2024-09-01 07:06:22,965][00307] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2024-09-01 07:06:22,984][00307] RunningMeanStd input shape: (3, 72, 128)
+[2024-09-01 07:06:22,986][00307] RunningMeanStd input shape: (1,)
+[2024-09-01 07:06:23,002][00307] ConvEncoder: input_channels=3
+[2024-09-01 07:06:23,049][00307] Conv encoder output size: 512
+[2024-09-01 07:06:23,051][00307] Policy head output size: 512
+[2024-09-01 07:06:23,070][00307] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000376_1540096.pth...
+[2024-09-01 07:06:23,622][00307] Num frames 100...
+[2024-09-01 07:06:23,804][00307] Num frames 200...
+[2024-09-01 07:06:24,003][00307] Num frames 300...
+[2024-09-01 07:06:24,197][00307] Num frames 400...
+[2024-09-01 07:06:24,396][00307] Num frames 500...
+[2024-09-01 07:06:24,594][00307] Num frames 600...
+[2024-09-01 07:06:24,781][00307] Num frames 700...
+[2024-09-01 07:06:24,962][00307] Num frames 800...
+[2024-09-01 07:06:25,149][00307] Num frames 900...
+[2024-09-01 07:06:25,257][00307] Avg episode rewards: #0: 16.280, true rewards: #0: 9.280
+[2024-09-01 07:06:25,261][00307] Avg episode reward: 16.280, avg true_objective: 9.280
+[2024-09-01 07:06:25,420][00307] Num frames 1000...
+[2024-09-01 07:06:25,606][00307] Num frames 1100...
+[2024-09-01 07:06:25,800][00307] Num frames 1200...
+[2024-09-01 07:06:25,989][00307] Num frames 1300...
+[2024-09-01 07:06:26,183][00307] Num frames 1400...
+[2024-09-01 07:06:26,383][00307] Num frames 1500...
+[2024-09-01 07:06:26,576][00307] Num frames 1600...
+[2024-09-01 07:06:26,692][00307] Avg episode rewards: #0: 14.660, true rewards: #0: 8.160
+[2024-09-01 07:06:26,694][00307] Avg episode reward: 14.660, avg true_objective: 8.160
+[2024-09-01 07:06:26,828][00307] Num frames 1700...
+[2024-09-01 07:06:27,016][00307] Num frames 1800...
+[2024-09-01 07:06:27,202][00307] Num frames 1900...
+[2024-09-01 07:06:27,429][00307] Avg episode rewards: #0: 11.280, true rewards: #0: 6.613
+[2024-09-01 07:06:27,433][00307] Avg episode reward: 11.280, avg true_objective: 6.613
+[2024-09-01 07:06:27,468][00307] Num frames 2000...
+[2024-09-01 07:06:27,652][00307] Num frames 2100...
+[2024-09-01 07:06:27,843][00307] Num frames 2200...
+[2024-09-01 07:06:28,034][00307] Num frames 2300...
+[2024-09-01 07:06:28,226][00307] Num frames 2400...
+[2024-09-01 07:06:28,439][00307] Num frames 2500...
+[2024-09-01 07:06:28,610][00307] Avg episode rewards: #0: 10.900, true rewards: #0: 6.400
+[2024-09-01 07:06:28,612][00307] Avg episode reward: 10.900, avg true_objective: 6.400
+[2024-09-01 07:06:28,689][00307] Num frames 2600...
+[2024-09-01 07:06:28,877][00307] Num frames 2700...
+[2024-09-01 07:06:29,064][00307] Num frames 2800...
+[2024-09-01 07:06:29,258][00307] Num frames 2900...
+[2024-09-01 07:06:29,462][00307] Num frames 3000...
+[2024-09-01 07:06:29,534][00307] Avg episode rewards: #0: 9.816, true rewards: #0: 6.016
+[2024-09-01 07:06:29,536][00307] Avg episode reward: 9.816, avg true_objective: 6.016
+[2024-09-01 07:06:29,711][00307] Num frames 3100...
+[2024-09-01 07:06:29,941][00307] Num frames 3200...
+[2024-09-01 07:06:30,126][00307] Num frames 3300...
+[2024-09-01 07:06:30,319][00307] Num frames 3400...
+[2024-09-01 07:06:30,528][00307] Num frames 3500...
+[2024-09-01 07:06:30,682][00307] Avg episode rewards: #0: 9.420, true rewards: #0: 5.920
+[2024-09-01 07:06:30,685][00307] Avg episode reward: 9.420, avg true_objective: 5.920
+[2024-09-01 07:06:30,776][00307] Num frames 3600...
+[2024-09-01 07:06:30,970][00307] Num frames 3700...
+[2024-09-01 07:06:31,167][00307] Num frames 3800...
+[2024-09-01 07:06:31,246][00307] Avg episode rewards: #0: 8.440, true rewards: #0: 5.440
+[2024-09-01 07:06:31,249][00307] Avg episode reward: 8.440, avg true_objective: 5.440
+[2024-09-01 07:06:31,433][00307] Num frames 3900...
+[2024-09-01 07:06:31,639][00307] Num frames 4000...
+[2024-09-01 07:06:31,828][00307] Num frames 4100...
+[2024-09-01 07:06:32,021][00307] Num frames 4200...
+[2024-09-01 07:06:32,177][00307] Avg episode rewards: #0: 8.070, true rewards: #0: 5.320
+[2024-09-01 07:06:32,179][00307] Avg episode reward: 8.070, avg true_objective: 5.320
+[2024-09-01 07:06:32,266][00307] Num frames 4300...
+[2024-09-01 07:06:32,461][00307] Num frames 4400...
+[2024-09-01 07:06:32,655][00307] Num frames 4500...
+[2024-09-01 07:06:32,878][00307] Num frames 4600...
+[2024-09-01 07:06:33,134][00307] Avg episode rewards: #0: 7.858, true rewards: #0: 5.191
+[2024-09-01 07:06:33,137][00307] Avg episode reward: 7.858, avg true_objective: 5.191
+[2024-09-01 07:06:33,212][00307] Num frames 4700...
+[2024-09-01 07:06:33,484][00307] Num frames 4800...
+[2024-09-01 07:06:33,752][00307] Num frames 4900...
+[2024-09-01 07:06:34,020][00307] Num frames 5000...
+[2024-09-01 07:06:34,281][00307] Num frames 5100...
+[2024-09-01 07:06:34,394][00307] Avg episode rewards: #0: 7.620, true rewards: #0: 5.120
+[2024-09-01 07:06:34,398][00307] Avg episode reward: 7.620, avg true_objective: 5.120
+[2024-09-01 07:07:08,879][00307] Replay video saved to /content/train_dir/default_experiment/replay.mp4!