metadata

tags:
  - Taxi-v3
  - q-learning
  - reinforcement-learning
  - custom-implementation
model-index:
  - name: drl-course-unit-02-taxi-v3
    results:
      - task:
          type: reinforcement-learning
          name: reinforcement-learning
        dataset:
          name: Taxi-v3
          type: Taxi-v3
        metrics:
          - type: mean_reward
            value: 7.56 +/- 2.71
            name: mean_reward
            verified: false

Q-Learning Agent playing1 Taxi-v3

This is a trained model of a Q-Learning agent playing Taxi-v3 .

Usage

import gymnasium as gym
import pickle5 as pickle
from huggingface_sb3 import load_from_hub
from hf_course_code import evaluate_agent # Code from the course https://huggingface.co/learn/deep-rl-course/unit2/hands-on#the-evaluation-method-

model_pickle = load_from_hub(repo_id="jostyposty/drl-course-unit-02-taxi-v3", filename="q-learning.pkl")

with open(model_pickle, "rb") as f:
  model = pickle.load(f)

env = gym.make(model["env_id"])

mean_reward, std_reward = evaluate_agent(
  env,
  model["max_steps"],
  model["n_eval_episodes"],
  model["qtable"],
  model["eval_seed"],
)
result = mean_reward - std_reward
print(f"Result={result:.2f}, Mean_reward={mean_reward:.2f} +/- {std_reward:.2f}")