{"model": "o1-preview-2024-09-12", "score": 52.8}
{"model": "llama-3.1-405b", "score": 0.8}
{"model": "gpt-4", "score": 0.16}