LLM Reasoning - a Giuliano Collection

Giuliano 's Collections

Voice

LLM Personalization

Agents

LLM Reasoning

updated about 15 hours ago

STaR: Bootstrapping Reasoning With Reasoning

Paper • 2203.14465 • Published Mar 28, 2022 • 8
Let's Verify Step by Step

Paper • 2305.20050 • Published May 31, 2023 • 10
Training Large Language Models to Reason in a Continuous Latent Space

Paper • 2412.06769 • Published Dec 9, 2024 • 77
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Paper • 2411.14405 • Published Nov 21, 2024 • 58
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training

Paper • 2309.17179 • Published Sep 29, 2023 • 2
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 345
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Paper • 2410.13639 • Published Oct 17, 2024 • 17
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Paper • 2411.16489 • Published Nov 25, 2024 • 42
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

Paper • 2410.02884 • Published Oct 3, 2024 • 53
Tree of Problems: Improving structured problem solving with compositionality

Paper • 2410.06634 • Published Oct 9, 2024 • 8
Are Your LLMs Capable of Stable Reasoning?

Paper • 2412.13147 • Published Dec 17, 2024 • 91
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

Paper • 2407.21787 • Published Jul 31, 2024 • 12
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Paper • 2408.03314 • Published Aug 6, 2024 • 54
Running

875

🔍

QwQ-32B-Preview

QwQ-32B-Preview
Offline Reinforcement Learning for LLM Multi-Step Reasoning

Paper • 2412.16145 • Published Dec 20, 2024 • 38
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

Paper • 2411.07279 • Published Nov 11, 2024 • 3
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs

Paper • 2410.18451 • Published Oct 24, 2024 • 16
Skywork/Skywork-Reward-Gemma-2-27B-v0.2

Text Classification • Updated Oct 25, 2024 • 4.72k • 27
Generative Verifiers: Reward Modeling as Next-Token Prediction

Paper • 2408.15240 • Published Aug 27, 2024 • 13
Understanding Hidden Computations in Chain-of-Thought Reasoning

Paper • 2412.04537 • Published Dec 5, 2024
Generative Reward Models

Paper • 2410.12832 • Published Oct 2, 2024 • 6
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Paper • 2412.17256 • Published Dec 23, 2024 • 46
RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Paper • 2410.02089 • Published Oct 2, 2024 • 12
V-STaR: Training Verifiers for Self-Taught Reasoners

Paper • 2402.06457 • Published Feb 9, 2024 • 9
RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement

Paper • 2412.12881 • Published Dec 17, 2024 • 1
Reinforcement Learning Enhanced LLMs: A Survey

Paper • 2412.10400 • Published Dec 5, 2024
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

Paper • 2412.14135 • Published Dec 18, 2024
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Paper • 2412.11605 • Published Dec 16, 2024 • 17
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Paper • 2501.01904 • Published Jan 3 • 31
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search

Paper • 2411.11694 • Published Nov 18, 2024
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

Paper • 2408.16737 • Published Aug 29, 2024 • 1
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Paper • 2501.04519 • Published 27 days ago • 252
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Paper • 2501.04682 • Published 26 days ago • 90
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper • 2501.05366 • Published 25 days ago • 86
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4 • 90
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Paper • 2501.09686 • Published 18 days ago • 36
Foundations of Large Language Models

Paper • 2501.09223 • Published 19 days ago • 2
The Lessons of Developing Process Reward Models in Mathematical Reasoning

Paper • 2501.07301 • Published 22 days ago • 89
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

Text Generation • Updated 3 days ago • 319k • • 834
Reasoning Language Models: A Blueprint

Paper • 2501.11223 • Published 15 days ago • 31
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published 12 days ago • 284
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published 9 days ago • 49
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

Paper • 2501.11110 • Published 15 days ago • 2
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published 6 days ago • 89
s1: Simple test-time scaling

Paper • 2501.19393 • Published 3 days ago • 54