481 130 956

Peter Szemraj PRO

pszemraj

https://pszemraj.carrd.co/

pszemraj

AI & ML interests

metallic intuition

Recent Activity

published a model about 3 hours ago

pszemraj/deberta-v3-large-unified-mcqa-2-choice

updated a model about 3 hours ago

pszemraj/deberta-v3-large-unified-mcqa-2-choice

updated a model about 3 hours ago

pszemraj/deberta-v3-base-unified-mcqa-2-choice

View all activity

Organizations

pszemraj's activity

upvoted 2 papers 4 days ago

Perception Encoder: The best visual embeddings are not at the output of the network

Paper • 2504.13181 • Published 5 days ago • 27

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

Paper • 2504.13161 • Published 5 days ago • 86

upvoted a paper 5 days ago

BitNet b1.58 2B4T Technical Report

Paper • 2504.12285 • Published 6 days ago • 62

upvoted a paper 9 days ago

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Paper • 2504.07096 • Published 13 days ago • 73

upvoted a collection 13 days ago

SuperBPE

Collection

SuperBPE tokenizers and models trained with them • 8 items • Updated 13 days ago • 14

upvoted 2 papers 19 days ago

PaperBench: Evaluating AI's Ability to Replicate AI Research

Paper • 2504.01848 • Published 20 days ago • 36

Efficient Inference for Large Reasoning Models: A Survey

Paper • 2503.23077 • Published 24 days ago • 46

upvoted 2 papers 20 days ago

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Paper • 2503.21614 • Published 26 days ago • 39

Multi-Token Attention

Paper • 2504.00927 • Published 21 days ago • 45

upvoted a paper 28 days ago

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

Paper • 2503.18878 • Published 29 days ago • 117

upvoted 9 papers about 1 month ago

Survey on Evaluation of LLM-based Agents

Paper • 2503.16416 • Published Mar 20 • 88

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

Paper • 2503.13358 • Published Mar 17 • 96

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

Paper • 2503.16419 • Published Mar 20 • 70

Optimizing Decomposition for Optimal Claim Verification

Paper • 2503.15354 • Published Mar 19 • 19

φ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation

Paper • 2503.13288 • Published Mar 17 • 50