Datasets - a kaizuberbuehler Collection

kaizuberbuehler 's Collections

Vision Language Models

Foundation Models

Synthetic Data and Self-Improvement

Agents

LM Prompt Engineering

LM Capabilities and Scaling

LM Architectures

Code Generation

EXL2 Quantized Models

Datasets

updated 16 days ago

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Paper • 2404.01197 • Published Apr 1, 2024 • 31
CosmicMan: A Text-to-Image Foundation Model for Humans

Paper • 2404.01294 • Published Apr 1, 2024 • 16
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

Paper • 2406.08707 • Published Jun 13, 2024 • 15
DataComp-LM: In search of the next generation of training sets for language models

Paper • 2406.11794 • Published Jun 17, 2024 • 51
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Paper • 2406.08973 • Published Jun 13, 2024 • 87
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Paper • 2406.08418 • Published Jun 12, 2024 • 29
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Paper • 2406.08451 • Published Jun 12, 2024 • 24
argilla/magpie-ultra-v0.1

Viewer • Updated Nov 26, 2024 • 50k • 392 • 219
HuggingFaceFW/fineweb

Viewer • Updated 21 days ago • 48.6B • 361k • 1.83k
wikimedia/wikipedia

Viewer • Updated Jan 9, 2024 • 61.6M • 104k • 696
HuggingFaceTB/cosmopedia

Viewer • Updated Aug 12, 2024 • 31.1M • 10.3k • 574
bigcode/the-stack

Viewer • Updated Apr 13, 2023 • 546M • 5.95k • 760
teknium/OpenHermes-2.5

Viewer • Updated Apr 15, 2024 • 1M • 1.81k • 697
roneneldan/TinyStories

Viewer • Updated Aug 12, 2024 • 2.14M • 17.1k • 598
Vezora/Open-Critic-GPT

Viewer • Updated Jul 28, 2024 • 55.1k • 91 • 93
HuggingFaceFW/fineweb-edu

Viewer • Updated 18 days ago • 3.24B • 231k • 601
arcee-ai/The-Tome

Viewer • Updated Aug 15, 2024 • 1.75M • 401 • 83
mlabonne/FineTome-100k

Viewer • Updated Jul 29, 2024 • 100k • 9.83k • 152
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

Paper • 2409.12568 • Published Sep 19, 2024 • 48
RedPajama: an Open Dataset for Training Large Language Models

Paper • 2411.12372 • Published Nov 19, 2024 • 49
BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions

Paper • 2411.07461 • Published Nov 12, 2024 • 22
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Paper • 2411.04905 • Published Nov 7, 2024 • 113
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Paper • 2501.04686 • Published 16 days ago • 50