Librarian Bots

community

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

davanstrien updated a dataset about 1 hour ago

librarian-bots/model_cards_with_metadata

librarian-bot new activity about 9 hours ago

librarian-bots/dataset-to-model-monitor:Discussion tracking new models trained on BAAI/TACO

librarian-bot new activity about 9 hours ago

librarian-bots/dataset-to-model-monitor:Discussion tracking new models trained on imdb

View all activity

librarian-bots's activity

davanstrien

updated a dataset about 1 hour ago

librarian-bots/model_cards_with_metadata

Viewer • Updated about 1 hour ago • 734k • 1.36k • 13

librarian-bot

in librarian-bots/dataset-to-model-monitor about 9 hours ago

Discussion tracking new models trained on BAAI/TACO

#50 opened 12 months ago by

librarian-bot

Discussion tracking new models trained on imdb

199

#1 opened over 1 year ago by

librarian-bot

updated a dataset about 9 hours ago

librarian-bots/paper-recommendations-v2

Viewer • Updated about 9 hours ago • 5.1k • 581 • 7

davanstrien

updated 2 datasets about 18 hours ago

librarian-bots/dataset_cards_with_metadata

Viewer • Updated about 18 hours ago • 244k • 370 • 12

librarian-bots/dataset-columns

Viewer • Updated about 18 hours ago • 11.1M • 909

librarian-bot

in librarian-bots/dataset-to-model-monitor about 21 hours ago

Discussion tracking new models trained on OpenAssistant/oasst1

109

#7 opened over 1 year ago by

librarian-bot

davanstrien

posted an update 2 days ago

Post

1341

I've created a v1 dataset ( davanstrien/reasoning-required) and model ( davanstrien/ModernBERT-based-Reasoning-Required) to help curate "wild text" data for generating reasoning examples beyond the usual code/math/science domains.

- I developed a "Reasoning Required" dataset with a 0-4 scoring system for reasoning complexity
- I used educational content from HuggingFaceFW/fineweb-edu, adding annotations for domains, reasoning types, and example questions

My approach enables a more efficient workflow: filter text with small models first, then use LLMs only on high-value content.

This significantly reduces computation costs while expanding reasoning dataset domain coverage.

librarian-bot

in librarian-bots/dataset-to-model-monitor 3 days ago

Discussion tracking new models trained on nvidia/HelpSteer

145

#21 opened over 1 year ago by

librarian-bot

Discussion tracking new models trained on Open-Orca/OpenOrca

278

#19 opened over 1 year ago by

librarian-bot

in librarian-bots/dataset-to-model-monitor 4 days ago

Discussion tracking new models trained on google/fleurs

213

#6 opened over 1 year ago by

librarian-bot

Discussion tracking new models trained on HuggingFaceH4/CodeAlpaca_20K

#40 opened about 1 year ago by

librarian-bot

Discussion tracking new models trained on HuggingFaceH4/ultrachat_200k

436

#15 opened over 1 year ago by

librarian-bot

Discussion tracking new models trained on Muennighoff/natural-instructions

#32 opened over 1 year ago by

librarian-bot

davanstrien

updated a dataset 5 days ago

librarian-bots/arxiv-metadata-snapshot

Viewer • Updated 5 days ago • 2.71M • 1.82k • 8

librarian-bot

in librarian-bots/dataset-to-model-monitor 5 days ago

Discussion tracking new models trained on HuggingFaceH4/ultrafeedback_binarized

453

#37 opened about 1 year ago by

librarian-bot

Discussion tracking new models trained on rafaelpadilla/coco2017

#61 opened 6 months ago by

librarian-bot

updated a dataset 6 days ago

librarian-bots/column-db

Updated 6 days ago • 78

davanstrien

posted an update about 1 month ago

Post

2913

📊 Introducing "Hugging Face Dataset Spotlight" 📊

I'm excited to share the first episode of our AI-generated podcast series focusing on nice datasets from the Hugging Face Hub!

This first episode explores mathematical reasoning datasets:

- SynthLabsAI/Big-Math-RL-Verified: Over 250,000 rigorously verified problems spanning multiple difficulty levels and mathematical domains
- open-r1/OpenR1-Math-220k: 220,000 math problems with multiple reasoning traces, verified for accuracy using Math Verify and Llama-3.3-70B models.
- facebook/natural_reasoning: 1.1 million general reasoning questions carefully deduplicated and decontaminated from existing benchmarks, showing superior scaling effects when training models like Llama3.1-8B-Instruct.

Plus a bonus segment on bespokelabs/bespoke-manim!

https://www.youtube.com/watch?v=-TgmRq45tW4

davanstrien

posted an update about 1 month ago

Post

3660

Quick POC: Turn a Hugging Face dataset card into a short podcast introducing the dataset using all open models.

I think I'm the only weirdo who would enjoy listening to something like this though 😅

Here is an example for eth-nlped/stepverify

2 replies

AI & ML interests

Recent Activity

Team members 3

librarian-bots's activity

Discussion tracking new models trained on BAAI/TACO

Discussion tracking new models trained on imdb

Discussion tracking new models trained on OpenAssistant/oasst1

Discussion tracking new models trained on nvidia/HelpSteer

Discussion tracking new models trained on Open-Orca/OpenOrca

Discussion tracking new models trained on google/fleurs

Discussion tracking new models trained on HuggingFaceH4/CodeAlpaca_20K

Discussion tracking new models trained on HuggingFaceH4/ultrachat_200k

Discussion tracking new models trained on Muennighoff/natural-instructions

Discussion tracking new models trained on HuggingFaceH4/ultrafeedback_binarized

Discussion tracking new models trained on rafaelpadilla/coco2017