7 1 10

jiaqiz

AI & ML interests

None yet

Recent Activity

updated a model 2 days ago

nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

updated a dataset 2 days ago

nvidia/Llama-Nemotron-Post-Training-Dataset

liked a model 3 days ago

nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

View all activity

Organizations

jiaqiz's activity

updated a model 2 days ago

nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

Text Generation • Updated about 13 hours ago • 8.84k • 191

updated a dataset 2 days ago

nvidia/Llama-Nemotron-Post-Training-Dataset

Viewer • Updated 2 days ago • 3.91M • 724 • 373

liked a model 3 days ago

nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

Text Generation • Updated about 13 hours ago • 8.84k • 191

updated a model 3 days ago

nvidia/Llama-3_3-Nemotron-Super-49B-v1

Text Generation • Updated 3 days ago • 68.4k • 250

published a model 3 days ago

nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

Text Generation • Updated about 13 hours ago • 8.84k • 191

New activity in nvidia/Llama-Nemotron-Post-Training-Dataset 8 days ago

Clarification on training data used for Llama-3.1-Nemotron-Nano-8B-v1

#9 opened 15 days ago by

ryanmarten

New activity in nvidia/Llama-Nemotron-Post-Training-Dataset 16 days ago

Does generator == "DeepSeek-R1, Qwen-2.5-XB-Instruct" mean DeepsSeek-R1 Distill Qwen-2.5-XB-Instruct?

#6 opened 21 days ago by

alpayariyak

liked a model 23 days ago

nvidia/Llama-3.1-Nemotron-Nano-8B-v1

Text Generation • Updated 26 days ago • 14.4k • 124

liked a dataset 23 days ago

nvidia/Llama-Nemotron-Post-Training-Dataset

Viewer • Updated 2 days ago • 3.91M • 724 • 373

liked a model 23 days ago

nvidia/Llama-3_3-Nemotron-Super-49B-v1

Text Generation • Updated 3 days ago • 68.4k • 250

published a dataset 24 days ago

nvidia/Llama-Nemotron-Post-Training-Dataset

Viewer • Updated 2 days ago • 3.91M • 724 • 373

updated a model 24 days ago

nvidia/Llama-3.3-Nemotron-70B-Select

Text Generation • Updated 24 days ago • 634 • 9

New activity in nvidia/Llama-Nemotron-Post-Training-Dataset 24 days ago

Update README.md

#2 opened 24 days ago by

Criztov2

upvoted a paper about 1 month ago

Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

Paper • 2503.04378 • Published Mar 6 • 7

liked a dataset 3 months ago

nebius/SWE-agent-trajectories

Viewer • Updated Dec 23, 2024 • 80k • 296 • 55

updated a collection 6 months ago

Minitron

Collection

A family of compressed models obtained via pruning and knowledge distillation • 12 items • Updated about 10 hours ago • 61

updated a collection 9 months ago

SSMs

Collection

A collection of Mamba-2-based research models with 8B parameters trained on 3.5T tokens for comparison with Transformers. • 5 items • Updated about 10 hours ago • 27

New activity in nvidia/Nemotron-4-340B-Base 10 months ago

missing weight file?

#5 opened 10 months ago by

gwillen

updated a model 10 months ago

nvidia/Nemotron-4-340B-Base

Updated Jun 28, 2024 • 61 • 146

updated a collection 10 months ago

RLHF

Collection

A collection of models trained with Reinforcement Learning from Human Feedback (RLHF). • 4 items • Updated about 10 hours ago • 5