Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

Papers - Text - Dataset - Coding - MBPP

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Text - Eval - Coding - Python

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Embeddings - Bytes - BPB - Larger Patches than BPE

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Text - Dataset - Datacomp-LM

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Embeddings - Bytes - Tokenizer Free

MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

Paper • 2410.20771 • Published Oct 28, 2024 • 3
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Training - Text - Datasets - Coding - GitHub

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Text - Character Level Transformers

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Text - Character Level RNNs

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Training - Bytes - Lookup - Rolling Poly Hashing

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Training - Scaling - Bytes - BLT >= BPE Tokenizer

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Previous
1
2
3
4
...
9
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs