Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

Papers - Training - Scaling - Compute Optimal

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Attention - Flex Attention

https://pytorch.org/blog/flexattention/

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Embeddings - Bytes - BPB - Tokenzr Free Perplexity

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Embeddings - Bytes - Flops - Input Layer Lookup

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Training - Embeddings Model - Bytes - Entropy Model

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Attention - Bytes - Patch Cross Attention

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Attention - Bytes - MHA Cross Attention - Perceiver

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Embeddings - Text - Byte - Hash ngrams

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Attention - Block Causal

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Papers - Tokenizers - Bytes - Incremental Patching

Note: BPE does not handle incremental patching like BLT

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published about 1 month ago • 85

Previous
1
2
3
4
5
...
9
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs