BERT release - a google Collection

google 's Collections

Gemma 3 Release

TxGemma Release

SigLIP2

PaliGemma 2 Mix

PaliGemma 2 Release

Health AI Developer Foundations (HAI-DEF)

Gemma 2 Release

PaliGemma Release

PaliGemma FT Models

CodeGemma Release

RecurrentGemma Release

Gemma 2 2B Release

ShieldGemma Release

Gemma Scope Release

ELECTRA release

Flan-T5 release

SEAHORSE release

Switch-Transformers release

SigLIP

ImageInWords Release

DataGemma Release

Gemma-APS Release

TimesFM Release

Gemma 2 JPN Release

Google's Gemma models family

BERT release

updated 6 days ago

Regroups the original BERT models released by the Google team. Except for the models marked otherwise, the checkpoints support English.

google-bert/bert-base-cased

Fill-Mask • Updated Feb 19, 2024 • 5.4M • • 298

Note Base BERT model, smaller variant. Trained on the "cased" dataset, meaning that it wasn't lowercase and all accents were kept. 12-layer, 768-hidden, 12-heads , 110M parameters
google-bert/bert-base-uncased

Fill-Mask • Updated Feb 19, 2024 • 88.9M • • 2.2k

Note Base BERT model, smaller variant. Trained on the "uncased" dataset, meaning that it was lowercase and all accents were removed. 12-layer, 768-hidden, 12-heads , 110M parameters
google-bert/bert-large-cased

Fill-Mask • Updated Feb 19, 2024 • 96k • 33

Note Large BERT model, larger variant. Trained on the "cased" dataset, meaning that it wasn't lowercase and all accents were kept. 24-layer, 1024-hidden, 16-heads, 340M parameters
google-bert/bert-large-uncased

Fill-Mask • Updated Feb 19, 2024 • 1.23M • • 130

Note Large BERT model, larger variant. Trained on the "uncased" dataset, meaning that it was lowercase and all accents were removed. 24-layer, 1024-hidden, 16-heads, 340M parameters
google-bert/bert-base-multilingual-cased

Fill-Mask • Updated Feb 19, 2024 • 6.55M • • 498

Note Base BERT model, smaller variant. The list of supported languages is available here: https://github.com/google-research/bert/blob/master/multilingual.md#list-of-languages 104 languages, 12-layer, 768-hidden, 12-heads, 110M parameters
google-bert/bert-base-chinese

Fill-Mask • Updated Feb 19, 2024 • 2.38M • • 1.16k

Note Base BERT model, smaller variant. Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
google-bert/bert-large-cased-whole-word-masking

Fill-Mask • Updated Apr 10, 2024 • 2.12k • • 17

Note Large BERT model, larger variant. Trained on the "cased" dataset, meaning that it wasn't lowercase and all accents were kept. Whole word masking indicates a different preprocessing where entire words are masked rather than subwords. The BERT team reports better metrics with the wwm models. 24-layer, 1024-hidden, 16-heads, 340M parameters
google-bert/bert-large-uncased-whole-word-masking

Fill-Mask • Updated Feb 19, 2024 • 17.7k • 19

Note Large BERT model, larger variant. Trained on the "uncased" dataset, meaning that it was lowercase and all accents were removed. Whole word masking indicates a different preprocessing where entire words are masked rather than subwords. The BERT team reports better metrics with the wwm models. 24-layer, 1024-hidden, 16-heads, 340M parameters