nomic-ai
/

nomic-embed-text-v1.5

Sentence Similarity

sentence-transformers

Transformers.js

feature-extraction

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

Fix various snippets; add required safe_serialization

#2

by tomaarsen HF staff - opened Feb 14

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

Files changed (2) hide show

README.md +3 -3
sentence_bert_config.json +4 -1

README.md CHANGED Viewed

@@ -2675,9 +2675,9 @@ from sentence_transformers import SentenceTransformer
 matryoshka_dim = 512
-model = SentenceTransformer(".", trust_remote_code=True)
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
-embeddings = model.encode(sentences)
 embeddings = F.layer_norm(embeddings, normalized_shape=(embeddings.shape[1],))
 embeddings = embeddings[:, :matryoshka_dim]
 embeddings = F.normalize(embeddings, p=2, dim=1)
@@ -2699,7 +2699,7 @@ def mean_pooling(model_output, attention_mask):
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
 tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
-model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1', trust_remote_code=True)
 model.eval()
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

 matryoshka_dim = 512
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
+embeddings = model.encode(sentences, convert_to_tensor=True)
 embeddings = F.layer_norm(embeddings, normalized_shape=(embeddings.shape[1],))
 embeddings = embeddings[:, :matryoshka_dim]
 embeddings = F.normalize(embeddings, p=2, dim=1)
 sentences = ['search_query: What is TSNE?', 'search_query: Who is Laurens van der Maaten?']
 tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
+model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', trust_remote_code=True, safe_serialization=True)
 model.eval()
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

sentence_bert_config.json CHANGED Viewed

@@ -1,4 +1,7 @@
 {
     "max_seq_length": 8192,
-    "do_lower_case": false
 }

 {
     "max_seq_length": 8192,
+    "do_lower_case": false,
+    "model_args": {
+        "safe_serialization": true
+    }
 }