Spaces:

polygraf-ai
/

copyright_checker

Running

aliasgerovs commited on Feb 16, 2024

Commit

617df1d

1 Parent(s): 6aa7315

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -175,7 +175,7 @@ AI DETECTION SECTION
 """
 device = "cuda" if torch.cuda.is_available() else "cpu"
-text_bc_model_path = "polygraf-ai/ai-text-bc-bert-2-7m"
 text_bc_tokenizer = AutoTokenizer.from_pretrained(text_bc_model_path)
 text_bc_model = AutoModelForSequenceClassification.from_pretrained(text_bc_model_path).to(device)
@@ -192,8 +192,9 @@ def update_character_count(text):
 def predict_bc(model, tokenizer, text):
     tokens = tokenizer(
-        text, padding=True, truncation=True, return_tensors="pt"
     ).to(device)["input_ids"]
     output = model(tokens)
     output_norm = softmax(output.logits.detach().cpu().numpy(), 1)[0]
     print("BC Score: ", output_norm)

 """
 device = "cuda" if torch.cuda.is_available() else "cpu"
+text_bc_model_path = "polygraf-ai/v3-bert-3-2m-trun-bc"
 text_bc_tokenizer = AutoTokenizer.from_pretrained(text_bc_model_path)
 text_bc_model = AutoModelForSequenceClassification.from_pretrained(text_bc_model_path).to(device)
 def predict_bc(model, tokenizer, text):
     tokens = tokenizer(
+        text, padding='max_length', truncation=True, max_length=256, return_tensors="pt"
     ).to(device)["input_ids"]
     output = model(tokens)
     output_norm = softmax(output.logits.detach().cpu().numpy(), 1)[0]
     print("BC Score: ", output_norm)