Spaces:

lord-reso
/

scene-understanding

Sleeping

lord-reso commited on Dec 15, 2024

Commit

9ad7760

1 Parent(s): b5c39fd

Flash attention test

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,8 +21,9 @@ app.add_middleware(
 model_id = "vikhyatk/moondream2"
 revision = "2024-08-26"
 model = AutoModelForCausalLM.from_pretrained(
-    model_id, trust_remote_code=True, revision=revision
-)
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 @app.get("/")

 model_id = "vikhyatk/moondream2"
 revision = "2024-08-26"
 model = AutoModelForCausalLM.from_pretrained(
+    model_id, trust_remote_code=True, revision=revision,
+    torch_dtype=torch.float16, attn_implementation="flash_attention_2"
+).to("cuda")
 tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 @app.get("/")