Spaces:

kgourgou
/

llm-decoders

Sleeping

kgourgou commited on Feb 15

Commit

eab7f9b

verified ·

1 Parent(s): 58318c4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,15 +51,16 @@ def generate_completion(prompt, strategy, params):
     """
     Generate a complete answer using model.generate with specified parameters.
     """
-    # Encode the prompt and get the attention mask.
-    encoded = tokenizer(prompt, return_tensors="pt")
-    input_ids = encoded["input_ids"]
-    attention_mask = encoded["attention_mask"]
-    # Generate the output.
-    output_ids = model.generate(
-        input_ids, attention_mask=attention_mask, max_length=50, **params
-    )
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
@@ -89,7 +90,6 @@ def generate_all(prompt):
     Run multiple decoding strategies concurrently and yield updates as each completes.
     """
     # Define each decoding strategy and its parameters.
-    # For the default strategies, we use model.generate; for "Min‑p Sampling" we use our custom function.
     methods = {
         "Greedy": {"type": "default", "params": {"do_sample": False}},
         "Top-k Sampling": {
@@ -152,6 +152,7 @@ def generate_all(prompt):
             except Exception as exc:
                 result = f"Error: {exc}"
             results[method] = result
             # Yield the results in the pre-defined order; pending methods show "Processing..."
             yield tuple(
                 results[m] if results[m] is not None else "Processing..."

     """
     Generate a complete answer using model.generate with specified parameters.
     """
+    with torch.no_grad():
+        # Encode the prompt and get the attention mask.
+        encoded = tokenizer(prompt, return_tensors="pt")
+        input_ids = encoded["input_ids"]
+        attention_mask = encoded["attention_mask"]
+        # Generate the output.
+        output_ids = model.generate(
+            input_ids, attention_mask=attention_mask, max_length=50, **params
+        )
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
     Run multiple decoding strategies concurrently and yield updates as each completes.
     """
     # Define each decoding strategy and its parameters.
     methods = {
         "Greedy": {"type": "default", "params": {"do_sample": False}},
         "Top-k Sampling": {
             except Exception as exc:
                 result = f"Error: {exc}"
             results[method] = result
             # Yield the results in the pre-defined order; pending methods show "Processing..."
             yield tuple(
                 results[m] if results[m] is not None else "Processing..."