Spaces:

atlasia
/

Al-Atlas-LLM

Running on Zero

App Files Files Community

nouamanetazi HF Staff commited on Mar 6

Commit

ea7e643

verified ·

1 Parent(s): 8cafaac

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -24

app.py CHANGED Viewed

@@ -79,6 +79,7 @@ usage_stats = {
     "total_tokens_generated": 0,
     "start_time": time.time()
 }
 @spaces.GPU
 def generate_text(prompt, max_length=256, temperature=0.7, top_p=0.9, top_k=150, num_beams=8, repetition_penalty=1.5, progress=gr.Progress()):
     if not prompt.strip():
@@ -97,24 +98,22 @@ def generate_text(prompt, max_length=256, temperature=0.7, top_p=0.9, top_k=150,
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     progress(0.1, desc="تحليل النص (Tokenizing)")
-    # Generate text
-    # Since we can't track token generation directly, we'll create artificial steps
-    steps = 10  # Divide generation into 10 steps
-    for i in progress.tqdm(range(steps), desc="توليد النص (Generating text)"):
-        if i == 0:  # Only generate on the first step
-            output = model.generate(
-                **inputs,
-                max_length=max_length,
-                temperature=temperature,
-                top_p=top_p,
-                do_sample=True,
-                repetition_penalty=repetition_penalty,
-                num_beams=num_beams,
-                top_k=top_k,
-                early_stopping=True,
-                pad_token_id=tokenizer.pad_token_id,
-                eos_token_id=tokenizer.eos_token_id,
-            )
     # Decode output
     progress(0.9, desc="معالجة النتائج (Processing results)")
@@ -192,7 +191,7 @@ def get_stats():
 def reset_params():
     """Reset parameters to default values"""
     logger.info("Parameters reset to defaults")
-    return 256, 0.7, 0.9, 150, 8, 1.5
 def thumbs_up_callback(input_text, output_text):
     """Record positive feedback"""
@@ -274,15 +273,15 @@ if __name__ == "__main__":
                 with gr.Accordion("معلمات التوليد (Generation Parameters)", open=False):
                     with gr.Row():
                         with gr.Column():
-                            max_length = gr.Slider(8, 4096, value=256, label="Max Length (الطول الأقصى)")
                             temperature = gr.Slider(0.0, 2, value=0.7, label="Temperature (درجة الحرارة)")
                             top_p = gr.Slider(0.0, 1.0, value=0.9, label="Top-p (أعلى احتمال)")
                         with gr.Column():
-                            top_k = gr.Slider(1, 10000, value=150, label="Top-k (أعلى ك)")
-                            num_beams = gr.Slider(1, 20, value=8, label="Number of Beams (عدد الأشعة)")
-                            repetition_penalty = gr.Slider(0.0, 100.0, value=1.5, label="Repetition Penalty (عقوبة التكرار)")
             with gr.Column(scale=6):
                 output_text = gr.Textbox(label="النص المولد (Generated Text)", lines=10)
                 generation_info = gr.Markdown("")

     "total_tokens_generated": 0,
     "start_time": time.time()
 }
 @spaces.GPU
 def generate_text(prompt, max_length=256, temperature=0.7, top_p=0.9, top_k=150, num_beams=8, repetition_penalty=1.5, progress=gr.Progress()):
     if not prompt.strip():
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     progress(0.1, desc="تحليل النص (Tokenizing)")
+    # Generate text with optimized parameters for speed
+    progress(0.2, desc="توليد النص (Generating text)")
+    output = model.generate(
+        **inputs,
+        max_length=max_length,
+        temperature=temperature,
+        top_p=top_p,
+        do_sample=True,
+        repetition_penalty=repetition_penalty,
+        num_beams=1 if num_beams > 4 else num_beams,  # Reduce beam search or use greedy decoding
+        top_k=top_k,
+        early_stopping=True,
+        pad_token_id=tokenizer.pad_token_id,
+        eos_token_id=tokenizer.eos_token_id,
+        use_cache=True,  # Ensure cache is used
+    )
     # Decode output
     progress(0.9, desc="معالجة النتائج (Processing results)")
 def reset_params():
     """Reset parameters to default values"""
     logger.info("Parameters reset to defaults")
+    return 128, 0.7, 0.9, 50, 1, 1.2  # Updated defaults for faster generation
 def thumbs_up_callback(input_text, output_text):
     """Record positive feedback"""
                 with gr.Accordion("معلمات التوليد (Generation Parameters)", open=False):
                     with gr.Row():
                         with gr.Column():
+                            max_length = gr.Slider(8, 4096, value=128, label="Max Length (الطول الأقصى)")  # Reduced default
                             temperature = gr.Slider(0.0, 2, value=0.7, label="Temperature (درجة الحرارة)")
                             top_p = gr.Slider(0.0, 1.0, value=0.9, label="Top-p (أعلى احتمال)")
                         with gr.Column():
+                            top_k = gr.Slider(1, 10000, value=50, label="Top-k (أعلى ك)")  # Reduced default
+                            num_beams = gr.Slider(1, 20, value=1, label="Number of Beams (عدد الأشعة)")  # Reduced default
+                            repetition_penalty = gr.Slider(0.0, 100.0, value=1.2, label="Repetition Penalty (عقوبة التكرار)")  # Reduced default
             with gr.Column(scale=6):
                 output_text = gr.Textbox(label="النص المولد (Generated Text)", lines=10)
                 generation_info = gr.Markdown("")