Spaces:

arubenruben
/

Quantization-Attempts

Running

App Files Files Community

Rúben Almeida commited on 26 days ago

Commit

6af49e3

1 Parent(s): af9aed3

Done? Issue with Return type of the convert route

Browse files

Files changed (1) hide show

main.py +20 -8

main.py CHANGED Viewed

@@ -3,6 +3,7 @@ from typing import Optional, Union
 from awq import AutoAWQForCausalLM
 from pydantic import BaseModel, Field
 from transformers import AutoTokenizer
 from contextlib import asynccontextmanager
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import RedirectResponse, FileResponse
@@ -40,24 +41,35 @@ def redirect_to_docs():
 def read_root():
     return {"status": "ok"}
-@app.post("/convert")
 def convert(request: ConvertRequest)->Union[FileResponse, dict]:
     model = AutoAWQForCausalLM.from_pretrained(request.hf_model_name)
     tokenizer = AutoTokenizer.from_pretrained(request.hf_tokenizer_name or request.hf_model_name, trust_remote_code=True)
-    model.quantize(tokenizer, quant_config=quant_config)
     if request.hf_push_repo:
-        model.save_quantized(quant_path)
-        tokenizer.save_pretrained(quant_path)
         return {
             "status": "ok",
-            "message": f"Model saved to {quant_path}"
         }
-        # Return a zip file with the converted model
-    raise HTTPException(status_code=501, detail="Not Implemented yet")
-    #return FileResponse(file_location, media_type='application/octet-stream',filename=file_name)

 from awq import AutoAWQForCausalLM
 from pydantic import BaseModel, Field
 from transformers import AutoTokenizer
+from tempfile import NamedTemporaryFile
 from contextlib import asynccontextmanager
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import RedirectResponse, FileResponse
 def read_root():
     return {"status": "ok"}
+@app.post("/convert", response_model=None)
 def convert(request: ConvertRequest)->Union[FileResponse, dict]:
     model = AutoAWQForCausalLM.from_pretrained(request.hf_model_name)
     tokenizer = AutoTokenizer.from_pretrained(request.hf_tokenizer_name or request.hf_model_name, trust_remote_code=True)
+    model.quantize(tokenizer, quant_config=request.quantization_config.model_dump())
     if request.hf_push_repo:
+        model.save_quantized(request.hf_push_repo)
+        tokenizer.save_pretrained(request.hf_push_repo)
         return {
             "status": "ok",
+            "message": f"Model saved to {request.hf_push_repo}",
         }
+    # Return a zip file with the converted model
+    with NamedTemporaryFile(suffix=".zip", delete=False) as temp_zip:
+        zip_file_path = temp_zip.name
+        with zipfile.ZipFile(zip_file_path, 'w') as zipf:
+            # Save the model and tokenizer files to the zip
+            model.save_quantized(zipf)
+            tokenizer.save_pretrained(zipf)
+            return FileResponse(
+                zip_file_path,
+                media_type='application/zip',
+                filename=f"{request.hf_model_name}.zip"
+            )
+    raise HTTPException(status_code=500, detail="Failed to convert model")