Spaces:

arubenruben
/

Quantization-Attempts

Running

App Files Files Community

Rúben Almeida commited on 26 days ago

Commit

5e9b3af

1 Parent(s): 288d5ce

Add Default redirect to swagger ui

Browse files

Files changed (2) hide show

Dockerfile +1 -1
main.py +28 -7

Dockerfile CHANGED Viewed

@@ -24,4 +24,4 @@ COPY . .
 EXPOSE 7860
-ENTRYPOINT [ "fastapi", "run", "main.py", "--host=0.0.0.0", "--port=7860" ]


24
25	EXPOSE 7860
26
27	+ ENTRYPOINT ["fastapi", "run", "main.py", "--host=0.0.0.0", "--port=7860"]

main.py CHANGED Viewed

@@ -1,26 +1,47 @@
 from typing import Optional
 from pydantic import BaseModel, Field
-from fastapi import FastAPI, HTTPException
 from contextlib import asynccontextmanager
 from starlette.responses import FileResponse
-class ConvertRequest(BaseModel):
-    hf_model_name: str
-    hf_token: Optional[str] = Field(None, description="Hugging Face token for private models")
-    hf_push_repo: Optional[str] = Field(None, description="Hugging Face repo to push the converted model")
 @asynccontextmanager
 async def lifespan(app:FastAPI):
     yield
 app = FastAPI(title="Huggingface Safetensor Model Converter to AWQ", version="0.1.0", lifespan=lifespan)
 @app.get("/health")
 def read_root():
     return {"status": "ok"}
 @app.post("/convert")
 def convert(request: ConvertRequest)->FileResponse:
-    raise HTTPException(status_code=501, detail="Not Implemented yet")
     #return FileResponse(file_location, media_type='application/octet-stream',filename=file_name)

 from typing import Optional
+from awq import AutoAWQForCausalLM
 from pydantic import BaseModel, Field
+from transformers import AutoTokenizer
 from contextlib import asynccontextmanager
 from starlette.responses import FileResponse
+from fastapi import FastAPI, HTTPException, RedirectResponse
+### FastAPI Initialization
 @asynccontextmanager
 async def lifespan(app:FastAPI):
     yield
 app = FastAPI(title="Huggingface Safetensor Model Converter to AWQ", version="0.1.0", lifespan=lifespan)
+### -------
+### DTO Definitions
+class QuantizationConfig(BaseModel):
+    zero_point: Optional[bool] = Field(True, description="Use zero point quantization")
+    q_group_size: Optional[int] = Field(128, description="Quantization group size")
+    w_bit: Optional[int] = Field(4, description="Weight bit")
+    version: Optional[str] = Field("GEMM", description="Quantization version")
+class ConvertRequest(BaseModel):
+    hf_model_name: str
+    hf_token: Optional[str] = Field(None, description="Hugging Face token for private models")
+    hf_push_repo: Optional[str] = Field(None, description="Hugging Face repo to push the converted model. If not provided, the model will be downloaded only.")
+    quantization_config: QuantizationConfig = Field(QuantizationConfig(), description="Quantization configuration")
+### -------
+@app.get("/", include_in_schema=False)
+def redirect_to_docs():
+    return RedirectResponse(url='/docs')
+### FastAPI Endpoints
 @app.get("/health")
 def read_root():
     return {"status": "ok"}
 @app.post("/convert")
 def convert(request: ConvertRequest)->FileResponse:
+    model = AutoAWQForCausalLM.from_pretrained(model_path)
+    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+    raise HTTPException(status_code=501, detail="Not Implemented yet")
     #return FileResponse(file_location, media_type='application/octet-stream',filename=file_name)