Spaces:

goodmodeler
/

AdGPT

Running

App Files Files Community

goodmodeler commited on Jul 13

Commit

7066d20

0 Parent(s):

add train lora

Browse files

Files changed (15) hide show

.gitattributes +35 -0
README.md +68 -0
app.py +154 -0
build_embeddings.py +11 -0
diffusers +1 -0
ds_config.json +20 -0
image_download.py +35 -0
image_gen.py +8 -0
inference.py +97 -0
ppo_tune.py +19 -0
requirements.txt +16 -0
reward_model.py +21 -0
sft_train.py +41 -0
train_lora.py +51 -0
xformers +1 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+title: ZeroGPU
+emoji: 🖼
+colorFrom: purple
+colorTo: red
+sdk: gradio
+sdk_version: 5.25.2
+app_file: app.py
+pinned: false
+license: apache-2.0
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+commands:
+pip install git+https://github.com/huggingface/diffusers
+accelerate launch \
+  --deepspeed_config_file ds_config.json \
+  diffusers/examples/dreambooth/train_dreambooth.py \
+    --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \
+    --instance_data_dir="./nyc_ads_dataset" \
+    --instance_prompt="a photo of an urbanad nyc" \
+    --output_dir="./nyc-ad-model" \
+    --resolution=100 \
+    --train_batch_size=1 \
+    --gradient_accumulation_steps=1 \
+    --gradient_checkpointing \
+    --learning_rate=5e-6 \
+    --lr_scheduler="constant" \
+    --lr_warmup_steps=0 \
+    --max_train_steps=400 \
+    --mixed_precision="fp16" \
+    --checkpointing_steps=100 \
+    --checkpoints_total_limit=1 \
+    --report_to="tensorboard" \
+    --logging_dir="./nyc-ad-model/logs"
+fine tune a trained model: --pretrained_model_name_or_path="./nyc-ad-model/checkpoint-400" \
+export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+import torch
+torch.cuda.empty_cache()
+torch.cuda.reset_peak_memory_stats()
+7/12
+# 1 Fine‑tune image model LoRA+QLoRA
+accelerate launch --deepspeed_config_file=ds_config_zero3.json train_lora.py
+python train_lora.py
+# 2 SFT 语言模型
+python sft_train.py
+# 3 Build RAG index
+python build_embeddings.py
+# 4 (可选) 收集偏好 → 训练 reward model
+python reward_model.py
+# 5 PPO RLHF 微调
+python ppo_tune.py
+# 6 Inference with RAG
+python rag_infer.py

app.py ADDED Viewed

	@@ -0,0 +1,154 @@

+import gradio as gr
+import numpy as np
+import random
+# import spaces #[uncomment to use ZeroGPU]
+from diffusers import DiffusionPipeline
+import torch
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model_repo_id = "stabilityai/sdxl-turbo"  # Replace to the model you would like to use
+if torch.cuda.is_available():
+    torch_dtype = torch.float16
+else:
+    torch_dtype = torch.float32
+pipe = DiffusionPipeline.from_pretrained(model_repo_id, torch_dtype=torch_dtype)
+pipe = pipe.to(device)
+MAX_SEED = np.iinfo(np.int32).max
+MAX_IMAGE_SIZE = 1024
+# @spaces.GPU #[uncomment to use ZeroGPU]
+def infer(
+    prompt,
+    negative_prompt,
+    seed,
+    randomize_seed,
+    width,
+    height,
+    guidance_scale,
+    num_inference_steps,
+    progress=gr.Progress(track_tqdm=True),
+):
+    if randomize_seed:
+        seed = random.randint(0, MAX_SEED)
+    generator = torch.Generator().manual_seed(seed)
+    image = pipe(
+        prompt=prompt,
+        negative_prompt=negative_prompt,
+        guidance_scale=guidance_scale,
+        num_inference_steps=num_inference_steps,
+        width=width,
+        height=height,
+        generator=generator,
+    ).images[0]
+    return image, seed
+examples = [
+    "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k",
+    "An astronaut riding a green horse",
+    "A delicious ceviche cheesecake slice",
+]
+css = """
+#col-container {
+    margin: 0 auto;
+    max-width: 640px;
+}
+"""
+with gr.Blocks(css=css) as demo:
+    with gr.Column(elem_id="col-container"):
+        gr.Markdown(" # Text-to-Image Gradio Template")
+        with gr.Row():
+            prompt = gr.Text(
+                label="Prompt",
+                show_label=False,
+                max_lines=1,
+                placeholder="Enter your prompt",
+                container=False,
+            )
+            run_button = gr.Button("Run", scale=0, variant="primary")
+        result = gr.Image(label="Result", show_label=False)
+        with gr.Accordion("Advanced Settings", open=False):
+            negative_prompt = gr.Text(
+                label="Negative prompt",
+                max_lines=1,
+                placeholder="Enter a negative prompt",
+                visible=False,
+            )
+            seed = gr.Slider(
+                label="Seed",
+                minimum=0,
+                maximum=MAX_SEED,
+                step=1,
+                value=0,
+            )
+            randomize_seed = gr.Checkbox(label="Randomize seed", value=True)
+            with gr.Row():
+                width = gr.Slider(
+                    label="Width",
+                    minimum=256,
+                    maximum=MAX_IMAGE_SIZE,
+                    step=32,
+                    value=1024,  # Replace with defaults that work for your model
+                )
+                height = gr.Slider(
+                    label="Height",
+                    minimum=256,
+                    maximum=MAX_IMAGE_SIZE,
+                    step=32,
+                    value=1024,  # Replace with defaults that work for your model
+                )
+            with gr.Row():
+                guidance_scale = gr.Slider(
+                    label="Guidance scale",
+                    minimum=0.0,
+                    maximum=10.0,
+                    step=0.1,
+                    value=0.0,  # Replace with defaults that work for your model
+                )
+                num_inference_steps = gr.Slider(
+                    label="Number of inference steps",
+                    minimum=1,
+                    maximum=50,
+                    step=1,
+                    value=2,  # Replace with defaults that work for your model
+                )
+        gr.Examples(examples=examples, inputs=[prompt])
+    gr.on(
+        triggers=[run_button.click, prompt.submit],
+        fn=infer,
+        inputs=[
+            prompt,
+            negative_prompt,
+            seed,
+            randomize_seed,
+            width,
+            height,
+            guidance_scale,
+            num_inference_steps,
+        ],
+        outputs=[result, seed],
+    )
+if __name__ == "__main__":
+    demo.launch()

build_embeddings.py ADDED Viewed

	@@ -0,0 +1,11 @@

+from sentence_transformers import SentenceTransformer
+import faiss, json, glob, os, numpy as np
+model = SentenceTransformer("mixedbread-ai/mxbai-embed-large-v1")
+texts=[]; vecs=[]
+for f in glob.glob("nyc_ads_dataset/*.json"):
+    cap=json.load(open(f))["caption"]
+    texts.append(cap); vecs.append(model.encode(cap,normalize_embeddings=True))
+vecs=np.vstack(vecs).astype("float32")
+index=faiss.IndexFlatIP(vecs.shape[1]); index.add(vecs)
+faiss.write_index(index,"prompt.index"); json.dump(texts,open("prompt.txt","w"))

diffusers ADDED Viewed

	@@ -0,0 +1 @@


1	+ Subproject commit 92fe689f06bcec27c4f48cb90574c2b9c42c643b

ds_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+    "zero_optimization": {
+      "stage": 2,
+      "offload_param": {
+        "device": "cpu",
+        "pin_memory": true
+      },
+      "offload_optimizer": {
+        "device": "cpu",
+        "pin_memory": true
+      },
+      "overlap_comm": true,
+      "contiguous_gradients": true
+    },
+    "gradient_accumulation_steps": 1,
+    "train_batch_size": 1,
+    "fp16": {
+      "enabled": true
+    }
+}

image_download.py ADDED Viewed

	@@ -0,0 +1,35 @@

+import flickrapi
+import requests
+import os
+# Your Flickr API credentials
+FLICKR_PUBLIC = '0ff89a88a2a61c24f452774ad32ee62c'
+FLICKR_SECRET = '35c5034466630c82'
+# Create Flickr API object
+flickr = flickrapi.FlickrAPI(FLICKR_PUBLIC, FLICKR_SECRET, format='parsed-json')
+# Search for images with relevant tags
+results = flickr.photos.search(
+    text='advertisement',
+    per_page=50,
+    media='photos',
+    sort='relevance',
+    extras='url_o,url_l,url_c,tags',
+    content_type=1,
+    safe_search=1
+)
+photos = results['photos']['photo']
+# Create folder to save images
+# os.makedirs('flickr_brooklyn_ads', exist_ok=True)
+# Download images
+for i, photo in enumerate(photos):
+    url = photo.get('url_o') or photo.get('url_l') or photo.get('url_c')
+    if url:
+        img_data = requests.get(url).content
+        with open(f'nyc_ads_dataset/img_{i}.jpg', 'wb') as handler:
+            handler.write(img_data)
+        print(f"Downloaded: img_{i}.jpg")

image_gen.py ADDED Viewed

	@@ -0,0 +1,8 @@

+from datasets import load_dataset
+import os
+dataset = load_dataset("cifar10", split="train", streaming=True)
+os.makedirs("./nyc_ads_dataset", exist_ok=True)
+for i, ex in zip(range(5), dataset):
+    ex["img"].save(f"./nyc_ads_dataset/{i+1:03d}.jpg")

inference.py ADDED Viewed

	@@ -0,0 +1,97 @@

+'''
+from diffusers import StableDiffusionPipeline
+import torch
+# Load the fine-tuned DreamBooth model
+pipe = StableDiffusionPipeline.from_pretrained(
+    "./nyc-ad-model",
+    torch_dtype=torch.float16,
+).to("cuda")  # use "cpu" if no GPU
+prompt = "brand name: xyc, fried chicken advertisement poster: a fried chicken in brooklyn street"
+image = pipe(prompt, num_inference_steps=500, guidance_scale=7.5).images[0]
+# Display or save the image
+image.save("output_nyc_ad.png")
+image.show()
+'''
+'''
+import torch, faiss, json
+from sentence_transformers import SentenceTransformer
+from diffusers import StableDiffusionPipeline
+texts=json.load(open("prompt.txt"))
+index=faiss.read_index("prompt.index")
+emb=SentenceTransformer("mixedbread-ai/mxbai-embed-large-v1")
+pipe=StableDiffusionPipeline.from_pretrained("./nyc-ad-model",torch_dtype=torch.float16).to("cuda")
+def rag_prompt(query,k=3):
+    q=emb.encode(query,normalize_embeddings=True).astype("float32")
+    _,I=index.search(q.reshape(1,-1),k)
+    retrieved=" ".join(texts[i] for i in I[0])
+    return f"{retrieved}. {query}"
+prompt=rag_prompt("fried chicken advertisement poster")
+img=pipe(prompt,num_inference_steps=30,guidance_scale=7.5).images[0]
+img.save("rag_output.png")
+'''
+import torch, faiss, json
+from sentence_transformers import SentenceTransformer
+from diffusers import StableDiffusionPipeline
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# Load RAG index
+texts = json.load(open("prompt.txt"))
+index = faiss.read_index("prompt.index")
+emb = SentenceTransformer("mixedbread-ai/mxbai-embed-large-v1")
+# Load image generation pipeline
+pipe = StableDiffusionPipeline.from_pretrained(
+    "./nyc-ad-model",
+    torch_dtype=torch.float16
+).to("cuda")
+# Load your own fine-tuned SFT model
+text_model_path = "./sft-model"  # Path to your SFT-finetuned model
+tokenizer = AutoTokenizer.from_pretrained(text_model_path)
+text_model = AutoModelForCausalLM.from_pretrained(
+    text_model_path,
+    torch_dtype=torch.float16,
+    device_map="auto"
+)
+# Build retrieval-augmented prompt
+def rag_prompt(query, k=3):
+    q = emb.encode(query, normalize_embeddings=True).astype("float32")
+    _, I = index.search(q.reshape(1, -1), k)
+    retrieved = " ".join(texts[i] for i in I[0])
+    return f"{retrieved}. {query}"
+# Prompt for generation
+user_prompt = "fried chicken advertisement poster"
+full_prompt = rag_prompt(user_prompt)
+# Generate image
+image = pipe(full_prompt, num_inference_steps=30, guidance_scale=7.5).images[0]
+image.save("rag_output.png")
+# Construct input prompt compatible with SFT format
+copy_prompt = f"""### Instruction:
+Generate a catchy advertisement slogan for: {user_prompt}
+### Response:"""
+inputs = tokenizer(copy_prompt, return_tensors="pt").to("cuda")
+output_ids = text_model.generate(
+    **inputs,
+    max_new_tokens=30,
+    do_sample=True,
+    top_p=0.95
+)
+response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
+# Output result
+print("🖼️ Image saved to rag_output.png")
+print("📝 Generated slogan:")
+print(response.strip())

ppo_tune.py ADDED Viewed

	@@ -0,0 +1,19 @@

+from trl import PPOTrainer, PPOConfig
+from peft import PeftModel
+import torch, random, json, glob
+from diffusers import StableDiffusionPipeline
+from reward_model import CLIPModel, CLIPProcessor
+rm=CLIPModel.from_pretrained("rm").eval().half().cuda()
+proc=CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+pipe=StableDiffusionPipeline.from_pretrained("./nyc-ad-model",torch_dtype=torch.float16).to("cuda")
+ppo_cfg=PPOConfig(batch_size=1,learning_rate=1e-6,target_kl=0.2)
+trainer=PPOTrainer(model=pipe.unet, reward_model=rm, config=ppo_cfg)
+prompts=[l.strip() for l in open("prompt.txt")]
+for step in range(500):
+    p=random.choice(prompts)
+    img=pipe(p,num_inference_steps=20).images[0]
+    reward=rm(**proc(text=p,images=img,return_tensors="pt").to("cuda")).logits[0,0].item()
+    trainer.step(prompts=[p], rewards=[reward])
+pipe.save_pretrained("nyc-ad-model-rlhf")

requirements.txt ADDED Viewed

	@@ -0,0 +1,16 @@

+accelerate
+diffusers
+invisible_watermark
+torch
+transformers
+xformers
+torchvision
+flickrapi
+requests
+peft>=0.9.0
+bitsandbytes
+faiss-cpu
+sentence-transformers
+trl[peft]
+label-studio
+datasets

reward_model.py ADDED Viewed

	@@ -0,0 +1,21 @@

+from transformers import CLIPProcessor, CLIPModel, TrainingArguments, Trainer
+import datasets, torch, json, glob
+model=CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
+processor=CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+data=[]
+for f in glob.glob("human_prefs/*.json"):
+    j=json.load(open(f)); data.append(j)  # {"prompt":…, "good":img_path, "bad":img_path}
+dataset=datasets.Dataset.from_list(data)
+def preprocess(ex):
+    inputs=processor(text=[ex["prompt"]*2], images=[ex["good"],ex["bad"]], return_tensors="pt")
+    inputs["labels"]=torch.tensor([1,0])
+    return inputs
+dataset=dataset.map(preprocess,remove_columns=dataset.column_names)
+args=TrainingArguments("rm_ckpt",per_device_train_batch_size=2,fp16=True,learning_rate=5e-6,epochs=3)
+trainer=Trainer(model,args,train_dataset=dataset)
+trainer.train(); model.save_pretrained("rm")

sft_train.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import torch, json
+from datasets import load_dataset, Dataset
+from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
+from peft import get_peft_model, LoraConfig, TaskType
+# Load your dataset
+data = [json.loads(l) for l in open("data/sft_data.jsonl")]
+dataset = Dataset.from_list(data)
+# Load model & tokenizer
+base_model = "meta-llama/Llama-2-7b-hf"  # Or use Mistral, Falcon, etc.
+tokenizer = AutoTokenizer.from_pretrained(base_model, use_fast=True)
+model = AutoModelForCausalLM.from_pretrained(base_model, torch_dtype=torch.float16)
+# Add LoRA (optional)
+lora_config = LoraConfig(task_type=TaskType.CAUSAL_LM, r=8, lora_alpha=32, lora_dropout=0.05,
+                         target_modules=["q_proj", "v_proj"])
+model = get_peft_model(model, lora_config)
+# Preprocessing
+def tokenize(example):
+    prompt = f"### Instruction:\n{example['prompt']}\n\n### Response:\n{example['output']}"
+    return tokenizer(prompt, truncation=True, max_length=512, padding="max_length")
+dataset = dataset.map(tokenize, remove_columns=dataset.column_names)
+# Training setup
+args = TrainingArguments(
+    output_dir="./sft-model",
+    per_device_train_batch_size=2,
+    num_train_epochs=3,
+    fp16=True,
+    evaluation_strategy="no",
+    save_strategy="epoch",
+    logging_steps=20,
+    learning_rate=2e-5,
+    report_to="tensorboard",
+)
+data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+trainer = Trainer(model=model, args=args, train_dataset=dataset, data_collator=data_collator)
+trainer.train()

train_lora.py ADDED Viewed

	@@ -0,0 +1,51 @@

+# train_lora.py – QLoRA + DeepSpeed DreamBooth Fine-Tuning (Stable Diffusion)
+import os, argparse, torch
+from diffusers import StableDiffusionPipeline, DDPMScheduler
+from diffusers import DreamBoothLoraTrainer
+from peft import LoraConfig
+from accelerate import Accelerator
+parser = argparse.ArgumentParser()
+parser.add_argument("--data", default="./nyc_ads_dataset")  # 你的训练图片目录
+args = parser.parse_args()
+# LoRA 配置（兼容 QLoRA）
+lora_cfg = LoraConfig(
+    r=8,
+    lora_alpha=32,
+    lora_dropout=0.05,
+    target_modules=["q_proj", "v_proj"]
+)
+# 4-bit 量化加载 SD-1.5
+pipe = StableDiffusionPipeline.from_pretrained(
+    "runwayml/stable-diffusion-v1-5",
+    torch_dtype=torch.float16,
+    load_in_4bit=True,
+    quantization_config={
+        "bnb_4bit_compute_dtype": torch.float16,
+        "bnb_4bit_use_double_quant": True,
+        "bnb_4bit_quant_type": "nf4"
+    },
+)
+# DreamBooth LoRA Trainer
+trainer = DreamBoothLoraTrainer(
+    instance_data_root=args.data,
+    instance_prompt="a photo of an urbanad nyc",
+    lora_config=lora_cfg,
+    output_dir="./nyc-ad-model",
+    max_train_steps=400,
+    train_batch_size=1,
+    gradient_checkpointing=True,
+)
+# DeepSpeed ZeRO-3 加速 / 显存拆分
+accelerator = Accelerator(
+    mixed_precision="fp16",
+    deepspeed_config="./ds_config_zero3.json"   # 需提前放置
+)
+# 开始训练
+trainer.train(accelerator)

xformers ADDED Viewed

	@@ -0,0 +1 @@


1	+ Subproject commit 8fc8ec5a4d6498ff81c0c418b89bbaf133ae3a44