DeepSeek-R1-Qwen-7B

Runtime error

App Files Files Community

DeepSeek-R1-Qwen-7B / app.py

nikravan

Update app.py

38fae63 verified 12 days ago

raw

history blame

4.46 kB


	import json
	import subprocess
	from threading import Thread

	import torch
	import spaces
	import gradio as gr
	from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TextIteratorStreamer

	#subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)

	MODEL_ID = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B"
	CHAT_TEMPLATE = "َAuto"
	MODEL_NAME = MODEL_ID.split("/")[-1]
	CONTEXT_LENGTH = 16000


	COLOR = "black"
	EMOJI = "🤖"
	DESCRIPTION = f"This is {MODEL_NAME} model designed for testing thinking for general AI tasks." # Descripción predeterminada

	latex_delimiters_set = [{
	"left": "\\(",
	"right": "\\)",
	"display": False
	}, {
	"left": "\\begin{equation}",
	"right": "\\end{equation}",
	"display": True
	}, {
	"left": "\\begin{align}",
	"right": "\\end{align}",
	"display": True
	}, {
	"left": "\\begin{alignat}",
	"right": "\\end{alignat}",
	"display": True
	}, {
	"left": "\\begin{gather}",
	"right": "\\end{gather}",
	"display": True
	}, {
	"left": "\\begin{CD}",
	"right": "\\end{CD}",
	"display": True
	}, {
	"left": "\\[",
	"right": "\\]",
	"display": True
	}]


	@spaces.GPU()
	def predict(message, history, system_prompt, temperature, max_new_tokens, top_k, repetition_penalty, top_p):

	stop_tokens = ["<\|endoftext\|>", "<\|im_end\|>", "\|im_end\|"]
	instruction = '<\|im_start\|>system\n' + system_prompt + '\n<\|im_end\|>\n'
	for user, assistant in history:
	instruction += f'<\|im_start\|>user\n{user}\n<\|im_end\|>\n<\|im_start\|>assistant\n{assistant}\n<\|im_end\|>\n'
	instruction += f'<\|im_start\|>user\n{message}\n<\|im_end\|>\n<\|im_start\|>assistant\n'

	print("Formatted Instruction:", instruction)


	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token


	enc = tokenizer(instruction, return_tensors="pt", padding=True, truncation=True)
	input_ids, attention_mask = enc.input_ids, enc.attention_mask


	if input_ids.shape[1] > CONTEXT_LENGTH:
	input_ids = input_ids[:, -CONTEXT_LENGTH:]
	attention_mask = attention_mask[:, -CONTEXT_LENGTH:]


	streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

	# Define the generation parameters
	generate_kwargs = dict(
	input_ids=input_ids.to(device),
	attention_mask=attention_mask.to(device),
	streamer=streamer,
	do_sample=True,
	temperature=temperature,
	max_new_tokens=max_new_tokens,
	top_k=top_k,
	repetition_penalty=repetition_penalty,
	top_p=top_p,
	pad_token_id=tokenizer.pad_token_id, # Explicitly set pad_token_id
	eos_token_id=tokenizer.eos_token_id, # Explicitly set eos_token_id
	)

	# Start the generation in a separate thread
	t = Thread(target=model.generate, kwargs=generate_kwargs)
	t.start()

	# Stream the output token by token
	outputs = []
	for new_token in streamer:
	outputs.append(new_token)
	if any(stop_token in new_token for stop_token in stop_tokens):
	break
	yield "".join(outputs)


	# Load model
	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	quantization_config = BitsAndBytesConfig(
	load_in_4bit=True,
	bnb_4bit_compute_dtype=torch.bfloat16
	)
	tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
	model = AutoModelForCausalLM.from_pretrained(
	MODEL_ID,
	device_map="auto",
	#quantization_config=quantization_config,
	#attn_implementation="flash_attention_2",

	)

	# Create Gradio interface
	gr.ChatInterface(
	predict,
	title=EMOJI + " " + MODEL_NAME,
	description=DESCRIPTION,



	additional_inputs_accordion=gr.Accordion(label="⚙️ Parameters", open=False),
	additional_inputs=[
	gr.Textbox("You are a useful assistant. first recognize user request and then reply carfuly and thinking", label="System prompt"),
	gr.Slider(0, 1, 0.6, label="Temperature"),
	gr.Slider(0, 32000, 10000, label="Max new tokens"),
	gr.Slider(1, 80, 40, label="Top K sampling"),
	gr.Slider(0, 2, 1.1, label="Repetition penalty"),
	gr.Slider(0, 1, 0.95, label="Top P sampling"),
	],
	#theme=gr.themes.Soft(primary_hue=COLOR),
	).queue().launch()