Spaces:

Pluto0616
/

internlm_L4

Sleeping

App Files Files Community

Pluto0616 commited on Dec 11, 2024

Commit

7378138

1 Parent(s): ac3dfcf

update01

Browse files

Files changed (2) hide show

app.py +294 -0
requirements.txt +218 -0

app.py ADDED Viewed

	@@ -0,0 +1,294 @@

+"""This script refers to the dialogue example of streamlit, the interactive
+generation code of chatglm2 and transformers.
+We mainly modified part of the code logic to adapt to the
+generation of our model.
+Please refer to these links below for more information:
+    1. streamlit chat example:
+        https://docs.streamlit.io/knowledge-base/tutorials/build-conversational-apps
+    2. chatglm2:
+        https://github.com/THUDM/ChatGLM2-6B
+    3. transformers:
+        https://github.com/huggingface/transformers
+Please run with the command `streamlit run path/to/web_demo.py
+    --server.address=0.0.0.0 --server.port 7860`.
+Using `python path/to/web_demo.py` may cause unknown problems.
+"""
+# isort: skip_file
+import copy
+import warnings
+from dataclasses import asdict, dataclass
+from typing import Callable, List, Optional
+import os
+import streamlit as st
+import torch
+from torch import nn
+from transformers.generation.utils import (LogitsProcessorList,
+                                           StoppingCriteriaList)
+from transformers.utils import logging
+from transformers import AutoTokenizer, AutoModelForCausalLM  # isort: skip
+os.system('git lfs install')
+os.system("git clone https://huggingface.co/Pluto0616/intern_study_L1_5")
+logger = logging.get_logger(__name__)
+model_name_or_path="intern_study_L1_5"
+@dataclass
+class GenerationConfig:
+    # this config is used for chat to provide more diversity
+    max_length: int = 32768
+    top_p: float = 0.8
+    temperature: float = 0.8
+    do_sample: bool = True
+    repetition_penalty: float = 1.005
+@torch.inference_mode()
+def generate_interactive(
+    model,
+    tokenizer,
+    prompt,
+    generation_config: Optional[GenerationConfig] = None,
+    logits_processor: Optional[LogitsProcessorList] = None,
+    stopping_criteria: Optional[StoppingCriteriaList] = None,
+    prefix_allowed_tokens_fn: Optional[Callable[[int, torch.Tensor],
+                                                List[int]]] = None,
+    additional_eos_token_id: Optional[int] = None,
+    **kwargs,
+):
+    inputs = tokenizer([prompt], padding=True, return_tensors='pt')
+    input_length = len(inputs['input_ids'][0])
+    for k, v in inputs.items():
+        inputs[k] = v.cuda()
+    input_ids = inputs['input_ids']
+    _, input_ids_seq_length = input_ids.shape[0], input_ids.shape[-1]
+    if generation_config is None:
+        generation_config = model.generation_config
+    generation_config = copy.deepcopy(generation_config)
+    model_kwargs = generation_config.update(**kwargs)
+    bos_token_id, eos_token_id = (  # noqa: F841  # pylint: disable=W0612
+        generation_config.bos_token_id,
+        generation_config.eos_token_id,
+    )
+    if isinstance(eos_token_id, int):
+        eos_token_id = [eos_token_id]
+    if additional_eos_token_id is not None:
+        eos_token_id.append(additional_eos_token_id)
+    has_default_max_length = kwargs.get(
+        'max_length') is None and generation_config.max_length is not None
+    if has_default_max_length and generation_config.max_new_tokens is None:
+        warnings.warn(
+            f"Using 'max_length''s default \
+                ({repr(generation_config.max_length)}) \
+                to control the generation length. "
+            'This behaviour is deprecated and will be removed from the \
+                config in v5 of Transformers -- we'
+            ' recommend using `max_new_tokens` to control the maximum \
+                length of the generation.',
+            UserWarning,
+        )
+    elif generation_config.max_new_tokens is not None:
+        generation_config.max_length = generation_config.max_new_tokens + \
+            input_ids_seq_length
+        if not has_default_max_length:
+            logger.warn(  # pylint: disable=W4902
+                f"Both 'max_new_tokens' (={generation_config.max_new_tokens}) "
+                f"and 'max_length'(={generation_config.max_length}) seem to "
+                "have been set. 'max_new_tokens' will take precedence. "
+                'Please refer to the documentation for more information. '
+                '(https://huggingface.co/docs/transformers/main/'
+                'en/main_classes/text_generation)',
+                UserWarning,
+            )
+    if input_ids_seq_length >= generation_config.max_length:
+        input_ids_string = 'input_ids'
+        logger.warning(
+            f'Input length of {input_ids_string} is {input_ids_seq_length}, '
+            f"but 'max_length' is set to {generation_config.max_length}. "
+            'This can lead to unexpected behavior. You should consider'
+            " increasing 'max_new_tokens'.")
+    # 2. Set generation parameters if not already defined
+    logits_processor = logits_processor if logits_processor is not None \
+        else LogitsProcessorList()
+    stopping_criteria = stopping_criteria if stopping_criteria is not None \
+        else StoppingCriteriaList()
+    logits_processor = model._get_logits_processor(
+        generation_config=generation_config,
+        input_ids_seq_length=input_ids_seq_length,
+        encoder_input_ids=input_ids,
+        prefix_allowed_tokens_fn=prefix_allowed_tokens_fn,
+        logits_processor=logits_processor,
+    )
+    stopping_criteria = model._get_stopping_criteria(
+        generation_config=generation_config,
+        stopping_criteria=stopping_criteria)
+    logits_warper = model._get_logits_warper(generation_config)
+    unfinished_sequences = input_ids.new(input_ids.shape[0]).fill_(1)
+    scores = None
+    while True:
+        model_inputs = model.prepare_inputs_for_generation(
+            input_ids, **model_kwargs)
+        # forward pass to get next token
+        outputs = model(
+            **model_inputs,
+            return_dict=True,
+            output_attentions=False,
+            output_hidden_states=False,
+        )
+        next_token_logits = outputs.logits[:, -1, :]
+        # pre-process distribution
+        next_token_scores = logits_processor(input_ids, next_token_logits)
+        next_token_scores = logits_warper(input_ids, next_token_scores)
+        # sample
+        probs = nn.functional.softmax(next_token_scores, dim=-1)
+        if generation_config.do_sample:
+            next_tokens = torch.multinomial(probs, num_samples=1).squeeze(1)
+        else:
+            next_tokens = torch.argmax(probs, dim=-1)
+        # update generated ids, model inputs, and length for next step
+        input_ids = torch.cat([input_ids, next_tokens[:, None]], dim=-1)
+        model_kwargs = model._update_model_kwargs_for_generation(
+            outputs, model_kwargs, is_encoder_decoder=False)
+        unfinished_sequences = unfinished_sequences.mul(
+            (min(next_tokens != i for i in eos_token_id)).long())
+        output_token_ids = input_ids[0].cpu().tolist()
+        output_token_ids = output_token_ids[input_length:]
+        for each_eos_token_id in eos_token_id:
+            if output_token_ids[-1] == each_eos_token_id:
+                output_token_ids = output_token_ids[:-1]
+        response = tokenizer.decode(output_token_ids)
+        yield response
+        # stop when each sentence is finished
+        # or if we exceed the maximum length
+        if unfinished_sequences.max() == 0 or stopping_criteria(
+                input_ids, scores):
+            break
+def on_btn_click():
+    del st.session_state.messages
+@st.cache_resource
+def load_model():
+    model = (AutoModelForCausalLM.from_pretrained(
+        model_name_or_path,
+        trust_remote_code=True).to(torch.bfloat16).cuda())
+    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path,
+                                              trust_remote_code=True)
+    return model, tokenizer
+def prepare_generation_config():
+    with st.sidebar:
+        max_length = st.slider('Max Length',
+                               min_value=8,
+                               max_value=32768,
+                               value=32768)
+        top_p = st.slider('Top P', 0.0, 1.0, 0.8, step=0.01)
+        temperature = st.slider('Temperature', 0.0, 1.0, 0.7, step=0.01)
+        st.button('Clear Chat History', on_click=on_btn_click)
+    generation_config = GenerationConfig(max_length=max_length,
+                                         top_p=top_p,
+                                         temperature=temperature)
+    return generation_config
+user_prompt = '<|im_start|>user\n{user}<|im_end|>\n'
+robot_prompt = '<|im_start|>assistant\n{robot}<|im_end|>\n'
+cur_query_prompt = '<|im_start|>user\n{user}<|im_end|>\n\
+    <|im_start|>assistant\n'
+def combine_history(prompt):
+    messages = st.session_state.messages
+    meta_instruction = ('You are a helpful, honest, '
+                        'and harmless AI assistant.')
+    total_prompt = f'<s><|im_start|>system\n{meta_instruction}<|im_end|>\n'
+    for message in messages:
+        cur_content = message['content']
+        if message['role'] == 'user':
+            cur_prompt = user_prompt.format(user=cur_content)
+        elif message['role'] == 'robot':
+            cur_prompt = robot_prompt.format(robot=cur_content)
+        else:
+            raise RuntimeError
+        total_prompt += cur_prompt
+    total_prompt = total_prompt + cur_query_prompt.format(user=prompt)
+    return total_prompt
+def main():
+    st.title('internlm2_5-7b-chat-assistant')
+    # torch.cuda.empty_cache()
+    print('load model begin.')
+    model, tokenizer = load_model()
+    print('load model end.')
+    generation_config = prepare_generation_config()
+    # Initialize chat history
+    if 'messages' not in st.session_state:
+        st.session_state.messages = []
+    # Display chat messages from history on app rerun
+    for message in st.session_state.messages:
+        with st.chat_message(message['role'], avatar=message.get('avatar')):
+            st.markdown(message['content'])
+    # Accept user input
+    if prompt := st.chat_input('What is up?'):
+        # Display user message in chat message container
+        with st.chat_message('user', avatar='user'):
+            st.markdown(prompt)
+        real_prompt = combine_history(prompt)
+        # Add user message to chat history
+        st.session_state.messages.append({
+            'role': 'user',
+            'content': prompt,
+            'avatar': 'user'
+        })
+        with st.chat_message('robot', avatar='assistant'):
+            message_placeholder = st.empty()
+            for cur_response in generate_interactive(
+                    model=model,
+                    tokenizer=tokenizer,
+                    prompt=real_prompt,
+                    additional_eos_token_id=92542,
+                    device='cuda:0',
+                    **asdict(generation_config),
+            ):
+                # Display robot response in chat message container
+                message_placeholder.markdown(cur_response + '▌')
+            message_placeholder.markdown(cur_response)
+        # Add robot response to chat history
+        st.session_state.messages.append({
+            'role': 'robot',
+            'content': cur_response,  # pylint: disable=undefined-loop-variable
+            'avatar': 'assistant',
+        })
+        torch.cuda.empty_cache()
+if __name__ == '__main__':
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,218 @@

+accelerate==0.27.0
+addict==2.4.0
+aiohttp==3.9.3
+aiosignal==1.3.1
+aliyun-python-sdk-core==2.14.0
+aliyun-python-sdk-kms==2.16.2
+altair==5.2.0
+annotated-types==0.6.0
+anyio==4.2.0
+argon2-cffi==23.1.0
+argon2-cffi-bindings==21.2.0
+arrow==1.3.0
+arxiv==2.1.0
+asttokens==2.4.1
+async-lru==2.0.4
+async-timeout==4.0.3
+attrs==23.2.0
+Babel==2.14.0
+beautifulsoup4==4.12.3
+bitsandbytes==0.42.0
+bleach==6.1.0
+blinker==1.7.0
+cachetools==5.3.2
+certifi==2024.2.2
+cffi==1.16.0
+charset-normalizer==3.3.2
+click==8.1.7
+colorama==0.4.6
+comm==0.2.1
+contourpy==1.2.0
+crcmod==1.7
+cryptography==42.0.2
+cycler==0.12.1
+datasets==2.17.0
+debugpy==1.8.1
+decorator==5.1.1
+deepspeed==0.13.1
+defusedxml==0.7.1
+dill==0.3.8
+distro==1.9.0
+einops==0.8.0
+einx==0.3.0
+et-xmlfile==1.1.0
+exceptiongroup==1.2.0
+executing==2.0.1
+fastapi==0.112.0
+fastjsonschema==2.19.1
+feedparser==6.0.10
+filelock==3.14.0
+fonttools==4.48.1
+fqdn==1.5.1
+frozendict==2.4.4
+frozenlist==1.4.1
+fsspec==2023.10.0
+func-timeout==4.3.5
+gast==0.5.4
+gitdb==4.0.11
+GitPython==3.1.41
+google-search-results==2.4.2
+griffe==0.40.1
+h11==0.14.0
+hjson==3.1.0
+httpcore==1.0.3
+httpx==0.26.0
+huggingface-hub==0.24.2
+idna==3.6
+imageio==2.34.2
+importlib-metadata==7.0.1
+ipykernel==6.29.2
+ipython==8.21.0
+ipywidgets==8.1.2
+isoduration==20.11.0
+jedi==0.19.1
+Jinja2==3.1.3
+jmespath==0.10.0
+json5==0.9.14
+jsonpointer==2.4
+jsonschema==4.21.1
+jsonschema-specifications==2023.12.1
+kiwisolver==1.4.5
+lagent==0.2.1
+lazy_loader==0.4
+llvmlite==0.43.0
+lxml==5.1.0
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+matplotlib==3.8.2
+matplotlib-inline==0.1.6
+mdurl==0.1.2
+mistune==3.0.2
+mmengine==0.10.3
+modelscope==1.12.0
+mpi4py_mpich==3.1.5
+mpmath==1.3.0
+multidict==6.0.5
+multiprocess==0.70.16
+nbclient==0.9.0
+nbconvert==7.16.0
+nbformat==5.9.2
+nest-asyncio==1.6.0
+networkx==3.2.1
+ninja==1.11.1.1
+notebook==7.0.8
+notebook_shim==0.2.3
+numba==0.60.0
+numpy==1.26.4
+nvidia-cublas-cu12==12.1.3.1
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cudnn-cu12==8.9.2.26
+nvidia-cufft-cu12==11.0.2.54
+nvidia-curand-cu12==10.3.2.106
+nvidia-cusolver-cu12==11.4.5.107
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-nccl-cu12==2.19.3
+nvidia-nvjitlink-cu12==12.3.101
+nvidia-nvtx-cu12==12.1.105
+openai==1.12.0
+opencv-python==4.9.0.80
+openpyxl==3.1.2
+oss2==2.17.0
+overrides==7.7.0
+packaging==24.1
+pandas==2.2.0
+pandocfilters==1.5.1
+parso==0.8.3
+peft==0.8.2
+pexpect==4.9.0
+phx-class-registry==4.1.0
+pillow==10.2.0
+platformdirs==4.2.0
+prometheus-client==0.19.0
+prompt-toolkit==3.0.43
+protobuf==4.25.2
+psutil==5.9.8
+ptyprocess==0.7.0
+pure-eval==0.2.2
+py-cpuinfo==9.0.0
+pyarrow==15.0.0
+pyarrow-hotfix==0.6
+pybase16384==0.3.7
+pycparser==2.21
+pycryptodome==3.20.0
+pydantic==2.6.1
+pydantic_core==2.16.2
+pydeck==0.8.1b0
+Pygments==2.17.2
+pynvml==11.5.0
+pyparsing==3.1.1
+python-dateutil==2.8.2
+python-json-logger==2.0.7
+python-pptx==0.6.23
+PyYAML==6.0.1
+pyzmq==25.1.2
+qtconsole==5.5.1
+QtPy==2.4.1
+referencing==0.33.0
+regex==2023.12.25
+rfc3339-validator==0.1.4
+rfc3986-validator==0.1.1
+rich==13.4.2
+rpds-py==0.17.1
+safetensors==0.4.2
+scikit-image==0.24.0
+scipy==1.12.0
+seaborn==0.13.2
+Send2Trash==1.8.2
+sentencepiece==0.1.99
+sgmllib3k==1.0.0
+simplejson==3.19.2
+six==1.16.0
+smmap==5.0.1
+sniffio==1.3.0
+sortedcontainers==2.4.0
+soupsieve==2.5
+stack-data==0.6.3
+starlette==0.37.2
+sympy==1.12
+tenacity==8.2.3
+termcolor==2.4.0
+terminado==0.18.0
+tifffile==2024.7.24
+tiktoken==0.6.0
+timeout-decorator==0.5.0
+tinycss2==1.2.1
+tokenizers==0.15.2
+toml==0.10.2
+tomli==2.0.1
+toolz==0.12.1
+torch==2.2.1
+torchvision==0.17.1
+tornado==6.4
+tqdm==4.65.2
+traitlets==5.14.1
+transformers==4.39.0
+transformers-stream-generator==0.0.4
+triton==2.2.0
+types-python-dateutil==2.8.19.20240106
+typing_extensions==4.9.0
+tzdata==2024.1
+tzlocal==5.2
+uri-template==1.3.0
+urllib3==1.26.18
+uvicorn==0.30.6
+validators==0.22.0
+watchdog==4.0.0
+wcwidth==0.2.13
+webcolors==1.13
+webencodings==0.5.1
+websocket-client==1.7.0
+widgetsnbextension==4.0.10
+XlsxWriter==3.1.9
+xtuner==0.1.23
+xxhash==3.4.1
+yapf==0.40.2
+yarl==1.9.4
+zipp==3.17.0