Spaces:

truong-xuan-linh
/

ViT5-preproduce

Sleeping

App Files Files Community

linh-truong commited on Jun 5, 2024

Commit

e276af2

1 Parent(s): 506c323

init

Browse files

Files changed (4) hide show

.gitignore +2 -0
app.py +51 -0
requirements.txt +2 -0
src/model.py +28 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ test
2	+ __pycache__

app.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import streamlit as st
+mapper = {
+    "wikilingua": "64b53c9e04b2bfaeb2f0b38cb7712bcbd4755c3f",
+    "vietnews": "d8d516ad2c112b429155c3e6077182ae5fe5b33d"
+}
+if "model" not in st.session_state:
+    from src.model import Model
+    st.session_state.task="wikilingua"
+    model = Model(revision=mapper["wikilingua"])
+    st.session_state.model = model
+st.set_page_config(page_title="ViT5 Reproduce", layout="wide")
+hide_menu_style = """
+<style>
+footer {visibility: hidden;}
+</style>
+"""
+st.markdown(hide_menu_style, unsafe_allow_html= True)
+with st.sidebar:
+    task = st.selectbox(label="Task", options=["wikilingua", "vietnews"])
+    if task != st.session_state.task:
+        from src.model import Model
+        st.session_state.task=task
+        model = Model(revision=mapper[task])
+left, middle, right = st.columns([4,1,4])
+left_container = left.container(border=True)
+left_container.write(f"**Input**")
+left_container.divider()
+text = left_container.text_area(label="", height=512, label_visibility="hidden", max_chars=4096*5)
+summary_button = middle.button("Summary ➩", type="primary", use_container_width=True)
+right_container = right.container(border=True)
+right_container.markdown(f"**Output**")
+right_container.divider()
+if summary_button:
+    output = st.session_state.model.inference(text=text)
+    st.session_state["output"] = output
+if "output" in st.session_state:
+    right_container.text_area(label="", value=st.session_state["output"], height=512, label_visibility="hidden")

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ streamlit==1.35.0
2	+ transformers==4.41.0

src/model.py ADDED Viewed

	@@ -0,0 +1,28 @@

+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+class Model:
+    def __init__(self, revision) -> None:
+        self.tokenizer = AutoTokenizer.from_pretrained("VietAI/vit5-base")
+        self.model = AutoModelForSeq2SeqLM.from_pretrained("truong-xuan-linh/vit5-reproduce", revision=revision)
+    def preprocess_function(self, text):
+        inputs = self.tokenizer(
+            text, max_length=1024, truncation=True, padding=True, return_tensors="pt"
+        )
+        return inputs
+    def inference(self, text):
+        max_target_length = 256
+        inputs = self.preprocess_function(text)
+        outputs = self.model.generate(
+            input_ids=inputs['input_ids'],
+            max_length=max_target_length,
+            attention_mask=inputs['attention_mask'],
+        )
+        with self.tokenizer.as_target_tokenizer():
+            outputs = [self.tokenizer.decode(out, clean_up_tokenization_spaces=False, skip_special_tokens=True) for out in outputs]
+        return outputs[0]