Spaces:

aidoskanapyanov
/

call-center-asr

Sleeping

App Files Files Community

aidoskanapyanov commited on May 23

Commit

60ebe5d

•

1 Parent(s): c6f0328

add code

Browse files

Files changed (3) hide show

app.py +118 -0
requirements.txt +9 -0
samples/out_olga2.mp3 +0 -0

app.py ADDED Viewed

	@@ -0,0 +1,118 @@

+# type: ignore
+from typing import List, Tuple
+import gradio as gr
+import pandas as pd
+import torch
+from langchain_community.llms import CTransformers
+from langchain_core.output_parsers import PydanticOutputParser
+from langchain_core.prompts import PromptTemplate
+from langchain_core.pydantic_v1 import BaseModel, Field
+from loguru import logger
+from transformers import pipeline
+logger.add("logs/file_{time}.log")
+# asr model
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+logger.info(f"Device: {device}")
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model="openai/whisper-medium",
+    chunk_length_s=30,
+    # device=device,
+    generate_kwargs={"language": "russian"},
+)
+# qa model
+class Result(BaseModel):
+    """Извлечь вопрос и ответ из аудио записи колл-центра"""
+    question: str = Field(..., description="Вопрос клиента")
+    answer: str = Field(..., description="Ответ оператора")
+class Results(BaseModel):
+    results: List[Result] = Field(..., description="Пары вопрос-ответ")
+config = {
+    "max_new_tokens": 1000,
+    "context_length": 3000,
+    "temperature": 0,
+    # "gpu_layers": 50,
+}
+llm = CTransformers(
+    model="TheBloke/saiga_mistral_7b-GGUF",
+    config=config,
+)
+# accelerator = Accelerator()
+# llm, config = accelerator.prepare(llm, config)
+def asr(audio_file) -> str:
+    transcribed_text = pipe(audio_file, batch_size=16)
+    logger.info(f"Transcribed text: {transcribed_text}")
+    return transcribed_text["text"]
+    # return "Здравствуйте, меня зовут Александр, чем могу помочь? До скольки вы работаете? До 20:00. Спасибо, до свидания!"
+def qa(transcribed_text: str) -> Tuple[str, str]:
+    parser = PydanticOutputParser(pydantic_object=Results)
+    prompt = PromptTemplate(
+        template="На основе транскрипции звонка из колл-центра определите пары вопросов и ответов, выделив конкретные вопросы, которые задал клиент, и ответы, которые предоставил оператор.\n{format_instructions}\nТекст аудио записи: {transcribed_text}\n",
+        # template="Какой вопрос задал клиент? Какой ответ дал оператор?\n{format_instructions}\nТекст аудио записи: {transcribed_text}\n",
+        input_variables=["transcribed_text"],
+        partial_variables={"format_instructions": parser.get_format_instructions()},
+    )
+    prompt_and_model = prompt | llm
+    output = prompt_and_model.invoke({"transcribed_text": transcribed_text})
+    logger.info(f"Output: {output}")
+    results = parser.invoke(output)
+    logger.info(f"Result: {results}")
+    logger.info(f"Dict: {results.dict()}")
+    results = (
+        pd.DataFrame(results.dict())
+        .results.apply(pd.Series)
+        .rename({"question": "Вопрос", "answer": "Ответ"}, axis=1)
+    )
+    return transcribed_text, results
+@logger.catch
+def inference(audio_file):
+    transcribed_text = asr(audio_file)
+    return qa(transcribed_text)
+demo = gr.Interface(
+    fn=inference,
+    inputs=[
+        gr.Audio(
+            label="Аудио запись для обработки",
+            sources="upload",
+            type="filepath",
+        )
+    ],
+    outputs=[
+        gr.components.Textbox(label="Транскрибированный текст"),
+        gr.DataFrame(headers=["Вопрос", "Ответ"], label="Вопросы и ответы"),
+    ],
+    submit_btn="Обработать",
+    clear_btn="Очистить",
+    allow_flagging="never",
+    title="Обработчик аудиозаписей колл-центра",
+    description="Распознавание речи и определение вопроса клиента и ответа оператора.",
+    css="footer {visibility: hidden}",
+    examples=["samples/out_olga2.mp3"],
+)
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+ctransformers
+gradio
+langchain
+langchain-community
+langchain-core
+langchain-huggingface
+librosa
+loguru
+transformers

samples/out_olga2.mp3 ADDED Viewed

Binary file (178 kB). View file