Spaces:

rmayormartins
/

inclusion-visually-impaired-image2speech

Sleeping

App Files Files Community

rmayormartins commited on May 26, 2024

Commit

03a7dca

1 Parent(s): 12077d2

Subindo arquivos

Browse files

Files changed (4) hide show

README.md +43 -5
app.py +72 -0
example1.JPG +0 -0
requirements.txt +9 -0

README.md CHANGED Viewed

@@ -1,13 +1,51 @@
 ---
-title: Inclusion Visually Impaired Image2speech
-emoji: 👀
-colorFrom: pink
 colorTo: pink
 sdk: gradio
-sdk_version: 4.31.5
 app_file: app.py
 pinned: false
 license: ecl-2.0
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Inclusion Visually Impaired - Image2Speech
+emoji: 👨🏻‍🦯🦮🤖🔊
+colorFrom: purple
 colorTo: pink
 sdk: gradio
+sdk_version: 4.12.0
 app_file: app.py
 pinned: false
 license: ecl-2.0
 ---
+# Inclusão para Deficientes Visuais
+Este projeto utiliza um modelo YOLOv5 para detectar objetos em imagens e descrevê-los em português para pessoas com deficiência visual. A descrição é convertida em áudio, proporcionando uma experiência e interação com a imagem.
+## Desenvolvedor
+Desenvolvido por Ramon Mayor Martins (2024)
+- Email: [[email protected]](mailto:[email protected])
+- Homepage: [https://rmayormartins.github.io/](https://rmayormartins.github.io/)
+- Twitter: [@rmayormartins](https://twitter.com/rmayormartins)
+- GitHub: [https://github.com/rmayormartins](https://github.com/rmayormartins)
+- my Radio Callsign (PU4MAY) Brazil
+## Tecnologias Utilizadas
+- **YOLOv5:** Modelo de detecção de objetos treinado para identificar 80 classes de objetos comuns em tempo real.
+- **OpenCV:** Biblioteca de processamento de imagens que auxilia na manipulação e análise de imagens.
+- **NumPy:** Biblioteca fundamental para computação científica em Python.
+- **Pillow (PIL):** Biblioteca de processamento de imagens que permite abrir, manipular e salvar arquivos de imagem em muitos formatos diferentes.
+- **Scikit-Image:** Biblioteca para processamento avançado de imagens, utilizada aqui para calcular a GLCM.
+- **Transformers (Hugging Face):** Biblioteca que fornece modelos de linguagem e visão, incluindo o BLIP para descrição de imagens e o MarianMT para tradução automática.
+- **gTTS (Google Text-to-Speech):** Biblioteca para conversão de texto para voz, utilizada para gerar arquivos de áudio em português.
+- **Gradio:** Biblioteca que facilita a criação de interfaces web interativas para modelos de aprendizado de máquina.
+## Fluxo de Trabalho
+1. **Carregamento da Imagem:** O usuário carrega uma imagem na interface web.
+2. **Detecção de Objetos:** A imagem é processada pelo YOLOv5 para identificar e descrever objetos presentes.
+3. **Análise de Cor e Textura:** A temperatura de cor e a textura da imagem são analisadas usando técnicas de média RGB e GLCM, respectivamente.
+4. **Descrição Semântica:** O modelo BLIP gera uma descrição textual da imagem, que é então traduzida para o português usando MarianMT.
+5. **Conversão para Voz:** A descrição completa é convertida em áudio usando gTTS.
+6. **Feedback ao Usuário:** A interface Gradio exibe a descrição textual e fornece o áudio para o usuário.
+## Como Utilizar
+1. Faça upload de uma imagem.
+2. O modelo detectará e descreverá os objetos presentes na imagem.
+3. A saída a descrição textual traduzida e um arquivo de áudio com a descrição.

app.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import gradio as gr
+import torch
+from PIL import Image
+from gtts import gTTS
+import numpy as np
+import cv2
+from skimage.feature import greycomatrix, greycoprops
+from transformers import BlipProcessor, BlipForConditionalGeneration, MarianMTModel, MarianTokenizer
+# Carregar o modelo YOLOv5
+model = torch.hub.load('ultralytics/yolov5', 'yolov5s')
+# Função para análise de textura usando GLCM
+def analyze_texture(image):
+    gray_image = cv2.cvtColor(np.array(image), cv2.COLOR_BGR2GRAY)
+    glcm = greycomatrix(gray_image, distances=[5], angles=[0], levels=256, symmetric=True, normed=True)
+    contrast = greycoprops(glcm, 'contrast')[0, 0]
+    return contrast
+# Função para descrever imagem usando BLIP
+def describe_image(image):
+    processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
+    model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
+    inputs = processor(image, return_tensors="pt")
+    out = model.generate(**inputs)
+    description = processor.decode(out[0], skip_special_tokens=True)
+    return description
+# Função para traduzir descrição para português
+def translate_description(description):
+    model_name = 'Helsinki-NLP/opus-mt-en-pt'
+    tokenizer = MarianTokenizer.from_pretrained(model_name)
+    model = MarianMTModel.from_pretrained(model_name)
+    translated = model.generate(**tokenizer(description, return_tensors="pt", padding=True))
+    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
+    return translated_text
+# Função principal para processar imagem e gerar saída de voz
+def process_image(image):
+    # Detecção de objetos
+    results = model(image)
+    detected_image = results.render()[0]
+    # Análise de cor (média RGB)
+    mean_rgb = np.mean(np.array(image), axis=(0, 1))
+    # Análise de textura
+    texture_contrast = analyze_texture(image)
+    # Descrição da imagem
+    description = describe_image(image)
+    translated_description = translate_description(description)
+    # Texto para voz
+    tts = gTTS(text=translated_description, lang='pt')
+    tts.save("output.mp3")
+    # Retornar imagem com detecções, descrição e áudio
+    return Image.fromarray(detected_image), translated_description, "output.mp3"
+# Carregar imagem de exemplo
+example_image = Image.open("/mnt/data/example1.JPG")
+# Interface Gradio
+iface = gr.Interface(
+    fn=process_image,
+    inputs=gr.inputs.Image(type="pil"),
+    outputs=[gr.outputs.Image(type="pil"), gr.outputs.Textbox(), gr.outputs.Audio(type="file")],
+    examples=[example_image]
+)
+iface.launch()

example1.JPG ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+gradio==4.12.0
+torch
+Pillow
+numpy
+opencv-python
+scikit-image
+transformers
+gtts