Spaces:

DGutierrez81
/

CommentImage

Sleeping

App Files Files Community

DGutierrez81 commited on Nov 24, 2024

Commit

8656fba

verified ·

1 Parent(s): a953a85

Update README.md

Browse files

Files changed (1) hide show

README.md +60 -28

README.md CHANGED Viewed

@@ -10,44 +10,76 @@ pinned: false
 short_description: Comment on an image in writing and through audio.
 ---
-# Descripción del Proyecto
-## **Generación Automática de Comentarios en Texto y Audio a partir de Imágenes**
-Este proyecto utiliza modelos avanzados de inteligencia artificial para generar descripciones automáticas de imágenes y luego convertir esas descripciones en audio. A través de una interfaz interactiva desarrollada con **Gradio**, los usuarios pueden cargar una fotografía y recibir una respuesta en dos formatos:
-1. **Texto**: El modelo de IA genera una descripción detallada de la imagen cargada.
-2. **Audio**: A partir de la descripción generada en texto, se utiliza un modelo de **síntesis de voz** para convertir el texto en una locución de alta calidad.
-## **Flujo de Trabajo**
-1. **Entrada de la Imagen**: El usuario carga una fotografía en la aplicación.
-2. **Generación de Descripción en Texto**: Usamos el modelo `Salesforce/blip-image-captioning-large`, un modelo preentrenado de tipo **image-to-text**, para analizar la imagen y generar una descripción detallada en texto.
-3. **Generación de Audio**: La descripción generada en texto se usa como entrada para el modelo `microsoft/speecht5_tts`, que convierte el texto en una salida de voz en formato de audio.
-## **Modelos Utilizados**
-- **Salesforce/blip-image-captioning-large**:
-  - Tipo: **Image-to-Text**.
-  - Este modelo es responsable de generar descripciones detalladas y coherentes a partir de imágenes. Es ideal para tareas de captioning (generación de texto a partir de imágenes) y proporciona una representación precisa del contenido visual.
-- **microsoft/speecht5_tts**:
-  - Tipo: **Text-to-Speech**.
-  - Este modelo convierte el texto generado por `blip-image-captioning-large` en una locución fluida y natural, utilizando tecnologías avanzadas de síntesis de voz (TTS). El modelo puede leer el texto en voz alta de manera clara, adecuada para aplicaciones de accesibilidad o experiencias interactivas.
-## **Características Principales**
-- **Interfaz Gradio**: La interfaz está construida con **Gradio**, proporcionando una experiencia simple y directa donde los usuarios pueden cargar imágenes y escuchar o leer la descripción generada.
-- **Generación de Texto y Audio**: Dos tipos de salida se generan para cada imagen: texto descriptivo y voz sintética, lo que lo convierte en una herramienta accesible tanto para usuarios visuales como auditivos.
-- **Aplicaciones Potenciales**:
-  - **Accesibilidad**: Ayuda a personas con discapacidades visuales a comprender el contenido de las imágenes.
-  - **Educación**: Puede utilizarse en entornos educativos para mejorar la interacción con contenidos visuales.
-  - **Automatización**: Útil en sistemas automatizados que requieren análisis y descripción de imágenes en tiempo real.
-## **Instrucciones de Uso**
-1. **Sube una imagen**: Haz clic en el área de carga para elegir una fotografía desde tu dispositivo.
-2. **Obtén la descripción**: La aplicación generará automáticamente una descripción de la imagen en formato de texto.
-3. **Escucha la descripción**: El texto generado se convierte en una locución, que puedes escuchar a través de la aplicación.
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 short_description: Comment on an image in writing and through audio.
 ---
+# Descripción del Proyecto: **Cocktail Descriptions**
+## **Problema:**
+El objetivo es crear una interfaz interactiva para que los usuarios puedan elegir un cóctel de una lista, visualizar su nombre, imagen, instrucciones de preparación y escuchar las instrucciones y descripciones del cóctel de manera hablada. Para ello, se utilizarán APIs externas y modelos de inteligencia artificial para generar descripciones de imágenes y convertir texto en audio.
+El desafío consiste en:
+1. **Obtener información sobre cócteles** desde una API externa (TheCocktailDB).
+2. **Generar una descripción** de la imagen del cóctel utilizando un modelo de procesamiento de imágenes.
+3. **Convertir el texto de las instrucciones** del cóctel y la descripción de la imagen en audio utilizando un modelo de síntesis de voz.
+4. **Presentar todo esto en una interfaz interactiva** con Gradio, que permita seleccionar un cóctel, ver su imagen, leer las instrucciones y escuchar tanto las instrucciones como la descripción de la imagen.
+## **Solución Propuesta:**
+### **Input:**
+1. **Selección de Cóctel:** El usuario puede elegir un cóctel de una lista cargada desde la API TheCocktailDB.
+2. **Modelo de Descripción de Imagen:** El modelo BLIP (Bootstrapping Language-Image Pretraining) se usará para generar una descripción textual de la imagen del cóctel seleccionada.
+3. **Modelo de Síntesis de Voz:** El modelo SpeechT5 se usará para convertir tanto las instrucciones del cóctel como la descripción de la imagen en audio, con voz personalizada mediante embeddings de hablante (Speaker Embedding).
+### **Output Esperado:**
+1. **Nombre del Cóctel:** El nombre del cóctel seleccionado.
+2. **Imagen del Cóctel:** Una imagen del cóctel obtenida de la API.
+3. **Instrucciones del Cóctel:** Un texto con las instrucciones para preparar el cóctel.
+4. **Audio con Instrucciones:** Un archivo de audio con las instrucciones habladas.
+5. **Descripción de la Imagen:** Un texto con la descripción de la imagen generada por el modelo BLIP.
+6. **Audio de la Descripción de la Imagen:** Un archivo de audio con la descripción hablada de la imagen.
+### **Tecnologías Utilizadas:**
+1. **Gradio:** Para la creación de la interfaz interactiva en la que los usuarios puedan elegir cócteles y ver las descripciones e imágenes.
+2. **Transformers de Hugging Face:**
+   - **BLIP (Image-to-Text)** para la descripción de imágenes.
+   - **SpeechT5 (Text-to-Speech)** para la conversión de texto a audio.
+3. **API TheCocktailDB:** Para obtener información sobre los cócteles (nombres, imágenes, instrucciones).
+4. **Torch y Datasets de Hugging Face:** Para cargar los embeddings de voz y personalizar la voz utilizada para la síntesis.
+### **Modelos Utilizados:**
+1. **BLIP (Bootstrapping Language-Image Pretraining):**
+   - **Clasificación:** Generación de texto a partir de una imagen.
+   - **Descripción:** BLIP es un modelo de preentrenamiento en imágenes y lenguaje, ideal para tareas de descripción de imágenes.
+   - **Limitaciones:**
+     - Aunque es eficaz en describir imágenes, puede generar descripciones genéricas o incorrectas si la imagen no contiene suficiente contexto relevante para el modelo.
+     - No tiene conocimiento específico sobre cócteles o bebidas, por lo que las descripciones pueden no ser siempre precisas.
+2. **SpeechT5 (Text-to-Speech):**
+   - **Clasificación:** Síntesis de voz a partir de texto.
+   - **Descripción:** SpeechT5 es un modelo de transformación de texto a voz, utilizando una arquitectura basada en transformadores. En este proyecto, se utiliza para generar audios personalizados con las instrucciones del cóctel y la descripción de la imagen.
+   - **Limitaciones:**
+     - La calidad de la voz puede depender de los embeddings del hablante, y en ciertos casos puede no sonar completamente natural.
+     - Aunque soporta varios idiomas, la pronunciación puede ser imperfecta en idiomas no entrenados explícitamente.
+3. **Embeddings de Voz (Speaker Embeddings):**
+   - **Clasificación:** Adaptación de la voz en la síntesis de texto a voz.
+   - **Descripción:** Los embeddings de voz permiten personalizar la voz generada por el modelo SpeechT5, adaptándola a una voz específica (en este caso, un hablante masculino de un dataset predefinido).
+   - **Limitaciones:**
+     - Puede haber limitaciones en la personalización de la voz, ya que solo se utilizan los embeddings disponibles en el dataset (CMU Arctic).
+## **Flujo del Proyecto:**
+1. **Selección del Cóctel:** El usuario selecciona un cóctel de la lista cargada desde la API (por ejemplo, "Margarita").
+2. **Obtención de Información:** El sistema obtiene información detallada sobre el cóctel: nombre, instrucciones y la imagen del cóctel.
+3. **Generación de Descripción de la Imagen:** Utilizando el modelo BLIP, se genera una descripción de la imagen del cóctel.
+4. **Síntesis de Voz para Instrucciones:** El texto de las instrucciones se convierte en audio utilizando el modelo SpeechT5.
+5. **Síntesis de Voz para la Descripción de la Imagen:** La descripción de la imagen también se convierte en audio utilizando SpeechT5.
+6. **Presentación en la Interfaz:** Los resultados (nombre, imagen, instrucciones, descripciones y audios) se muestran en la interfaz de usuario de Gradio.
+## **Posibles Limitaciones:**
+1. **Conexión a la API de TheCocktailDB:** Si hay problemas de conectividad o si la API no devuelve datos válidos, el sistema puede fallar al cargar la lista de cócteles.
+2. **Precisión en la Descripción de la Imagen:** El modelo BLIP puede no generar descripciones precisas de las imágenes, especialmente si los cócteles tienen decoraciones complejas o inusuales.
+3. **Limitaciones de los Modelos TTS:** Los audios generados pueden no ser completamente naturales o adecuados para todos los usuarios debido a las limitaciones del modelo SpeechT5 y los embeddings de voz disponibles.
+---
+## **Conclusión:**
+Este proyecto crea una experiencia interactiva donde los usuarios pueden elegir un cóctel, visualizar su imagen y obtener tanto las instrucciones habladas como la descripción de la imagen. La solución combina procesamiento de imágenes, generación de texto y síntesis de voz para ofrecer una experiencia única. Sin embargo, existen algunas limitaciones inherentes a los modelos y la conectividad a la API externa que pueden afectar la precisión o el rendimiento del sistema.