Spaces:

Merlintxu
/

SEO

Sleeping

App Files Files Community

Merlintxu commited on Apr 12

Commit

ede29cb

verified ·

1 Parent(s): a8a2139

Create seo_analyzer.py

Browse files

Files changed (1) hide show

seo_analyzer.py +374 -0

seo_analyzer.py ADDED Viewed

	@@ -0,0 +1,374 @@

+import os
+import logging
+import re
+import requests
+import hashlib
+import PyPDF2
+import numpy as np
+import pandas as pd
+from io import BytesIO
+from typing import List, Dict, Any, Tuple
+from urllib.parse import urlparse, urljoin
+from concurrent.futures import ThreadPoolExecutor, as_completed
+from bs4 import BeautifulSoup
+from pathlib import Path
+from datetime import datetime
+from sklearn.feature_extraction.text import TfidfVectorizer
+from requests.adapters import HTTPAdapter
+from urllib3.util.retry import Retry
+from transformers import pipeline
+from sentence_transformers import SentenceTransformer
+import torch
+import subprocess
+import sys
+import spacy
+import matplotlib.pyplot as plt
+from utils import sanitize_filename
+# Configuración de logging
+logging.basicConfig(
+    level=logging.INFO,
+    format='%(asctime)s - %(levelname)s - %(message)s'
+)
+logger = logging.getLogger(__name__)
+class SEOSpaceAnalyzer:
+    def __init__(self, max_urls: int = 20, max_workers: int = 4) -> None:
+        """
+        Inicializa la sesión HTTP, carga modelos NLP y prepara el directorio de almacenamiento.
+        Args:
+            max_urls: Número máximo de URLs a procesar por análisis.
+            max_workers: Número de hilos para la ejecución concurrente.
+        """
+        self.max_urls = max_urls
+        self.max_workers = max_workers
+        self.session = self._configure_session()
+        self.models = self._load_models()
+        self.base_dir = Path("content_storage")
+        self.base_dir.mkdir(parents=True, exist_ok=True)
+        self.current_analysis: Dict[str, Any] = {}
+    def _load_models(self) -> Dict[str, Any]:
+        """Carga los modelos NLP de Hugging Face y spaCy."""
+        try:
+            device = 0 if torch.cuda.is_available() else -1
+            logger.info("Cargando modelos NLP...")
+            models = {
+                'summarizer': pipeline("summarization", model="facebook/bart-large-cnn", device=device),
+                'ner': pipeline("ner", model="dslim/bert-base-NER", aggregation_strategy="simple", device=device),
+                'semantic': SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2'),
+                'spacy': spacy.load("es_core_news_lg")
+            }
+            logger.info("Modelos cargados correctamente.")
+            return models
+        except Exception as e:
+            logger.error(f"Error cargando modelos: {e}")
+            raise
+    def _configure_session(self) -> requests.Session:
+        """Configura una sesión HTTP con reintentos y headers personalizados."""
+        session = requests.Session()
+        retry = Retry(
+            total=3,
+            backoff_factor=1,
+            status_forcelist=[500, 502, 503, 504],
+            allowed_methods=['GET', 'HEAD']
+        )
+        adapter = HTTPAdapter(max_retries=retry)
+        session.mount('http://', adapter)
+        session.mount('https://', adapter)
+        session.headers.update({
+            'User-Agent': 'Mozilla/5.0 (compatible; SEOBot/1.0)',
+            'Accept-Language': 'es-ES,es;q=0.9'
+        })
+        return session
+    def analyze_sitemap(self, sitemap_url: str) -> Tuple[Dict, List[str], Dict, Dict, List[Dict]]:
+        """
+        Procesa el sitemap: extrae URLs, analiza cada página individualmente y devuelve datos agregados.
+        Args:
+            sitemap_url: URL del sitemap XML.
+        Returns:
+            Una tupla con 5 elementos:
+              - Estadísticas generales (dict)
+              - Recomendaciones SEO (lista de strings)
+              - Análisis de contenido agregado (dict)
+              - Análisis de enlaces (dict)
+              - Detalle individual de cada URL procesada (lista de dicts)
+        """
+        try:
+            urls = self._parse_sitemap(sitemap_url)
+            if not urls:
+                return {"error": "No se pudieron extraer URLs del sitemap"}, [], {}, {}, []
+            results: List[Dict] = []
+            with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
+                futures = {executor.submit(self._process_url, url): url for url in urls[:self.max_urls]}
+                for future in as_completed(futures):
+                    url = futures[future]
+                    try:
+                        res = future.result()
+                        results.append(res)
+                        logger.info(f"Procesado: {url}")
+                    except Exception as e:
+                        logger.error(f"Error procesando {url}: {e}")
+                        results.append({'url': url, 'status': 'error', 'error': str(e)})
+            self.current_analysis = {
+                'stats': self._calculate_stats(results),
+                'content_analysis': self._analyze_content(results),
+                'links': self._analyze_links(results),
+                'recommendations': self._generate_seo_recommendations(results),
+                'details': results,
+                'timestamp': datetime.now().isoformat()
+            }
+            analysis = self.current_analysis
+            return analysis['stats'], analysis['recommendations'], analysis['content_analysis'], analysis['links'], analysis['details']
+        except Exception as e:
+            logger.error(f"Error en análisis: {e}")
+            return {"error": str(e)}, [], {}, {}, []
+    def _process_url(self, url: str) -> Dict:
+        """Procesa una URL individual extrayendo contenido, metadatos y enlaces."""
+        try:
+            response = self.session.get(url, timeout=15)
+            response.raise_for_status()
+            content_type = response.headers.get('Content-Type', '')
+            result: Dict[str, Any] = {'url': url, 'status': 'success'}
+            if 'application/pdf' in content_type:
+                result.update(self._process_pdf(response.content))
+            elif 'text/html' in content_type:
+                result.update(self._process_html(response.text, url))
+            else:
+                result.update({'type': 'unknown', 'content': '', 'word_count': 0})
+            self._save_content(url, response.content)
+            return result
+        except requests.exceptions.RequestException as e:
+            logger.warning(f"Error procesando {url}: {str(e)}")
+            return {'url': url, 'status': 'error', 'error': str(e)}
+        except Exception as e:
+            logger.error(f"Error inesperado en {url}: {str(e)}")
+            return {'url': url, 'status': 'error', 'error': str(e)}
+    def _process_html(self, html: str, base_url: str) -> Dict:
+        """Extrae y limpia el contenido HTML, metadatos y enlaces de la página."""
+        soup = BeautifulSoup(html, 'html.parser')
+        clean_text = self._clean_text(soup.get_text())
+        return {
+            'type': 'html',
+            'content': clean_text,
+            'word_count': len(clean_text.split()),
+            'metadata': self._extract_metadata(soup),
+            'links': self._extract_links(soup, base_url)
+        }
+    def _process_pdf(self, content: bytes) -> Dict:
+        """Extrae texto de un documento PDF y calcula estadísticas básicas."""
+        try:
+            text = ""
+            with BytesIO(content) as pdf_file:
+                reader = PyPDF2.PdfReader(pdf_file)
+                for page in reader.pages:
+                    extracted = page.extract_text()
+                    text += extracted if extracted else ""
+            clean_text = self._clean_text(text)
+            return {
+                'type': 'pdf',
+                'content': clean_text,
+                'word_count': len(clean_text.split()),
+                'page_count': len(reader.pages)
+            }
+        except PyPDF2.PdfReadError as e:
+            logger.error(f"Error leyendo PDF: {e}")
+            return {'type': 'pdf', 'error': str(e)}
+    def _clean_text(self, text: str) -> str:
+        """Limpia y normaliza el texto removiendo espacios y caracteres especiales."""
+        if not text:
+            return ""
+        text = re.sub(r'\s+', ' ', text)
+        return re.sub(r'[^\w\sáéíóúñÁÉÍÓÚÑ]', ' ', text).strip()
+    def _extract_metadata(self, soup: BeautifulSoup) -> Dict:
+        """Extrae metadatos relevantes (título, descripción, keywords, Open Graph) de la página."""
+        metadata = {'title': '', 'description': '', 'keywords': [], 'og': {}}
+        if soup.title and soup.title.string:
+            metadata['title'] = soup.title.string.strip()[:200]
+        for meta in soup.find_all('meta'):
+            name = meta.get('name', '').lower()
+            prop = meta.get('property', '').lower()
+            content = meta.get('content', '')
+            if name == 'description':
+                metadata['description'] = content[:300]
+            elif name == 'keywords':
+                metadata['keywords'] = [kw.strip() for kw in content.split(',') if kw.strip()]
+            elif prop.startswith('og:'):
+                metadata['og'][prop[3:]] = content
+        return metadata
+    def _extract_links(self, soup: BeautifulSoup, base_url: str) -> List[Dict]:
+        """Extrae enlaces de la página, distinguiendo entre internos y externos."""
+        links: List[Dict] = []
+        base_netloc = urlparse(base_url).netloc
+        for tag in soup.find_all('a', href=True):
+            try:
+                href = tag['href'].strip()
+                if not href or href.startswith('javascript:'):
+                    continue
+                full_url = urljoin(base_url, href)
+                parsed = urlparse(full_url)
+                links.append({
+                    'url': full_url,
+                    'type': 'internal' if parsed.netloc == base_netloc else 'external',
+                    'anchor': self._clean_text(tag.get_text())[:100],
+                    'file_type': self._get_file_type(parsed.path)
+                })
+            except Exception as e:
+                logger.warning(f"Error procesando enlace {tag.get('href')}: {e}")
+                continue
+        return links
+    def _get_file_type(self, path: str) -> str:
+        """Determina el tipo de archivo según la extensión."""
+        ext = Path(path).suffix.lower()
+        return ext[1:] if ext else 'html'
+    def _parse_sitemap(self, sitemap_url: str) -> List[str]:
+        """Parsea un sitemap XML (y posibles índices de sitemaps) para extraer URLs."""
+        try:
+            response = self.session.get(sitemap_url, timeout=10)
+            response.raise_for_status()
+            if 'xml' not in response.headers.get('Content-Type', ''):
+                logger.warning(f"El sitemap no parece ser XML: {sitemap_url}")
+                return []
+            soup = BeautifulSoup(response.text, 'lxml-xml')
+            urls: List[str] = []
+            if soup.find('sitemapindex'):
+                for sitemap in soup.find_all('loc'):
+                    url = sitemap.text.strip()
+                    if url.endswith('.xml'):
+                        urls.extend(self._parse_sitemap(url))
+            else:
+                urls = [loc.text.strip() for loc in soup.find_all('loc')]
+            filtered_urls = list({url for url in urls if url.startswith('http')})
+            return filtered_urls
+        except Exception as e:
+            logger.error(f"Error al parsear sitemap {sitemap_url}: {e}")
+            return []
+    def _save_content(self, url: str, content: bytes) -> None:
+        """
+        Guarda el contenido descargado en una estructura de directorios organizada por dominio,
+        sanitizando el nombre del archivo y evitando sobrescribir archivos idénticos mediante hash.
+        """
+        try:
+            parsed = urlparse(url)
+            domain_dir = self.base_dir / parsed.netloc
+            path = parsed.path.lstrip('/')
+            if not path or path.endswith('/'):
+                path = os.path.join(path, 'index.html')
+            safe_path = sanitize_filename(path)
+            save_path = domain_dir / safe_path
+            save_path.parent.mkdir(parents=True, exist_ok=True)
+            new_hash = hashlib.md5(content).hexdigest()
+            if save_path.exists():
+                with open(save_path, 'rb') as f:
+                    existing_content = f.read()
+                existing_hash = hashlib.md5(existing_content).hexdigest()
+                if new_hash == existing_hash:
+                    logger.debug(f"El contenido de {url} ya está guardado.")
+                    return
+            with open(save_path, 'wb') as f:
+                f.write(content)
+            logger.info(f"Guardado contenido en: {save_path}")
+        except Exception as e:
+            logger.error(f"Error guardando contenido para {url}: {e}")
+    def _calculate_stats(self, results: List[Dict]) -> Dict:
+        """Calcula estadísticas generales del análisis."""
+        successful = [r for r in results if r.get('status') == 'success']
+        content_types = [r.get('type', 'unknown') for r in successful]
+        avg_word_count = round(np.mean([r.get('word_count', 0) for r in successful]) if successful else 0, 1)
+        return {
+            'total_urls': len(results),
+            'successful': len(successful),
+            'failed': len(results) - len(successful),
+            'content_types': pd.Series(content_types).value_counts().to_dict(),
+            'avg_word_count': avg_word_count,
+            'failed_urls': [r['url'] for r in results if r.get('status') != 'success']
+        }
+    def _analyze_content(self, results: List[Dict]) -> Dict:
+        """Genera un análisis de contenido agregado usando TF-IDF para extraer las palabras clave principales y muestras."""
+        successful = [r for r in results if r.get('status') == 'success' and r.get('content')]
+        texts = [r['content'] for r in successful if len(r['content'].split()) > 10]
+        if not texts:
+            return {'top_keywords': [], 'content_samples': []}
+        try:
+            stop_words = list(self.models['spacy'].Defaults.stop_words)
+            vectorizer = TfidfVectorizer(stop_words=stop_words, max_features=50, ngram_range=(1, 2))
+            tfidf = vectorizer.fit_transform(texts)
+            feature_names = vectorizer.get_feature_names_out()
+            sorted_indices = np.argsort(np.asarray(tfidf.sum(axis=0)).ravel())[-10:]
+            top_keywords = feature_names[sorted_indices][::-1].tolist()
+        except Exception as e:
+            logger.error(f"Error en análisis TF-IDF: {e}")
+            top_keywords = []
+        samples = [{'url': r['url'], 'sample': (r['content'][:500] + '...') if len(r['content']) > 500 else r['content']} for r in successful[:3]]
+        return {'top_keywords': top_keywords, 'content_samples': samples}
+    def _analyze_links(self, results: List[Dict]) -> Dict:
+        """Genera un análisis de enlaces internos, dominios externos, anclas y tipos de archivos."""
+        all_links = []
+        for result in results:
+            if result.get('links'):
+                all_links.extend(result['links'])
+        if not all_links:
+            return {'internal_links': {}, 'external_domains': {}, 'common_anchors': {}, 'file_types': {}}
+        df = pd.DataFrame(all_links)
+        return {
+            'internal_links': df[df['type'] == 'internal']['url'].value_counts().head(20).to_dict(),
+            'external_domains': df[df['type'] == 'external']['url'].apply(lambda x: urlparse(x).netloc).value_counts().head(10).to_dict(),
+            'common_anchors': df['anchor'].value_counts().head(10).to_dict(),
+            'file_types': df['file_type'].value_counts().to_dict()
+        }
+    def _generate_seo_recommendations(self, results: List[Dict]) -> List[str]:
+        """Genera recomendaciones SEO en base a las deficiencias encontradas en el análisis."""
+        successful = [r for r in results if r.get('status') == 'success']
+        if not successful:
+            return ["No se pudo analizar ningún contenido exitosamente"]
+        recs = []
+        missing_titles = sum(1 for r in successful if not r.get('metadata', {}).get('title'))
+        if missing_titles:
+            recs.append(f"📌 Añadir títulos a {missing_titles} páginas")
+        short_descriptions = sum(1 for r in successful if not r.get('metadata', {}).get('description'))
+        if short_descriptions:
+            recs.append(f"📌 Añadir meta descripciones a {short_descriptions} páginas")
+        short_content = sum(1 for r in successful if r.get('word_count', 0) < 300)
+        if short_content:
+            recs.append(f"📝 Ampliar contenido en {short_content} páginas (menos de 300 palabras)")
+        all_links = [link for r in results for link in r.get('links', [])]
+        if all_links:
+            df_links = pd.DataFrame(all_links)
+            internal_links = df_links[df_links['type'] == 'internal']
+            if len(internal_links) > 100:
+                recs.append(f"🔗 Optimizar estructura de enlaces internos ({len(internal_links)} enlaces)")
+        return recs if recs else ["✅ No se detectaron problemas críticos de SEO"]
+    def plot_internal_links(self, links_data: Dict) -> Any:
+        """Genera un gráfico de barras horizontales mostrando los 20 principales enlaces internos."""
+        internal_links = links_data.get('internal_links', {})
+        if not internal_links:
+            return {}
+        fig, ax = plt.subplots()
+        names = list(internal_links.keys())
+        counts = list(internal_links.values())
+        ax.barh(names, counts)
+        ax.set_xlabel("Cantidad de enlaces")
+        ax.set_title("Top 20 Enlaces Internos")
+        plt.tight_layout()
+        return fig