Spaces:

gestiodinamica
/

encoparts

Sleeping

App Files Files Community

jcmachicao commited on Feb 6

Commit

b6c448a

•

1 Parent(s): 9973f7b

Upload 6 files

Browse files

Files changed (6) hide show

app.py +81 -0
codigos_prueba.xlsx +0 -0
encopartslogo.jpg +0 -0
funcs.py +94 -0
gdmklogo.png +0 -0
requirements.txt +4 -0

app.py ADDED Viewed

	@@ -0,0 +1,81 @@

+# -*- coding: utf-8 -*-
+import streamlit as st
+import pandas as pd
+import base64
+from pyxlsb import open_workbook as open_xlsb
+from datetime import datetime
+from funcs import extrae_dato_web, extrae_web, extrae_alternate, convierte_excel
+import bs4 as BeautifulSoup
+import urllib.request
+from urllib.request import urlopen, Request
+import re
+c1, c2 = st.columns([6,6])
+with c2:
+    st.image('encopartslogo.jpg', width=300, caption='https://encoparts.com/')
+rutas_websearch = ['https://en.hespareparts.com/search/?search=', 'https://offroadeq.com/parts-search/']
+st.title('Generación de Tablas de Datos de Extracción')
+st.subheader('Carga de Datos')
+selec = st.radio('Seleccione: ', [None, 'Carga por Texto con Comas', 'Carga por Archivo Excel'])
+items = None
+if selec is None:
+    st.write('Por favor seleccione una opción válida de carga.')
+else:
+    if selec == 'Carga por Texto con Comas' and items is None:
+        st.write(selec)
+        codigos = st.text_input('Escriba o peque aqui texto separando los códigos por comas: ')
+        if st.button('Proceder'):
+            items = list(codigos.split(','))
+    else:
+        st.write(selec)
+        file = st.file_uploader('Seleccione un archivo: ')
+        if file is not None:
+            codigosf = pd.read_excel(file)
+            st.write('Filas, Columnas de Data de Prueba: ', codigosf.shape)
+            namcol = codigosf.columns[0]
+            items = pd.Series(codigosf[namcol]).astype(str)
+if selec is not None and items is not None:
+    st.write(items)
+    datos_tot = []
+    st.write('Por favor espere mientas se extrae datos...')
+    for it in items:
+      extrae_med = extrae_web(it)
+      extrae_dat = extrae_dato_web(it)
+      itxx = it[:-4]+'-'+it[-4:]
+      datos = [it, itxx] + list(extrae_med) + list(extrae_dat)
+      datos_tot.append(datos)
+    dtdf = pd.DataFrame(datos_tot)
+    dtdf.columns = ['part_no_', 'part_no',
+                    'descrip_en', 'length_m', 'width_m', 'height_m', 'vol_m3', 'compatible',
+                    'alternate', 'precio_bm_us', 'peso_lb', 'descr']
+    now = datetime.now()
+    date_time = now.strftime("%m/%d/%Y, %H:%M:%S").replace('/','_').replace(':','_').replace(', ', '_')
+    dtdf['peso_kg'] = dtdf.peso_lb*0.453592
+    dtdf2 = dtdf[['part_no_', 'part_no', 'descr', 'length_m', 'width_m', 'height_m', 'vol_m3', 'peso_kg', 'precio_bm_us', 'alternate', 'compatible']]
+    df_xlsx = convierte_excel(dtdf2)
+    st.download_button(label='📩 Descargar XLSX', data=df_xlsx,
+                                file_name = 'df_'+date_time+'.xlsx')
+    csv = dtdf2.to_csv(index=False)
+    st.download_button(label='📩 Descargar CSV', data=csv,
+                                file_name = 'df_'+date_time+'.csv')
+else:
+    st.write('Cuando seleccione la opción, por favor cargue datos y proceda.')
+c1, c2, c3 = st.columns([4,4,4])
+with c3:
+    st.image('gdmklogo.png', width=100, caption='Diseñado por GestioDinámica 2022')

codigos_prueba.xlsx ADDED Viewed

Binary file (8.6 kB). View file

encopartslogo.jpg ADDED Viewed

funcs.py ADDED Viewed

	@@ -0,0 +1,94 @@

+import bs4 as BeautifulSoup
+import pandas as pd
+import urllib.request
+from io import BytesIO
+from pyxlsb import open_workbook as open_xlsb
+from urllib.request import urlopen, Request
+import re
+rutas_websearch = ['https://en.hespareparts.com/search/?search=', 'https://offroadeq.com/parts-search/']
+def extrae_dato_web(idx):
+  datx = []
+  idxx = str(idx).replace('-', '').replace(' ', '')
+  urlg = rutas_websearch[1] + idxx + '/'
+  htmlg = urlopen(urlg).read()
+  soup = BeautifulSoup.BeautifulSoup(htmlg, 'html.parser')
+  lista0 = soup.find_all('h2')[0]
+  lista1 = soup.find_all('dt')
+  lista2 = soup.find_all('dd')
+  if len(lista1)<3:
+    lista1 = ['Alt NA'] + lista1
+    lista2 = ['Alternate NA'] + lista2
+  else:
+    pass
+  for i, j in zip(lista1, lista2):
+    try:
+      datx.append( float(j.text.replace('lbs', '').replace('$', '')) )
+    except:
+      datx.append(j)
+  datx.append( lista0.text.split('-')[1:][0] )
+  return(datx)
+def extrae_web(idx):
+    idxx = str(idx).replace('-', '').replace(' ', '')
+    urlz = rutas_websearch[0] + idxx + '/'
+    try:
+      htmlz = urlopen(urlz).read()
+      soup = BeautifulSoup.BeautifulSoup(htmlz, 'html.parser')
+      lista = soup.find_all('a', {'class': 'link-dark'})
+      ls = lista[0]
+      page = urlopen(ls['href'])
+      html = page.read()
+      soup = BeautifulSoup.BeautifulSoup(html, 'html.parser')
+      gg = soup.find_all('h1')
+      print(gg)
+      dd = []
+      for typex in ['depth', 'width', 'height']:
+        try:
+          aa = soup.find_all('span', {'itemprop': typex})[0].text
+          bb = re.findall('[0-9.]+', aa)
+        except:
+          bb = [float(-1.0)]
+        dd.append(float(bb[0])/1000)
+      cc = soup.find_all('div', {'itemprop': 'description'})[0].text
+      cc1 = cc.replace('\r', '').replace('\n', ' ')
+      ggtx = gg[0].text
+      posx = ggtx.find(' - ')
+      ggx = ggtx[posx+3:]
+      vol = dd[0] * dd[1] * dd[2]
+      dd0, dd1, dd2 = dd[0], dd[1], dd[2]
+    except:
+      ggx, dd0, dd1, dd2, vol, cc1 = 'Not Available', -1.0, -1.0, -1.0, -1.0, 'NA'
+    return ggx, dd0, dd1, dd2, vol, cc1
+def extrae_alternate(idx):
+    idxx = str(idx).replace('-', '').replace(' ', '')
+    urlg = rutas_websearch[1] + idxx + '/'
+    htmlg = urlopen(urlg).read()
+    soup = BeautifulSoup.BeautifulSoup(htmlg, 'html.parser')
+    dt1 = soup.find_all('dt')[0].text
+    print(dt1)
+    dt2 = soup.find_all('dd')[0].text
+    if dt1 == 'Alternate for':
+        return(dt2)
+def convierte_excel(df):
+    output = BytesIO()
+    writer = pd.ExcelWriter(output, engine='xlsxwriter')
+    df.to_excel(writer, index=False, sheet_name='data_extraida')
+    workbook = writer.book
+    worksheet = writer.sheets['data_extraida']
+    format1 = workbook.add_format({'num_format': '0.00'})
+    worksheet.set_column('A:A', None, format1)
+    writer.save()
+    processed_data = output.getvalue()
+    writer.close()
+    return processed_data

gdmklogo.png ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+beautifulsoup4==4.11.1
+pandas==1.3.4
+openpyxl==3.0.10
+pyxlsb==1.0.9