LeireTedCas commited on
Commit
afc9efb
·
1 Parent(s): a61330b

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +12 -12
app.py CHANGED
@@ -26,33 +26,33 @@ def remove_non_printable(value):
26
  if isinstance(value, str):
27
  print("Leire")
28
  # Eliminar \n, \t, \xa0 por un espacio en blanco
29
- value = re.sub(r'[\n\t\xa0]', ' ', value)
30
  # Eliminar \n entre palabras
31
- value = re.sub(r'(?<=[a-zA-Z])\n(?=[a-zA-Z])', ' ', value)
32
  # Eliminar \t entre letras
33
- value = re.sub(r'(?<=[a-zA-Z])\t(?=[a-zA-Z])', ' ', value)
34
  # Eliminar \xa0 entre letras
35
- value = re.sub(r'(?<=[a-zA-Z])\xa0(?=[a-zA-Z])', ' ', value)
36
  # Eliminar \n antes o después de ciertos caracteres
37
- value = re.sub(r'\n(?=[.,;:!?¿)\d])|\n(?<=[.,;:!?¿)\d])', ' ', value)
38
  # Eliminar \t antes o después de ciertos caracteres
39
- value = re.sub(r'\t(?=[.,;:!?¿)\d])|\t(?<=[.,;:!?¿)\d])', ' ', value)
40
  # Eliminar \xa0 antes o después de ciertos caracteres
41
- value = re.sub(r'\xa0(?=[.,;:!?¿)\d])|\xa0(?<=[.,;:!?¿)\d])', ' ', value)
42
  # Eliminar \n específico después de un punto y antes \
43
- value = re.sub(r'\.\n(?=\\)', '. ', value)
44
  # Eliminar \t específico después de un punto y antes \
45
- value = re.sub(r'\.\t(?=\\)', '. ', value)
46
  # Eliminar \xa0 específico después de un punto y antes \
47
- value = re.sub(r'\.\xa0(?=\\)', '. ', value)
48
- return value
49
  #return re.sub(r'[\n[\n\t\xa0]*\t[\n\t\xa0]*\xa0[\n\t\xa0]*]',' ',value)
50
  #return re.sub(r'[^\x20-\x7E\n\t\xa0]|(?<=\w)\n|(?<=\w)\t', '', value)
51
  #return re.sub(r'\n', 'WW', value)
52
  #return re.sub(r'[\xa0\n\t\s]+|(?<=[.,;:!?)])\\n|\n(?<=\w)\\n|\n(?<=\w)|(?<=[.,;:!?)])\\t|(?<=\w)\\t|\t(?<=\w)\\t|\t(?<=\w)|(?<=[.,;:!?)])\\xa0|(?<=\w)\\xa0|\xa0(?<=\w)\\xa0|\xa0(?<=\w)', ' ', value)
53
  #return re.sub(r'(?<=\w)[\n\t\xa0]+|[\n\t\xa0]+(?=\w)|^\s*[\n\t\xa0]+|[\n\t\xa0]+$|(?<=[.,:?)¿!])[\n\t\xa0]+|\b[\n\t\xa0]+\b', ' ', value)
54
  #return re.sub(r'\s*[\n\t\xa0]+\s*', ' ', value)
55
- #return re.sub(r'[\xa0\n\t\s]|(?<=\w)\\n|(?<=[.,;:!?¿])\\n|\n(?<=\w)\\n|\n(?<=\w)|\n(?<=[.,;:!?¿])|\t(?<=[.,;:!?¿])|(?<=[.,;:!?¿])\\t|(?<=\w)\\t|\t(?<=\w)\\t|\t(?<=\w)|(?<=[.,;:!?¿])\\xa0|(?<=\w)\\xa0|\xa0(?<=\w)\\xa0|\xa0(?<=\w)\xa0(?<=[.,;:!?¿])|', ' ', value)
56
  #return re.sub(r'\s*[\n\t\xa0]+\s*', ' ', value).strip()
57
  #value = value.replace("\xa0", "").replace("\n", "").replace("\t", "")
58
  return value
 
26
  if isinstance(value, str):
27
  print("Leire")
28
  # Eliminar \n, \t, \xa0 por un espacio en blanco
29
+ #value = re.sub(r'[\n\t\xa0]', ' ', value)
30
  # Eliminar \n entre palabras
31
+ #value = re.sub(r'(?<=[a-zA-Z])\n(?=[a-zA-Z])', ' ', value)
32
  # Eliminar \t entre letras
33
+ #value = re.sub(r'(?<=[a-zA-Z])\t(?=[a-zA-Z])', ' ', value)
34
  # Eliminar \xa0 entre letras
35
+ #value = re.sub(r'(?<=[a-zA-Z])\xa0(?=[a-zA-Z])', ' ', value)
36
  # Eliminar \n antes o después de ciertos caracteres
37
+ #value = re.sub(r'\n(?=[.,;:!?¿)\d])|\n(?<=[.,;:!?¿)\d])', ' ', value)
38
  # Eliminar \t antes o después de ciertos caracteres
39
+ #value = re.sub(r'\t(?=[.,;:!?¿)\d])|\t(?<=[.,;:!?¿)\d])', ' ', value)
40
  # Eliminar \xa0 antes o después de ciertos caracteres
41
+ #value = re.sub(r'\xa0(?=[.,;:!?¿)\d])|\xa0(?<=[.,;:!?¿)\d])', ' ', value)
42
  # Eliminar \n específico después de un punto y antes \
43
+ #value = re.sub(r'\.\n(?=\\)', '. ', value)
44
  # Eliminar \t específico después de un punto y antes \
45
+ #value = re.sub(r'\.\t(?=\\)', '. ', value)
46
  # Eliminar \xa0 específico después de un punto y antes \
47
+ #value = re.sub(r'\.\xa0(?=\\)', '. ', value)
48
+ #return value
49
  #return re.sub(r'[\n[\n\t\xa0]*\t[\n\t\xa0]*\xa0[\n\t\xa0]*]',' ',value)
50
  #return re.sub(r'[^\x20-\x7E\n\t\xa0]|(?<=\w)\n|(?<=\w)\t', '', value)
51
  #return re.sub(r'\n', 'WW', value)
52
  #return re.sub(r'[\xa0\n\t\s]+|(?<=[.,;:!?)])\\n|\n(?<=\w)\\n|\n(?<=\w)|(?<=[.,;:!?)])\\t|(?<=\w)\\t|\t(?<=\w)\\t|\t(?<=\w)|(?<=[.,;:!?)])\\xa0|(?<=\w)\\xa0|\xa0(?<=\w)\\xa0|\xa0(?<=\w)', ' ', value)
53
  #return re.sub(r'(?<=\w)[\n\t\xa0]+|[\n\t\xa0]+(?=\w)|^\s*[\n\t\xa0]+|[\n\t\xa0]+$|(?<=[.,:?)¿!])[\n\t\xa0]+|\b[\n\t\xa0]+\b', ' ', value)
54
  #return re.sub(r'\s*[\n\t\xa0]+\s*', ' ', value)
55
+ return re.sub(r'[\xa0\n\t\s]|(?<=\w)\\n|(?<=[.,;:!?¿])\\n|\n(?<=\w)\\n|\n(?<=\w)|\n(?<=[.,;:!?¿])|\t(?<=[.,;:!?¿])|(?<=[.,;:!?¿])\\t|(?<=\w)\\t|\t(?<=\w)\\t|\t(?<=\w)|(?<=[.,;:!?¿])\\xa0|(?<=\w)\\xa0|\xa0(?<=\w)\\xa0|\xa0(?<=\w)\xa0(?<=[.,;:!?¿])|', 'ww', value)
56
  #return re.sub(r'\s*[\n\t\xa0]+\s*', ' ', value).strip()
57
  #value = value.replace("\xa0", "").replace("\n", "").replace("\t", "")
58
  return value