Spaces:

soumyaprabhamaiti
/

hate_speech_classifier

Runtime error

App Files Files Community

soumyaprabhamaiti commited on Sep 3, 2023

Commit

5ce506c

•

1 Parent(s): cc07f38

Add hate classifier app

Browse files

Files changed (9) hide show

.gitattributes +35 -0
.github/workflows/check_file_size.yml +16 -0
.github/workflows/sync_to_hub.yml +20 -0
README.md +11 -0
app.py +51 -0
model.h5 +3 -0
requirements.txt +4 -0
tokenizer.pickle +3 -0
utils.py +38 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.github/workflows/check_file_size.yml ADDED Viewed

	@@ -0,0 +1,16 @@

+name: Check file size
+on: # or directly `on: [push]` to run the action on every push on any branch
+ pull_request:
+ branches: [main]
+ # to run this workflow manually from the Actions tab
+ workflow_dispatch:
+jobs:
+ check-file-size:
+ runs-on: ubuntu-latest
+ steps:
+ - name: Check large files
+ uses: ActionsDesk/[email protected]
+ with:
+ filesizelimit: 10485760 # this is 10MB so we can sync to HF Spaces

.github/workflows/sync_to_hub.yml ADDED Viewed

	@@ -0,0 +1,20 @@

+name: Sync to Hugging Face hub
+on:
+ push:
+ branches: [main]
+ # to run this workflow manually from the Actions tab
+ workflow_dispatch:
+jobs:
+ sync-to-hub:
+ runs-on: ubuntu-latest
+ steps:
+ - uses: actions/checkout@v3
+ with:
+ fetch-depth: 0
+ lfs: true
+ - name: Push to hub
+ env:
+ HF: ${{ secrets.HF }}
+ run: git push --force https://soumyaprabhamaiti:[email protected]/spaces/soumyaprabhamaiti/hate_speech_classifier main

README.md ADDED Viewed

	@@ -0,0 +1,11 @@

+---
+title: Hate Speech Classifier
+emoji: 📊
+colorFrom: gray
+colorTo: blue
+sdk: gradio
+sdk_version: 3.42.0
+app_file: app.py
+pinned: false
+license: mit
+---

app.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import pickle
+import gradio as gr
+import numpy as np
+import tensorflow as tf
+from utils import clean_text, tokenize_and_pad
+# Load pre-trained TensorFlow model
+model = tf.keras.models.load_model('model.h5')
+# Load tokenizer
+with open('tokenizer.pickle', 'rb') as handle:
+ tokenizer = pickle.load(handle)
+ print(type(tokenizer))
+# Constants
+MAX_LEN = 300
+def predict_hate_speech(text):
+ # Clean the text
+ cleaned_text = clean_text(text)
+ # Tokenize and pad the text
+ preprocessed_text = tokenize_and_pad([cleaned_text], tokenizer, MAX_LEN)
+ # Make a prediction
+ prediction = model.predict(preprocessed_text)
+ # Assuming you have two classes: "Hate" and "Not Hate"
+ if prediction > 0.5:
+ result = "Hate"
+ else:
+ result = "Not Hate"
+ return result
+# Create a Gradio interface
+iface = gr.Interface(
+ fn=predict_hate_speech,
+ inputs=gr.Textbox(label="Input Text"),
+ outputs=gr.Textbox(label="Output Prediction"),
+ title="Hate Speech Classification",
+ description="A simple hate speech classifier. Enter a text and click submit to make a prediction."
+)
+# Run the Gradio app
+iface.launch()

model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b836d0f75bb836d9cd0cfcd0657e35cfd659a7c4085af86ddec382cfdb9275dc
+size 40676464

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+tensorflow
+numpy
+gradio
+nltk

tokenizer.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f982b4524646588f84f61f9cb9bc49998672afccc012f355af7eb787117bd1a0
+size 1701049

utils.py ADDED Viewed

	@@ -0,0 +1,38 @@

+import re
+import string
+from collections.abc import Iterable
+import nltk
+import numpy as np
+from keras.preprocessing.text import Tokenizer
+from keras.utils import pad_sequences
+from nltk.corpus import stopwords
+nltk.download('stopwords')
+# Apply regex and do cleaning.
+def clean_text(words: str) -> str:
+ words = str(words).lower()
+ words = re.sub('\[.*?\]', '', words)
+ words = re.sub('https?://\S+|www\.\S+', '', words)
+ words = re.sub('<.*?>+', '', words)
+ words = re.sub(r'@\w+', '', words)
+ words = re.sub('[%s]' % re.escape(string.punctuation), '', words)
+ words = re.sub('\n', '', words)
+ words = re.sub('\w*\d\w*', '', words)
+ stopword = set(stopwords.words('english'))
+ words = ' '.join(
+ [word for word in words.split(' ') if word not in stopword])
+ stemmer = nltk.SnowballStemmer("english")
+ words = ' '.join([stemmer.stem(word) for word in words.split(' ')])
+ return words
+def tokenize_and_pad(text_list: Iterable[str], tokenizer: Tokenizer, max_len: int) -> np.ndarray[np.str_]:
+ sequences = tokenizer.texts_to_sequences(text_list)
+ sequences_matrix = pad_sequences(sequences, maxlen=max_len)
+ return sequences_matrix