Seq2Seq model implemented

Files changed (9) hide show

.idea/.gitignore ADDED Viewed

+# Default ignored files
+/shelf/
+/workspace.xml

.idea/bn_multi_tribe_mt.iml ADDED Viewed

+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="inheritedJdk" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>

.idea/inspectionProfiles/profiles_settings.xml ADDED Viewed

+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>

.idea/misc.xml ADDED Viewed

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="Black">
+    <option name="sdkName" value="C:\ProgramData\miniconda3" />
+  </component>
+  <component name="ProjectRootManager" version="2" project-jdk-name="C:\ProgramData\miniconda3" project-jdk-type="Python SDK" />
+</project>

.idea/modules.xml ADDED Viewed

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/bn_multi_tribe_mt.iml" filepath="$PROJECT_DIR$/.idea/bn_multi_tribe_mt.iml" />
+    </modules>
+  </component>
+</project>

.idea/vcs.xml ADDED Viewed

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="" vcs="Git" />
+  </component>
+</project>

src/__init__.py ADDED Viewed

File without changes

src/pipes/data.py CHANGED Viewed

@@ -1,8 +1,9 @@
 import random
-import const
-import utils
 import string
 class SequenceLoader:
     def __init__(self):
@@ -40,8 +41,9 @@ class SequenceLoader:
 def serialize(src_seq, tar_seq):
-    tar_seq_in = tar_seq[:, :-1].to_tensor()
-    tar_seq_out = tar_seq[:, 1:].to_tensor()
     return (src_seq, tar_seq_in), tar_seq_out
@@ -165,28 +167,27 @@ class Dataset:
         self.dataset_dict = seq_processor.get_dict()
     def pull(self):
-        src_lang_train_seqs = self.dataset_dict[self.langs[0]]["train"]
-        tar_lang_train_seqs = self.dataset_dict[self.langs[1]]["train"]
-        src_lang_val_seqs = self.dataset_dict[self.langs[0]]["val"]
-        tar_lang_val_seqs = self.dataset_dict[self.langs[1]]["val"]
         train_ds = ((tf.data.Dataset
                      .from_tensor_slices((src_lang_train_seqs, tar_lang_train_seqs)))
                     .shuffle(const.BUFFER_SIZE)
                     .batch(const.BATCH_SIZE))
-        val_ds = (tf.data.Dataset
-                  .from_tensor_slices(src_lang_val_seqs, tar_lang_val_seqs)
                   .shuffle(const.BUFFER_SIZE)
                   .batch(const.BATCH_SIZE))
         train_ds = train_ds.map(serialize, tf.data.AUTOTUNE)
         val_ds = val_ds.map(serialize, tf.data.AUTOTUNE)
-        return trainset, valset
-    @staticmethod
     def get_dict(self):
         return self.dataset_dict

 import random
+from pipes import const
+from pipes import utils
 import string
+import tensorflow as tf
+import numpy as np
 class SequenceLoader:
     def __init__(self):
 def serialize(src_seq, tar_seq):
+    tar_seq_in = tf.convert_to_tensor(tar_seq[:, :-1])
+    tar_seq_out = tf.convert_to_tensor(tar_seq[:, 1:])
+    src_seq = tf.convert_to_tensor(src_seq)
     return (src_seq, tar_seq_in), tar_seq_out
         self.dataset_dict = seq_processor.get_dict()
     def pull(self):
+        src_lang_train_seqs = np.array(self.dataset_dict[self.langs[0]]["train"])
+        tar_lang_train_seqs = np.array(self.dataset_dict[self.langs[1]]["train"])
+        src_lang_val_seqs = np.array(self.dataset_dict[self.langs[0]]["val"])
+        tar_lang_val_seqs = np.array(self.dataset_dict[self.langs[1]]["val"])
         train_ds = ((tf.data.Dataset
                      .from_tensor_slices((src_lang_train_seqs, tar_lang_train_seqs)))
                     .shuffle(const.BUFFER_SIZE)
                     .batch(const.BATCH_SIZE))
+        val_ds = ((tf.data.Dataset
+                   .from_tensor_slices((src_lang_val_seqs, tar_lang_val_seqs)))
                   .shuffle(const.BUFFER_SIZE)
                   .batch(const.BATCH_SIZE))
         train_ds = train_ds.map(serialize, tf.data.AUTOTUNE)
         val_ds = val_ds.map(serialize, tf.data.AUTOTUNE)
+        return train_ds, val_ds
     def get_dict(self):
         return self.dataset_dict

src/{seq2seqtrainer.py → seq2seq_trainer.py} RENAMED Viewed

@@ -1,5 +1,8 @@
-from pipes import models, utils, const
 from pipes.data import Dataset
 if __name__ == "__main__":
     input_lang = 'gr'
@@ -8,17 +11,30 @@ if __name__ == "__main__":
     dataset_object = Dataset([input_lang, output_lang])
     dataset_object.pack()
     dataset_object.process()
     dataset_dict = dataset_object.get_dict()
-    seq2seq = models.Seq2Seq(
         input_vocab_size=dataset_dict[input_lang]["vocab_size"],
         output_vocab_size=dataset_dict[output_lang]["vocab_size"],
         embedding_dim=256,
-        hidden_units=64)
-    seq2seq.build()
-    seq2seq.run(
-        encoder_input_data=dataset_dict[input_lang]["train"],
-        decoder_input_data=dataset_dict[output_lang]["train"],
-        val_encoder_input_data=dataset_dict[input_lang]["val"],
-        val_decoder_input_data=dataset_dict[output_lang]["val"],
     )

+from pipes import utils
+from pipes import const
+from pipes import models
 from pipes.data import Dataset
+import tensorflow as tf
 if __name__ == "__main__":
     input_lang = 'gr'
     dataset_object = Dataset([input_lang, output_lang])
     dataset_object.pack()
     dataset_object.process()
+    train_ds, val_ds = dataset_object.pull()
     dataset_dict = dataset_object.get_dict()
+    model_object = models.Seq2Seq(
         input_vocab_size=dataset_dict[input_lang]["vocab_size"],
         output_vocab_size=dataset_dict[output_lang]["vocab_size"],
         embedding_dim=256,
+        hidden_units=512
+    )
+    model_object.build()
+    model = model_object.get()
+    model.compile(
+        optimizer=tf.keras.optimizers.Adam(),
+        loss=tf.keras.losses.SparseCategoricalCrossentropy(),
+        metrics=['accuracy', 'val_accuracy'],
+    )
+    history = model.fit(
+        train_ds.repeat(),
+        epochs=10,
+        steps_per_epoch=100,
+        validation_steps=20,
+        validation_data=val_ds,
+        callbacks=[tf.keras.callbacks.EarlyStopping(patience=3)]
     )