karthik commited on Feb 21, 2022

Commit

79fdc0a

1 Parent(s): d1638d0

Refactor

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

exp/asr_train_asr_raw_en_word/126epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/137epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/154epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/174epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/192epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/195epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/197epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/198epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/199epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/200epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/66epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/67epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/68epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/70epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/71epoch.pth +0 -3
exp/asr_train_asr_raw_en_word/train.1.log +0 -0
exp/asr_train_asr_raw_en_word/train.2.log +0 -557
exp/asr_train_asr_raw_en_word/train.acc.ave.pth +0 -1
exp/asr_train_asr_raw_en_word/train.acc.ave_1best.pth +0 -1
exp/asr_train_asr_raw_en_word/train.acc.ave_5best.pth +0 -3
exp/asr_train_asr_raw_en_word/train.acc.best.pth +0 -1
exp/asr_train_asr_raw_en_word/train.log +0 -0
exp/asr_train_asr_raw_en_word/train.loss.ave.pth +0 -1
exp/asr_train_asr_raw_en_word/train.loss.ave_1best.pth +0 -1
exp/asr_train_asr_raw_en_word/train.loss.ave_5best.pth +0 -3
exp/asr_train_asr_raw_en_word/train.loss.best.pth +0 -1
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/RESULTS.md +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.100ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.101ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.102ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.103ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.104ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.105ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.106ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.107ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.108ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.109ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.10ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.110ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.111ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.112ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.113ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.114ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.115ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.116ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.117ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.118ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.119ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.11ep.png +0 -0
exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.120ep.png +0 -0

exp/asr_train_asr_raw_en_word/126epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:524df69c03273cdd0593cc5b62f2c82b2b18b86853a9390252f255f5713b4fba
-size 110488525

exp/asr_train_asr_raw_en_word/137epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9c89eb2c81fd8181534ddff02232ee375ccd26f28ab7a7831344e45c8cbfbc7a
-size 110488525

exp/asr_train_asr_raw_en_word/154epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:99cfe5a5d6abdd10797e678903097cbb28a7d7734d047c44d1ebc1d06b14fb87
-size 110488525

exp/asr_train_asr_raw_en_word/174epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:deee35c14d5235e2b506147b84b0889071fb45ee13c8aa185a24fd98ce4d5b25
-size 110488525

exp/asr_train_asr_raw_en_word/192epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:be20c8f3c0d747b7597ea0f4dee8f4aa1ef30329179ecec20cbdce4b24ee865e
-size 110488525

exp/asr_train_asr_raw_en_word/195epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1ba689f98c1511c7dbbbf79841b918d7b52831197ee439176c4526344eb97bff
-size 110488525

exp/asr_train_asr_raw_en_word/197epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a94a5974c14fe9f71f5be435473bac0059da139d1901f42a11e41fa6166f8485
-size 110488525

exp/asr_train_asr_raw_en_word/198epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3bf19a35ffb6767da69e0f7fdd562d362fd2bbd99de0171b5c00c4de0f49bff4
-size 110488525

exp/asr_train_asr_raw_en_word/199epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7398df97ab7cd040dd143e7d863502a4617ccfe6a914fef59d78ca7887fb8745
-size 110488525

exp/asr_train_asr_raw_en_word/200epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e05edb01164041f1cc97611a5fcc69a192e4cf26eec351f06ba21da40b702133
-size 110488525

exp/asr_train_asr_raw_en_word/66epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d01c3e6b22c6a3ea3a69d1cbf4a9fcd2f331bc52c2a43ab857326f1dd8213c74
-size 110488525

exp/asr_train_asr_raw_en_word/67epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:cb468260a5db3ed6bb528e94fc27b67e750d99d37482c5d01d25a5242cdd2607
-size 110488525

exp/asr_train_asr_raw_en_word/68epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0b41e2bc1ba70e18bb8982e54332df7ce3b25f2ae74aed3238ea7ac22a4bf0bc
-size 110488525

exp/asr_train_asr_raw_en_word/70epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:839f0de480a2fb929682d232346c2f1b996991979a260c4abc03443224dd11d7
-size 110488525

exp/asr_train_asr_raw_en_word/71epoch.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7e986ca9e9d613f4a2ab154f573a8d229dee39923b28ee1e5bda676d4c1366fb
-size 110488525

exp/asr_train_asr_raw_en_word/train.1.log DELETED Viewed

The diff for this file is too large to render. See raw diff

exp/asr_train_asr_raw_en_word/train.2.log DELETED Viewed

@@ -1,557 +0,0 @@
-# Running on v030.ib.bridges2.psc.edu
-# Started at Mon Jan 31 01:55:52 EST 2022
-# SLURMD_NODENAME=v030
-# SLURM_CLUSTER_NAME=bridges2
-# SLURM_CONF=/var/spool/slurm/d/conf-cache/slurm.conf
-# SLURM_CPUS_ON_NODE=5
-# SLURM_CPUS_PER_TASK=1
-# SLURM_EXPORT_ENV=PATH
-# SLURM_GET_USER_ENV=1
-# SLURM_GTIDS=0
-# SLURM_JOBID=6473234
-# SLURM_JOB_ACCOUNT=cis210027p
-# SLURM_JOB_CPUS_PER_NODE=5
-# SLURM_JOB_GID=24886
-# SLURM_JOB_GPUS=5
-# SLURM_JOB_ID=6473234
-# SLURM_JOB_NAME=exp/asr_train_asr_raw_en_word/train.log
-# SLURM_JOB_NODELIST=v030
-# SLURM_JOB_NUM_NODES=1
-# SLURM_JOB_PARTITION=GPU-shared
-# SLURM_JOB_QOS=gpu
-# SLURM_JOB_UID=82326
-# SLURM_JOB_USER=ganesank
-# SLURM_LOCALID=0
-# SLURM_NNODES=1
-# SLURM_NODEID=0
-# SLURM_NODELIST=v030
-# SLURM_NODE_ALIASES='(null)'
-# SLURM_OPEN_MODE=a
-# SLURM_PRIO_PROCESS=0
-# SLURM_PROCID=0
-# SLURM_SUBMIT_DIR=/ocean/projects/cis210027p/ganesank/karthik_new/espnet/egs2/dstc2/asr2
-# SLURM_SUBMIT_HOST=br012.ib.bridges2.psc.edu
-# SLURM_TASKS_PER_NODE=5
-# SLURM_TASK_PID=54262
-# SLURM_TOPOLOGY_ADDR=v030
-# SLURM_TOPOLOGY_ADDR_PATTERN=node
-# SLURM_WORKING_CLUSTER=bridges2:br003:6814:9216:109
-# python3 -m espnet2.bin.asr_train --use_preprocessor true --bpemodel none --token_type word --token_list data/en_token_list/word/tokens.txt --non_linguistic_symbols none --cleaner none --g2p none --valid_data_path_and_name_and_type dump/raw/valid/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/valid/text,text,text --valid_shape_file exp/asr_stats_raw_en_word/valid/speech_shape --valid_shape_file exp/asr_stats_raw_en_word/valid/text_shape.word --resume true --fold_length 80000 --fold_length 150 --output_dir exp/asr_train_asr_raw_en_word --config conf/train_asr.yaml --frontend_conf fs=16k --normalize=global_mvn --normalize_conf stats_file=exp/asr_stats_raw_en_word/train/feats_stats.npz --train_data_path_and_name_and_type dump/raw/train/wav.scp,speech,sound --train_data_path_and_name_and_type dump/raw/train/text,text,text --train_shape_file exp/asr_stats_raw_en_word/train/speech_shape --train_shape_file exp/asr_stats_raw_en_word/train/text_shape.word --ngpu 1 --multiprocessing_distributed True
-/ocean/projects/cis210027p/ganesank/karthik_new/espnet/tools/venv/bin/python3 /ocean/projects/cis210027p/ganesank/karthik_new/espnet/espnet2/bin/asr_train.py --use_preprocessor true --bpemodel none --token_type word --token_list data/en_token_list/word/tokens.txt --non_linguistic_symbols none --cleaner none --g2p none --valid_data_path_and_name_and_type dump/raw/valid/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/valid/text,text,text --valid_shape_file exp/asr_stats_raw_en_word/valid/speech_shape --valid_shape_file exp/asr_stats_raw_en_word/valid/text_shape.word --resume true --fold_length 80000 --fold_length 150 --output_dir exp/asr_train_asr_raw_en_word --config conf/train_asr.yaml --frontend_conf fs=16k --normalize=global_mvn --normalize_conf stats_file=exp/asr_stats_raw_en_word/train/feats_stats.npz --train_data_path_and_name_and_type dump/raw/train/wav.scp,speech,sound --train_data_path_and_name_and_type dump/raw/train/text,text,text --train_shape_file exp/asr_stats_raw_en_word/train/speech_shape --train_shape_file exp/asr_stats_raw_en_word/train/text_shape.word --ngpu 1 --multiprocessing_distributed True
-[v030] 2022-01-31 01:56:49,667 (asr:382) INFO: Vocabulary size: 613
-[v030] 2022-01-31 01:57:10,900 (abs_task:1132) INFO: pytorch.version=1.8.1+cu102, cuda.available=True, cudnn.version=7605, cudnn.benchmark=False, cudnn.deterministic=True
-[v030] 2022-01-31 01:57:11,231 (abs_task:1133) INFO: Model structure:
-ESPnetASRModel(
-  (frontend): DefaultFrontend(
-    (stft): Stft(n_fft=512, win_length=512, hop_length=128, center=True, normalized=False, onesided=True)
-    (frontend): Frontend()
-    (logmel): LogMel(sr=16000, n_fft=512, n_mels=80, fmin=0, fmax=8000.0, htk=False)
-  )
-  (specaug): SpecAug(
-    (time_warp): TimeWarp(window=5, mode=bicubic)
-    (freq_mask): MaskAlongAxis(mask_width_range=[0, 30], num_mask=2, axis=freq)
-    (time_mask): MaskAlongAxis(mask_width_range=[0, 40], num_mask=2, axis=time)
-  )
-  (normalize): GlobalMVN(stats_file=exp/asr_stats_raw_en_word/train/feats_stats.npz, norm_means=True, norm_vars=True)
-  (encoder): TransformerEncoder(
-    (embed): Conv2dSubsampling(
-      (conv): Sequential(
-        (0): Conv2d(1, 256, kernel_size=(3, 3), stride=(2, 2))
-        (1): ReLU()
-        (2): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2))
-        (3): ReLU()
-      )
-      (out): Sequential(
-        (0): Linear(in_features=4864, out_features=256, bias=True)
-        (1): PositionalEncoding(
-          (dropout): Dropout(p=0.1, inplace=False)
-        )
-      )
-    )
-    (encoders): MultiSequential(
-      (0): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (1): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (2): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (3): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (4): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (5): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (6): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (7): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (8): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (9): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (10): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (11): EncoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-    )
-    (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-  )
-  (decoder): TransformerDecoder(
-    (embed): Sequential(
-      (0): Embedding(613, 256)
-      (1): PositionalEncoding(
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-    )
-    (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-    (output_layer): Linear(in_features=256, out_features=613, bias=True)
-    (decoders): MultiSequential(
-      (0): DecoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (src_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (1): DecoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (src_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (2): DecoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (src_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (3): DecoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (src_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (4): DecoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (src_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-      (5): DecoderLayer(
-        (self_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (src_attn): MultiHeadedAttention(
-          (linear_q): Linear(in_features=256, out_features=256, bias=True)
-          (linear_k): Linear(in_features=256, out_features=256, bias=True)
-          (linear_v): Linear(in_features=256, out_features=256, bias=True)
-          (linear_out): Linear(in_features=256, out_features=256, bias=True)
-          (dropout): Dropout(p=0.0, inplace=False)
-        )
-        (feed_forward): PositionwiseFeedForward(
-          (w_1): Linear(in_features=256, out_features=2048, bias=True)
-          (w_2): Linear(in_features=2048, out_features=256, bias=True)
-          (dropout): Dropout(p=0.1, inplace=False)
-          (activation): ReLU()
-        )
-        (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (norm3): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-        (dropout): Dropout(p=0.1, inplace=False)
-      )
-    )
-  )
-  (ctc): CTC(
-    (ctc_lo): Linear(in_features=256, out_features=613, bias=True)
-    (ctc_loss): CTCLoss()
-  )
-  (criterion_att): LabelSmoothingLoss(
-    (criterion): KLDivLoss()
-  )
-)
-Model summary:
-    Class Name: ESPnetASRModel
-    Total Number of model parameters: 27.56 M
-    Number of trainable parameters: 27.56 M (100.0%)
-    Size: 110.26 MB
-    Type: torch.float32
-[v030] 2022-01-31 01:57:11,231 (abs_task:1136) INFO: Optimizer:
-Adam (
-Parameter Group 0
-    amsgrad: False
-    betas: (0.9, 0.999)
-    eps: 1e-08
-    initial_lr: 0.0002
-    lr: 8e-09
-    weight_decay: 0
-)
-[v030] 2022-01-31 01:57:11,232 (abs_task:1137) INFO: Scheduler: WarmupLR(warmup_steps=25000)
-[v030] 2022-01-31 01:57:11,236 (abs_task:1146) INFO: Saving the configuration in exp/asr_train_asr_raw_en_word/config.yaml
-[v030] 2022-01-31 01:57:11,750 (abs_task:1493) INFO: [train] dataset:
-ESPnetDataset(
-  speech: {"path": "dump/raw/train/wav.scp", "type": "sound"}
-  text: {"path": "dump/raw/train/text", "type": "text"}
-  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x1459a71f8310>)
-[v030] 2022-01-31 01:57:11,751 (abs_task:1494) INFO: [train] Batch sampler: FoldedBatchSampler(N-batch=547, batch_size=20, shape_files=['exp/asr_stats_raw_en_word/train/speech_shape', 'exp/asr_stats_raw_en_word/train/text_shape.word'], sort_in_batch=descending, sort_batch=descending)
-[v030] 2022-01-31 01:57:11,787 (abs_task:1495) INFO: [train] mini-batch sizes summary: N-batch=547, mean=19.9, min=6, max=20
-[v030] 2022-01-31 01:57:12,032 (abs_task:1493) INFO: [valid] dataset:
-ESPnetDataset(
-  speech: {"path": "dump/raw/valid/wav.scp", "type": "sound"}
-  text: {"path": "dump/raw/valid/text", "type": "text"}
-  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x1459a3c2d520>)
-[v030] 2022-01-31 01:57:12,033 (abs_task:1494) INFO: [valid] Batch sampler: FoldedBatchSampler(N-batch=178, batch_size=20, shape_files=['exp/asr_stats_raw_en_word/valid/speech_shape', 'exp/asr_stats_raw_en_word/valid/text_shape.word'], sort_in_batch=descending, sort_batch=descending)
-[v030] 2022-01-31 01:57:12,033 (abs_task:1495) INFO: [valid] mini-batch sizes summary: N-batch=178, mean=20.0, min=19, max=20
-[v030] 2022-01-31 01:57:12,059 (abs_task:1493) INFO: [plot_att] dataset:
-ESPnetDataset(
-  speech: {"path": "dump/raw/valid/wav.scp", "type": "sound"}
-  text: {"path": "dump/raw/valid/text", "type": "text"}
-  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x1459a3c2dfa0>)
-[v030] 2022-01-31 01:57:12,059 (abs_task:1494) INFO: [plot_att] Batch sampler: UnsortedBatchSampler(N-batch=3559, batch_size=1, key_file=exp/asr_stats_raw_en_word/valid/speech_shape,
-[v030] 2022-01-31 01:57:12,059 (abs_task:1495) INFO: [plot_att] mini-batch sizes summary: N-batch=3, mean=1.0, min=1, max=1
-[v030] 2022-01-31 01:57:12,109 (trainer:273) INFO: 1/2epoch started
-[v030] 2022-01-31 01:57:30,639 (trainer:653) INFO: 1epoch:train:1-27batch: iter_time=0.230, forward_time=0.249, loss=141.855, loss_att=47.067, loss_ctc=236.642, acc=4.953e-04, backward_time=0.036, optim_step_time=0.026, optim0_lr0=1.200e-07, train_time=0.632
-[v030] 2022-01-31 01:57:39,688 (trainer:653) INFO: 1epoch:train:28-54batch: iter_time=0.188, forward_time=0.069, loss=142.019, loss_att=49.139, loss_ctc=234.898, acc=2.572e-04, backward_time=0.030, optim_step_time=0.024, optim0_lr0=3.360e-07, train_time=0.373
-[v030] 2022-01-31 01:57:45,424 (trainer:653) INFO: 1epoch:train:55-81batch: iter_time=0.082, forward_time=0.058, loss=136.567, loss_att=49.707, loss_ctc=223.427, acc=4.240e-04, backward_time=0.029, optim_step_time=0.023, optim0_lr0=5.520e-07, train_time=0.213
-[v030] 2022-01-31 01:57:51,546 (trainer:653) INFO: 1epoch:train:82-108batch: iter_time=0.103, forward_time=0.054, loss=140.269, loss_att=55.069, loss_ctc=225.468, acc=3.225e-04, backward_time=0.026, optim_step_time=0.022, optim0_lr0=7.680e-07, train_time=0.227
-[v030] 2022-01-31 01:57:57,839 (trainer:653) INFO: 1epoch:train:109-135batch: iter_time=0.136, forward_time=0.034, loss=103.266, loss_att=50.612, loss_ctc=155.921, acc=2.684e-04, backward_time=0.023, optim_step_time=0.022, optim0_lr0=9.840e-07, train_time=0.233
-[v030] 2022-01-31 01:58:07,335 (trainer:653) INFO: 1epoch:train:136-162batch: iter_time=0.133, forward_time=0.138, loss=86.321, loss_att=51.425, loss_ctc=121.217, acc=2.486e-04, backward_time=0.030, optim_step_time=0.022, optim0_lr0=1.200e-06, train_time=0.351
-[v030] 2022-01-31 01:58:14,180 (trainer:653) INFO: 1epoch:train:163-189batch: iter_time=0.118, forward_time=0.068, loss=59.836, loss_att=46.904, loss_ctc=72.767, acc=2.503e-04, backward_time=0.026, optim_step_time=0.022, optim0_lr0=1.416e-06, train_time=0.253
-[v030] 2022-01-31 01:58:19,882 (trainer:653) INFO: 1epoch:train:190-216batch: iter_time=0.110, forward_time=0.035, loss=62.973, loss_att=55.924, loss_ctc=70.023, acc=2.639e-04, backward_time=0.023, optim_step_time=0.022, optim0_lr0=1.632e-06, train_time=0.211
-[v030] 2022-01-31 01:58:25,457 (trainer:653) INFO: 1epoch:train:217-243batch: iter_time=0.080, forward_time=0.058, loss=50.057, loss_att=50.607, loss_ctc=49.508, acc=0.000e+00, backward_time=0.026, optim_step_time=0.023, optim0_lr0=1.848e-06, train_time=0.206
-[v030] 2022-01-31 01:58:40,212 (trainer:653) INFO: 1epoch:train:244-270batch: iter_time=0.090, forward_time=0.381, loss=42.156, loss_att=44.508, loss_ctc=39.803, acc=0.001, backward_time=0.027, optim_step_time=0.023, optim0_lr0=2.064e-06, train_time=0.546
-[v030] 2022-01-31 01:58:49,595 (trainer:653) INFO: 1epoch:train:271-297batch: iter_time=0.165, forward_time=0.104, loss=35.478, loss_att=38.536, loss_ctc=32.420, acc=0.004, backward_time=0.031, optim_step_time=0.025, optim0_lr0=2.280e-06, train_time=0.347
-[v030] 2022-01-31 01:58:55,079 (trainer:653) INFO: 1epoch:train:298-324batch: iter_time=0.107, forward_time=0.033, loss=40.375, loss_att=43.577, loss_ctc=37.174, acc=0.014, backward_time=0.023, optim_step_time=0.022, optim0_lr0=2.496e-06, train_time=0.203
-[v030] 2022-01-31 01:59:05,215 (trainer:653) INFO: 1epoch:train:325-351batch: iter_time=0.110, forward_time=0.102, loss=51.612, loss_att=55.003, loss_ctc=48.221, acc=0.023, backward_time=0.095, optim_step_time=0.032, optim0_lr0=2.712e-06, train_time=0.375
-[v030] 2022-01-31 01:59:16,439 (trainer:653) INFO: 1epoch:train:352-378batch: iter_time=0.198, forward_time=0.133, loss=43.941, loss_att=47.359, loss_ctc=40.524, acc=0.052, backward_time=0.035, optim_step_time=0.025, optim0_lr0=2.928e-06, train_time=0.415
-[v030] 2022-01-31 01:59:22,380 (trainer:653) INFO: 1epoch:train:379-405batch: iter_time=0.055, forward_time=0.095, loss=40.773, loss_att=44.045, loss_ctc=37.502, acc=0.088, backward_time=0.027, optim_step_time=0.023, optim0_lr0=3.144e-06, train_time=0.220
-[v030] 2022-01-31 01:59:28,375 (trainer:653) INFO: 1epoch:train:406-432batch: iter_time=0.121, forward_time=0.037, loss=41.249, loss_att=44.500, loss_ctc=37.998, acc=0.114, backward_time=0.023, optim_step_time=0.022, optim0_lr0=3.360e-06, train_time=0.222
-[v030] 2022-01-31 01:59:40,639 (trainer:653) INFO: 1epoch:train:433-459batch: iter_time=0.094, forward_time=0.278, loss=47.537, loss_att=50.761, loss_ctc=44.314, acc=0.119, backward_time=0.035, optim_step_time=0.025, optim0_lr0=3.576e-06, train_time=0.454
-[v030] 2022-01-31 02:00:15,522 (trainer:653) INFO: 1epoch:train:460-486batch: iter_time=0.126, forward_time=1.014, loss=37.846, loss_att=40.791, loss_ctc=34.901, acc=0.159, backward_time=0.079, optim_step_time=0.031, optim0_lr0=3.792e-06, train_time=1.292
-[v030] 2022-01-31 02:00:29,360 (trainer:653) INFO: 1epoch:train:487-513batch: iter_time=0.110, forward_time=0.262, loss=48.077, loss_att=51.027, loss_ctc=45.127, acc=0.149, backward_time=0.061, optim_step_time=0.033, optim0_lr0=4.008e-06, train_time=0.512
-[v030] 2022-01-31 02:00:38,109 (trainer:653) INFO: 1epoch:train:514-540batch: iter_time=0.097, forward_time=0.136, loss=35.719, loss_att=38.304, loss_ctc=33.134, acc=0.214, backward_time=0.036, optim_step_time=0.027, optim0_lr0=4.224e-06, train_time=0.324
-[v030] 2022-01-31 02:02:20,408 (trainer:328) INFO: 1epoch results: [train] iter_time=0.124, forward_time=0.165, loss=68.972, loss_att=47.724, loss_ctc=90.219, acc=0.049, backward_time=0.036, optim_step_time=0.025, optim0_lr0=2.200e-06, train_time=0.379, time=3 minutes and 28.1 seconds, total_count=547, gpu_max_cached_mem_GB=4.266, [valid] loss=42.143, loss_att=42.969, loss_ctc=41.317, acc=0.226, cer=0.917, wer=1.000, cer_ctc=1.000, time=34.01 seconds, total_count=178, gpu_max_cached_mem_GB=4.891, [att_plot] time=1 minute and 6.1 seconds, total_count=0, gpu_max_cached_mem_GB=4.891
-[v030] 2022-01-31 02:02:24,238 (trainer:375) INFO: The best model has been updated: train.loss, valid.loss, train.acc, valid.acc
-[v030] 2022-01-31 02:02:24,290 (trainer:261) INFO: 2/2epoch started. Estimated time to finish: 5 minutes and 12.15 seconds
-[v030] 2022-01-31 02:02:39,772 (trainer:653) INFO: 2epoch:train:1-27batch: iter_time=0.200, forward_time=0.227, loss=37.230, loss_att=39.722, loss_ctc=34.738, acc=0.219, backward_time=0.046, optim_step_time=0.026, optim0_lr0=4.496e-06, train_time=0.540
-[v030] 2022-01-31 02:02:46,635 (trainer:653) INFO: 2epoch:train:28-54batch: iter_time=0.143, forward_time=0.046, loss=35.185, loss_att=37.229, loss_ctc=33.140, acc=0.229, backward_time=0.024, optim_step_time=0.022, optim0_lr0=4.712e-06, train_time=0.254
-[v030] 2022-01-31 02:02:54,463 (trainer:653) INFO: 2epoch:train:55-81batch: iter_time=0.136, forward_time=0.073, loss=42.493, loss_att=44.580, loss_ctc=40.405, acc=0.204, backward_time=0.026, optim_step_time=0.032, optim0_lr0=4.928e-06, train_time=0.290
-[v030] 2022-01-31 02:03:02,383 (trainer:653) INFO: 2epoch:train:82-108batch: iter_time=0.100, forward_time=0.122, loss=44.804, loss_att=46.801, loss_ctc=42.807, acc=0.193, backward_time=0.026, optim_step_time=0.023, optim0_lr0=5.144e-06, train_time=0.293
-[v030] 2022-01-31 02:03:10,308 (trainer:653) INFO: 2epoch:train:109-135batch: iter_time=0.091, forward_time=0.111, loss=37.952, loss_att=39.864, loss_ctc=36.040, acc=0.221, backward_time=0.045, optim_step_time=0.023, optim0_lr0=5.360e-06, train_time=0.293
-[v030] 2022-01-31 02:03:29,729 (trainer:653) INFO: 2epoch:train:136-162batch: iter_time=0.116, forward_time=0.490, loss=36.738, loss_att=38.327, loss_ctc=35.149, acc=0.230, backward_time=0.046, optim_step_time=0.026, optim0_lr0=5.576e-06, train_time=0.719
-[v030] 2022-01-31 02:03:41,965 (trainer:653) INFO: 2epoch:train:163-189batch: iter_time=0.154, forward_time=0.226, loss=33.661, loss_att=34.931, loss_ctc=32.390, acc=0.232, backward_time=0.028, optim_step_time=0.023, optim0_lr0=5.792e-06, train_time=0.453
-[v030] 2022-01-31 02:03:52,572 (trainer:653) INFO: 2epoch:train:190-216batch: iter_time=0.108, forward_time=0.164, loss=37.235, loss_att=38.509, loss_ctc=35.961, acc=0.236, backward_time=0.069, optim_step_time=0.023, optim0_lr0=6.008e-06, train_time=0.393
-[v030] 2022-01-31 02:04:09,632 (trainer:653) INFO: 2epoch:train:217-243batch: iter_time=0.137, forward_time=0.341, loss=36.192, loss_att=37.130, loss_ctc=35.254, acc=0.226, backward_time=0.074, optim_step_time=0.031, optim0_lr0=6.224e-06, train_time=0.631
-[v030] 2022-01-31 02:04:24,555 (trainer:653) INFO: 2epoch:train:244-270batch: iter_time=0.165, forward_time=0.303, loss=34.811, loss_att=35.738, loss_ctc=33.883, acc=0.241, backward_time=0.029, optim_step_time=0.029, optim0_lr0=6.440e-06, train_time=0.552
-[v030] 2022-01-31 02:04:41,937 (trainer:653) INFO: 2epoch:train:271-297batch: iter_time=0.122, forward_time=0.326, loss=35.547, loss_att=36.079, loss_ctc=35.016, acc=0.238, backward_time=0.109, optim_step_time=0.036, optim0_lr0=6.656e-06, train_time=0.644
-[v030] 2022-01-31 02:04:54,885 (trainer:653) INFO: 2epoch:train:298-324batch: iter_time=0.096, forward_time=0.271, loss=34.077, loss_att=34.718, loss_ctc=33.436, acc=0.243, backward_time=0.042, optim_step_time=0.026, optim0_lr0=6.872e-06, train_time=0.479
-[v030] 2022-01-31 02:05:05,565 (trainer:653) INFO: 2epoch:train:325-351batch: iter_time=0.225, forward_time=0.076, loss=35.986, loss_att=36.355, loss_ctc=35.616, acc=0.242, backward_time=0.042, optim_step_time=0.024, optim0_lr0=7.088e-06, train_time=0.395
-[v030] 2022-01-31 02:05:14,712 (trainer:653) INFO: 2epoch:train:352-378batch: iter_time=0.117, forward_time=0.152, loss=36.101, loss_att=36.323, loss_ctc=35.880, acc=0.243, backward_time=0.025, optim_step_time=0.023, optim0_lr0=7.304e-06, train_time=0.338
-[v030] 2022-01-31 02:05:31,872 (trainer:653) INFO: 2epoch:train:379-405batch: iter_time=0.080, forward_time=0.434, loss=31.234, loss_att=31.494, loss_ctc=30.973, acc=0.279, backward_time=0.056, optim_step_time=0.027, optim0_lr0=7.520e-06, train_time=0.635
-[v030] 2022-01-31 02:05:51,754 (trainer:653) INFO: 2epoch:train:406-432batch: iter_time=0.093, forward_time=0.395, loss=34.236, loss_att=34.248, loss_ctc=34.225, acc=0.278, backward_time=0.135, optim_step_time=0.037, optim0_lr0=7.736e-06, train_time=0.735
-[v030] 2022-01-31 02:06:02,624 (trainer:653) INFO: 2epoch:train:433-459batch: iter_time=0.127, forward_time=0.178, loss=30.387, loss_att=30.207, loss_ctc=30.567, acc=0.282, backward_time=0.037, optim_step_time=0.027, optim0_lr0=7.952e-06, train_time=0.403
-[v030] 2022-01-31 02:06:13,226 (trainer:653) INFO: 2epoch:train:460-486batch: iter_time=0.101, forward_time=0.167, loss=34.295, loss_att=34.131, loss_ctc=34.460, acc=0.281, backward_time=0.060, optim_step_time=0.030, optim0_lr0=8.168e-06, train_time=0.392
-[v030] 2022-01-31 02:06:23,189 (trainer:653) INFO: 2epoch:train:487-513batch: iter_time=0.091, forward_time=0.160, loss=31.108, loss_att=30.714, loss_ctc=31.502, acc=0.286, backward_time=0.057, optim_step_time=0.032, optim0_lr0=8.384e-06, train_time=0.368
-[v030] 2022-01-31 02:06:30,758 (trainer:653) INFO: 2epoch:train:514-540batch: iter_time=0.154, forward_time=0.051, loss=34.146, loss_att=33.576, loss_ctc=34.716, acc=0.262, backward_time=0.026, optim_step_time=0.028, optim0_lr0=8.600e-06, train_time=0.280
-[v030] 2022-01-31 02:08:56,243 (trainer:328) INFO: 2epoch results: [train] iter_time=0.128, forward_time=0.235, loss=35.545, loss_att=36.390, loss_ctc=34.699, acc=0.245, backward_time=0.054, optim_step_time=0.028, optim0_lr0=6.576e-06, train_time=0.479, time=4 minutes and 23.23 seconds, total_count=1094, gpu_max_cached_mem_GB=4.891, [valid] loss=34.559, loss_att=31.596, loss_ctc=37.522, acc=0.298, cer=0.977, wer=1.000, cer_ctc=1.000, time=1 minute and 19.1 seconds, total_count=356, gpu_max_cached_mem_GB=4.891, [att_plot] time=49.47 seconds, total_count=0, gpu_max_cached_mem_GB=4.891
-[v030] 2022-01-31 02:08:59,763 (trainer:375) INFO: The best model has been updated: train.loss, valid.loss, train.acc, valid.acc
-[v030] 2022-01-31 02:08:59,768 (trainer:431) INFO: The training was finished at 2 epochs
-# Accounting: begin_time=1643612152
-# Accounting: end_time=1643612955
-# Accounting: time=803 threads=1
-# Finished at Mon Jan 31 02:09:15 EST 2022 with status 0

exp/asr_train_asr_raw_en_word/train.acc.ave.pth DELETED Viewed

	@@ -1 +0,0 @@
1	- train.acc.ave_5best.pth

exp/asr_train_asr_raw_en_word/train.acc.ave_1best.pth DELETED Viewed

	@@ -1 +0,0 @@
1	- 2epoch.pth

exp/asr_train_asr_raw_en_word/train.acc.ave_5best.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b6856ac64a7105bd9c0809ace8b562e044d2375eab41818f8c205a5cafefab1c
-size 110483405

exp/asr_train_asr_raw_en_word/train.acc.best.pth DELETED Viewed

	@@ -1 +0,0 @@
1	- 195epoch.pth

exp/asr_train_asr_raw_en_word/train.log DELETED Viewed

The diff for this file is too large to render. See raw diff

exp/asr_train_asr_raw_en_word/train.loss.ave.pth DELETED Viewed

	@@ -1 +0,0 @@
1	- train.loss.ave_5best.pth

exp/asr_train_asr_raw_en_word/train.loss.ave_1best.pth DELETED Viewed

	@@ -1 +0,0 @@
1	- 2epoch.pth

exp/asr_train_asr_raw_en_word/train.loss.ave_5best.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b49bebd712995835c9df6a9b32244362261deef949cde007de65204d0ea1473b
-size 110483405

exp/asr_train_asr_raw_en_word/train.loss.best.pth DELETED Viewed

	@@ -1 +0,0 @@
1	- 200epoch.pth

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/RESULTS.md RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.100ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.101ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.102ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.103ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.104ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.105ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.106ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.107ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.108ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.109ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.10ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.110ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.111ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.112ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.113ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.114ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.115ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.116ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.117ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.118ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.119ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.11ep.png RENAMED Viewed

File without changes

exp/{asr_train_asr_raw_en_word → asr_train_asr_transformer}/att_ws/BrX8aDqK2cLZRYl_voip-10beae627f-20130328_122107_pt344x_0001704_0001832.wav/decoder.decoders.0.self_attn.120ep.png RENAMED Viewed

File without changes