Bauwens
/

BPE-32k_SlimPajama-3M

Model card Files Files and versions Community

Bauwens commited on 8 days ago

Commit

9ede907

•

1 Parent(s): aa69eb1

Update README.md

Files changed (1) hide show

README.md +6 -6

README.md CHANGED Viewed

@@ -9,13 +9,13 @@ BPE trainer implementation:
 Preprocessor:
   - During training: TkTkT's [`SentencePiecePreprocessor`](https://github.com/bauwenst/TkTkT/blob/341ae85980a5a9a2d60dbdc88645f8828b5c3a06/src/tktkt/preparation/instances.py#L181)
   - During inference: TkTkT's [`ModernEnglishPreprocessor`](https://github.com/bauwenst/TkTkT/blob/341ae85980a5a9a2d60dbdc88645f8828b5c3a06/src/tktkt/preparation/instances.py#L105)
-    - NFKC normalisation
-    - Punctuation splitter, whitespace splitter, English contraction splitter
-    - GPT-2's pseudo-byte mapping
-    - Start-of-word marker `Ġ`
-    - Digit and hyphen isolation
-## Training details:
 **Time:** 3h10m
   - Preprocessing and counting the 3M corpus: 2h45m
   - BPE merges: 25m

 Preprocessor:
   - During training: TkTkT's [`SentencePiecePreprocessor`](https://github.com/bauwenst/TkTkT/blob/341ae85980a5a9a2d60dbdc88645f8828b5c3a06/src/tktkt/preparation/instances.py#L181)
   - During inference: TkTkT's [`ModernEnglishPreprocessor`](https://github.com/bauwenst/TkTkT/blob/341ae85980a5a9a2d60dbdc88645f8828b5c3a06/src/tktkt/preparation/instances.py#L105)
+    1. NFKC normalisation
+    2. Punctuation splitter, whitespace splitter, English contraction splitter
+    3. GPT-2's pseudo-byte mapping
+    4. Start-of-word marker `Ġ`
+    5. Digit and hyphen isolation
+## Training details
 **Time:** 3h10m
   - Preprocessing and counting the 3M corpus: 2h45m
   - BPE merges: 25m