KeeeeepGoing commited on
Commit
8acc029
1 Parent(s): 5da0cc3

Upload 7 files

Browse files
README.md CHANGED
@@ -1,3 +1,51 @@
1
- ---
2
- license: cc-by-nc-sa-4.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-nc-sa-4.0
3
+ widget:
4
+ - text: AATTTTAACTAGCCCCTTCGGCCCTTCCCATCGACATATATACGAAGAGACAAAACAACATATCAACAGAATGTCAGAATTACAGACACCACGCTTGACATGTCTGTGACGCAGACCATAGAGGATGTGTCATGTTCATGTGTCCAATGGGGGCAATGGTATTGCAAGGGCACAAAATACTGCTAACATGTTTCGTAGCGCTATAGGTTACAGAGGTCATGACGTTAT
5
+ tags:
6
+ - DNA
7
+ - biology
8
+ - genomics
9
+ ---
10
+ # Plant foundation DNA large language models
11
+
12
+ The plant DNA large language models (LLMs) contain a series of foundation models based on different model architectures, which are pre-trained on various plant reference genomes.
13
+ All the models have a comparable model size between 90 MB and 150 MB, BPE tokenizer is used for tokenization and 8000 tokens are included in the vocabulary.
14
+
15
+
16
+ **Developed by:** zhangtaolab
17
+
18
+ ### Model Sources
19
+
20
+ - **Repository:** [Plant DNA LLMs](https://github.com/zhangtaolab/plant_DNA_LLMs)
21
+ - **Manuscript:** [Versatile applications of foundation DNA language models in plant genomes]()
22
+
23
+ ### Architecture
24
+
25
+ The model is trained based on the State-Space Mamba-130m model with modified tokenizer specific for DNA sequence.
26
+
27
+ This model is fine-tuned for predicting H3K27me3 histone modification.
28
+
29
+
30
+ ### How to use
31
+
32
+ Install the runtime library first:
33
+ ```bash
34
+ pip install transformers
35
+ pip install causal-conv1d<=1.2.0
36
+ pip install mamba-ssm<2.0.0
37
+ ```
38
+
39
+ Since `transformers` library (version < 4.43.0) does not provide a MambaForSequenceClassification function, we wrote a script to train Mamba model for sequence classification.
40
+ An inference code can be found in our [GitHub](https://github.com/zhangtaolab/plant_DNA_LLMs).
41
+ Note that Plant DNAMamba model requires NVIDIA GPU to run.
42
+
43
+
44
+ ### Training data
45
+ We use a custom MambaForSequenceClassification script to fine-tune the model.
46
+ Detailed training procedure can be found in our manuscript.
47
+
48
+
49
+ #### Hardware
50
+ Model was trained on a NVIDIA GTX4090 GPU (24 GB).
51
+
config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"d_model": 768, "n_layer": 24, "vocab_size": 1035, "ssm_cfg": {}, "rms_norm": true, "residual_in_fp32": true, "fused_add_norm": true, "pad_vocab_size_multiple": 1, "tie_embeddings": true}
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eae5db7d9e9c3b96cfb9fa55f2921dabf9844960bf2ae6589c6a1e328b09473c
3
+ size 365359642
special_tokens_map.json ADDED
@@ -0,0 +1,30 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "<cls>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "<mask>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "<pad>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "unk_token": {
24
+ "content": "<unk>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ }
30
+ }
test_metrics.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {'test_loss': 0.4697748124599457, 'test_accuracy': 0.7734751203852327, 'test_f1': 0.7835506134969326, 'test_precision': 0.7501835535976505, 'test_recall': 0.820024077046549, 'test_matthews_correlation': 0.5493360300774353, 'test_runtime': 31.2722, 'test_samples_per_second': 318.749, 'test_steps_per_second': 19.922}
tokenizer_config.json ADDED
@@ -0,0 +1,44 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<unk>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "<mask>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<cls>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ }
35
+ },
36
+ "clean_up_tokenization_spaces": true,
37
+ "cls_token": "<cls>",
38
+ "eos_token": null,
39
+ "mask_token": "<mask>",
40
+ "model_max_length": 512,
41
+ "pad_token": "<pad>",
42
+ "tokenizer_class": "EsmTokenizer",
43
+ "unk_token": "<unk>"
44
+ }
vocab.txt ADDED
@@ -0,0 +1,1035 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ <unk>
2
+ <pad>
3
+ <mask>
4
+ <cls>
5
+ AAAAA
6
+ AAAAT
7
+ AAAAC
8
+ AAAAG
9
+ AAATA
10
+ AAATT
11
+ AAATC
12
+ AAATG
13
+ AAACA
14
+ AAACT
15
+ AAACC
16
+ AAACG
17
+ AAAGA
18
+ AAAGT
19
+ AAAGC
20
+ AAAGG
21
+ AATAA
22
+ AATAT
23
+ AATAC
24
+ AATAG
25
+ AATTA
26
+ AATTT
27
+ AATTC
28
+ AATTG
29
+ AATCA
30
+ AATCT
31
+ AATCC
32
+ AATCG
33
+ AATGA
34
+ AATGT
35
+ AATGC
36
+ AATGG
37
+ AACAA
38
+ AACAT
39
+ AACAC
40
+ AACAG
41
+ AACTA
42
+ AACTT
43
+ AACTC
44
+ AACTG
45
+ AACCA
46
+ AACCT
47
+ AACCC
48
+ AACCG
49
+ AACGA
50
+ AACGT
51
+ AACGC
52
+ AACGG
53
+ AAGAA
54
+ AAGAT
55
+ AAGAC
56
+ AAGAG
57
+ AAGTA
58
+ AAGTT
59
+ AAGTC
60
+ AAGTG
61
+ AAGCA
62
+ AAGCT
63
+ AAGCC
64
+ AAGCG
65
+ AAGGA
66
+ AAGGT
67
+ AAGGC
68
+ AAGGG
69
+ ATAAA
70
+ ATAAT
71
+ ATAAC
72
+ ATAAG
73
+ ATATA
74
+ ATATT
75
+ ATATC
76
+ ATATG
77
+ ATACA
78
+ ATACT
79
+ ATACC
80
+ ATACG
81
+ ATAGA
82
+ ATAGT
83
+ ATAGC
84
+ ATAGG
85
+ ATTAA
86
+ ATTAT
87
+ ATTAC
88
+ ATTAG
89
+ ATTTA
90
+ ATTTT
91
+ ATTTC
92
+ ATTTG
93
+ ATTCA
94
+ ATTCT
95
+ ATTCC
96
+ ATTCG
97
+ ATTGA
98
+ ATTGT
99
+ ATTGC
100
+ ATTGG
101
+ ATCAA
102
+ ATCAT
103
+ ATCAC
104
+ ATCAG
105
+ ATCTA
106
+ ATCTT
107
+ ATCTC
108
+ ATCTG
109
+ ATCCA
110
+ ATCCT
111
+ ATCCC
112
+ ATCCG
113
+ ATCGA
114
+ ATCGT
115
+ ATCGC
116
+ ATCGG
117
+ ATGAA
118
+ ATGAT
119
+ ATGAC
120
+ ATGAG
121
+ ATGTA
122
+ ATGTT
123
+ ATGTC
124
+ ATGTG
125
+ ATGCA
126
+ ATGCT
127
+ ATGCC
128
+ ATGCG
129
+ ATGGA
130
+ ATGGT
131
+ ATGGC
132
+ ATGGG
133
+ ACAAA
134
+ ACAAT
135
+ ACAAC
136
+ ACAAG
137
+ ACATA
138
+ ACATT
139
+ ACATC
140
+ ACATG
141
+ ACACA
142
+ ACACT
143
+ ACACC
144
+ ACACG
145
+ ACAGA
146
+ ACAGT
147
+ ACAGC
148
+ ACAGG
149
+ ACTAA
150
+ ACTAT
151
+ ACTAC
152
+ ACTAG
153
+ ACTTA
154
+ ACTTT
155
+ ACTTC
156
+ ACTTG
157
+ ACTCA
158
+ ACTCT
159
+ ACTCC
160
+ ACTCG
161
+ ACTGA
162
+ ACTGT
163
+ ACTGC
164
+ ACTGG
165
+ ACCAA
166
+ ACCAT
167
+ ACCAC
168
+ ACCAG
169
+ ACCTA
170
+ ACCTT
171
+ ACCTC
172
+ ACCTG
173
+ ACCCA
174
+ ACCCT
175
+ ACCCC
176
+ ACCCG
177
+ ACCGA
178
+ ACCGT
179
+ ACCGC
180
+ ACCGG
181
+ ACGAA
182
+ ACGAT
183
+ ACGAC
184
+ ACGAG
185
+ ACGTA
186
+ ACGTT
187
+ ACGTC
188
+ ACGTG
189
+ ACGCA
190
+ ACGCT
191
+ ACGCC
192
+ ACGCG
193
+ ACGGA
194
+ ACGGT
195
+ ACGGC
196
+ ACGGG
197
+ AGAAA
198
+ AGAAT
199
+ AGAAC
200
+ AGAAG
201
+ AGATA
202
+ AGATT
203
+ AGATC
204
+ AGATG
205
+ AGACA
206
+ AGACT
207
+ AGACC
208
+ AGACG
209
+ AGAGA
210
+ AGAGT
211
+ AGAGC
212
+ AGAGG
213
+ AGTAA
214
+ AGTAT
215
+ AGTAC
216
+ AGTAG
217
+ AGTTA
218
+ AGTTT
219
+ AGTTC
220
+ AGTTG
221
+ AGTCA
222
+ AGTCT
223
+ AGTCC
224
+ AGTCG
225
+ AGTGA
226
+ AGTGT
227
+ AGTGC
228
+ AGTGG
229
+ AGCAA
230
+ AGCAT
231
+ AGCAC
232
+ AGCAG
233
+ AGCTA
234
+ AGCTT
235
+ AGCTC
236
+ AGCTG
237
+ AGCCA
238
+ AGCCT
239
+ AGCCC
240
+ AGCCG
241
+ AGCGA
242
+ AGCGT
243
+ AGCGC
244
+ AGCGG
245
+ AGGAA
246
+ AGGAT
247
+ AGGAC
248
+ AGGAG
249
+ AGGTA
250
+ AGGTT
251
+ AGGTC
252
+ AGGTG
253
+ AGGCA
254
+ AGGCT
255
+ AGGCC
256
+ AGGCG
257
+ AGGGA
258
+ AGGGT
259
+ AGGGC
260
+ AGGGG
261
+ TAAAA
262
+ TAAAT
263
+ TAAAC
264
+ TAAAG
265
+ TAATA
266
+ TAATT
267
+ TAATC
268
+ TAATG
269
+ TAACA
270
+ TAACT
271
+ TAACC
272
+ TAACG
273
+ TAAGA
274
+ TAAGT
275
+ TAAGC
276
+ TAAGG
277
+ TATAA
278
+ TATAT
279
+ TATAC
280
+ TATAG
281
+ TATTA
282
+ TATTT
283
+ TATTC
284
+ TATTG
285
+ TATCA
286
+ TATCT
287
+ TATCC
288
+ TATCG
289
+ TATGA
290
+ TATGT
291
+ TATGC
292
+ TATGG
293
+ TACAA
294
+ TACAT
295
+ TACAC
296
+ TACAG
297
+ TACTA
298
+ TACTT
299
+ TACTC
300
+ TACTG
301
+ TACCA
302
+ TACCT
303
+ TACCC
304
+ TACCG
305
+ TACGA
306
+ TACGT
307
+ TACGC
308
+ TACGG
309
+ TAGAA
310
+ TAGAT
311
+ TAGAC
312
+ TAGAG
313
+ TAGTA
314
+ TAGTT
315
+ TAGTC
316
+ TAGTG
317
+ TAGCA
318
+ TAGCT
319
+ TAGCC
320
+ TAGCG
321
+ TAGGA
322
+ TAGGT
323
+ TAGGC
324
+ TAGGG
325
+ TTAAA
326
+ TTAAT
327
+ TTAAC
328
+ TTAAG
329
+ TTATA
330
+ TTATT
331
+ TTATC
332
+ TTATG
333
+ TTACA
334
+ TTACT
335
+ TTACC
336
+ TTACG
337
+ TTAGA
338
+ TTAGT
339
+ TTAGC
340
+ TTAGG
341
+ TTTAA
342
+ TTTAT
343
+ TTTAC
344
+ TTTAG
345
+ TTTTA
346
+ TTTTT
347
+ TTTTC
348
+ TTTTG
349
+ TTTCA
350
+ TTTCT
351
+ TTTCC
352
+ TTTCG
353
+ TTTGA
354
+ TTTGT
355
+ TTTGC
356
+ TTTGG
357
+ TTCAA
358
+ TTCAT
359
+ TTCAC
360
+ TTCAG
361
+ TTCTA
362
+ TTCTT
363
+ TTCTC
364
+ TTCTG
365
+ TTCCA
366
+ TTCCT
367
+ TTCCC
368
+ TTCCG
369
+ TTCGA
370
+ TTCGT
371
+ TTCGC
372
+ TTCGG
373
+ TTGAA
374
+ TTGAT
375
+ TTGAC
376
+ TTGAG
377
+ TTGTA
378
+ TTGTT
379
+ TTGTC
380
+ TTGTG
381
+ TTGCA
382
+ TTGCT
383
+ TTGCC
384
+ TTGCG
385
+ TTGGA
386
+ TTGGT
387
+ TTGGC
388
+ TTGGG
389
+ TCAAA
390
+ TCAAT
391
+ TCAAC
392
+ TCAAG
393
+ TCATA
394
+ TCATT
395
+ TCATC
396
+ TCATG
397
+ TCACA
398
+ TCACT
399
+ TCACC
400
+ TCACG
401
+ TCAGA
402
+ TCAGT
403
+ TCAGC
404
+ TCAGG
405
+ TCTAA
406
+ TCTAT
407
+ TCTAC
408
+ TCTAG
409
+ TCTTA
410
+ TCTTT
411
+ TCTTC
412
+ TCTTG
413
+ TCTCA
414
+ TCTCT
415
+ TCTCC
416
+ TCTCG
417
+ TCTGA
418
+ TCTGT
419
+ TCTGC
420
+ TCTGG
421
+ TCCAA
422
+ TCCAT
423
+ TCCAC
424
+ TCCAG
425
+ TCCTA
426
+ TCCTT
427
+ TCCTC
428
+ TCCTG
429
+ TCCCA
430
+ TCCCT
431
+ TCCCC
432
+ TCCCG
433
+ TCCGA
434
+ TCCGT
435
+ TCCGC
436
+ TCCGG
437
+ TCGAA
438
+ TCGAT
439
+ TCGAC
440
+ TCGAG
441
+ TCGTA
442
+ TCGTT
443
+ TCGTC
444
+ TCGTG
445
+ TCGCA
446
+ TCGCT
447
+ TCGCC
448
+ TCGCG
449
+ TCGGA
450
+ TCGGT
451
+ TCGGC
452
+ TCGGG
453
+ TGAAA
454
+ TGAAT
455
+ TGAAC
456
+ TGAAG
457
+ TGATA
458
+ TGATT
459
+ TGATC
460
+ TGATG
461
+ TGACA
462
+ TGACT
463
+ TGACC
464
+ TGACG
465
+ TGAGA
466
+ TGAGT
467
+ TGAGC
468
+ TGAGG
469
+ TGTAA
470
+ TGTAT
471
+ TGTAC
472
+ TGTAG
473
+ TGTTA
474
+ TGTTT
475
+ TGTTC
476
+ TGTTG
477
+ TGTCA
478
+ TGTCT
479
+ TGTCC
480
+ TGTCG
481
+ TGTGA
482
+ TGTGT
483
+ TGTGC
484
+ TGTGG
485
+ TGCAA
486
+ TGCAT
487
+ TGCAC
488
+ TGCAG
489
+ TGCTA
490
+ TGCTT
491
+ TGCTC
492
+ TGCTG
493
+ TGCCA
494
+ TGCCT
495
+ TGCCC
496
+ TGCCG
497
+ TGCGA
498
+ TGCGT
499
+ TGCGC
500
+ TGCGG
501
+ TGGAA
502
+ TGGAT
503
+ TGGAC
504
+ TGGAG
505
+ TGGTA
506
+ TGGTT
507
+ TGGTC
508
+ TGGTG
509
+ TGGCA
510
+ TGGCT
511
+ TGGCC
512
+ TGGCG
513
+ TGGGA
514
+ TGGGT
515
+ TGGGC
516
+ TGGGG
517
+ CAAAA
518
+ CAAAT
519
+ CAAAC
520
+ CAAAG
521
+ CAATA
522
+ CAATT
523
+ CAATC
524
+ CAATG
525
+ CAACA
526
+ CAACT
527
+ CAACC
528
+ CAACG
529
+ CAAGA
530
+ CAAGT
531
+ CAAGC
532
+ CAAGG
533
+ CATAA
534
+ CATAT
535
+ CATAC
536
+ CATAG
537
+ CATTA
538
+ CATTT
539
+ CATTC
540
+ CATTG
541
+ CATCA
542
+ CATCT
543
+ CATCC
544
+ CATCG
545
+ CATGA
546
+ CATGT
547
+ CATGC
548
+ CATGG
549
+ CACAA
550
+ CACAT
551
+ CACAC
552
+ CACAG
553
+ CACTA
554
+ CACTT
555
+ CACTC
556
+ CACTG
557
+ CACCA
558
+ CACCT
559
+ CACCC
560
+ CACCG
561
+ CACGA
562
+ CACGT
563
+ CACGC
564
+ CACGG
565
+ CAGAA
566
+ CAGAT
567
+ CAGAC
568
+ CAGAG
569
+ CAGTA
570
+ CAGTT
571
+ CAGTC
572
+ CAGTG
573
+ CAGCA
574
+ CAGCT
575
+ CAGCC
576
+ CAGCG
577
+ CAGGA
578
+ CAGGT
579
+ CAGGC
580
+ CAGGG
581
+ CTAAA
582
+ CTAAT
583
+ CTAAC
584
+ CTAAG
585
+ CTATA
586
+ CTATT
587
+ CTATC
588
+ CTATG
589
+ CTACA
590
+ CTACT
591
+ CTACC
592
+ CTACG
593
+ CTAGA
594
+ CTAGT
595
+ CTAGC
596
+ CTAGG
597
+ CTTAA
598
+ CTTAT
599
+ CTTAC
600
+ CTTAG
601
+ CTTTA
602
+ CTTTT
603
+ CTTTC
604
+ CTTTG
605
+ CTTCA
606
+ CTTCT
607
+ CTTCC
608
+ CTTCG
609
+ CTTGA
610
+ CTTGT
611
+ CTTGC
612
+ CTTGG
613
+ CTCAA
614
+ CTCAT
615
+ CTCAC
616
+ CTCAG
617
+ CTCTA
618
+ CTCTT
619
+ CTCTC
620
+ CTCTG
621
+ CTCCA
622
+ CTCCT
623
+ CTCCC
624
+ CTCCG
625
+ CTCGA
626
+ CTCGT
627
+ CTCGC
628
+ CTCGG
629
+ CTGAA
630
+ CTGAT
631
+ CTGAC
632
+ CTGAG
633
+ CTGTA
634
+ CTGTT
635
+ CTGTC
636
+ CTGTG
637
+ CTGCA
638
+ CTGCT
639
+ CTGCC
640
+ CTGCG
641
+ CTGGA
642
+ CTGGT
643
+ CTGGC
644
+ CTGGG
645
+ CCAAA
646
+ CCAAT
647
+ CCAAC
648
+ CCAAG
649
+ CCATA
650
+ CCATT
651
+ CCATC
652
+ CCATG
653
+ CCACA
654
+ CCACT
655
+ CCACC
656
+ CCACG
657
+ CCAGA
658
+ CCAGT
659
+ CCAGC
660
+ CCAGG
661
+ CCTAA
662
+ CCTAT
663
+ CCTAC
664
+ CCTAG
665
+ CCTTA
666
+ CCTTT
667
+ CCTTC
668
+ CCTTG
669
+ CCTCA
670
+ CCTCT
671
+ CCTCC
672
+ CCTCG
673
+ CCTGA
674
+ CCTGT
675
+ CCTGC
676
+ CCTGG
677
+ CCCAA
678
+ CCCAT
679
+ CCCAC
680
+ CCCAG
681
+ CCCTA
682
+ CCCTT
683
+ CCCTC
684
+ CCCTG
685
+ CCCCA
686
+ CCCCT
687
+ CCCCC
688
+ CCCCG
689
+ CCCGA
690
+ CCCGT
691
+ CCCGC
692
+ CCCGG
693
+ CCGAA
694
+ CCGAT
695
+ CCGAC
696
+ CCGAG
697
+ CCGTA
698
+ CCGTT
699
+ CCGTC
700
+ CCGTG
701
+ CCGCA
702
+ CCGCT
703
+ CCGCC
704
+ CCGCG
705
+ CCGGA
706
+ CCGGT
707
+ CCGGC
708
+ CCGGG
709
+ CGAAA
710
+ CGAAT
711
+ CGAAC
712
+ CGAAG
713
+ CGATA
714
+ CGATT
715
+ CGATC
716
+ CGATG
717
+ CGACA
718
+ CGACT
719
+ CGACC
720
+ CGACG
721
+ CGAGA
722
+ CGAGT
723
+ CGAGC
724
+ CGAGG
725
+ CGTAA
726
+ CGTAT
727
+ CGTAC
728
+ CGTAG
729
+ CGTTA
730
+ CGTTT
731
+ CGTTC
732
+ CGTTG
733
+ CGTCA
734
+ CGTCT
735
+ CGTCC
736
+ CGTCG
737
+ CGTGA
738
+ CGTGT
739
+ CGTGC
740
+ CGTGG
741
+ CGCAA
742
+ CGCAT
743
+ CGCAC
744
+ CGCAG
745
+ CGCTA
746
+ CGCTT
747
+ CGCTC
748
+ CGCTG
749
+ CGCCA
750
+ CGCCT
751
+ CGCCC
752
+ CGCCG
753
+ CGCGA
754
+ CGCGT
755
+ CGCGC
756
+ CGCGG
757
+ CGGAA
758
+ CGGAT
759
+ CGGAC
760
+ CGGAG
761
+ CGGTA
762
+ CGGTT
763
+ CGGTC
764
+ CGGTG
765
+ CGGCA
766
+ CGGCT
767
+ CGGCC
768
+ CGGCG
769
+ CGGGA
770
+ CGGGT
771
+ CGGGC
772
+ CGGGG
773
+ GAAAA
774
+ GAAAT
775
+ GAAAC
776
+ GAAAG
777
+ GAATA
778
+ GAATT
779
+ GAATC
780
+ GAATG
781
+ GAACA
782
+ GAACT
783
+ GAACC
784
+ GAACG
785
+ GAAGA
786
+ GAAGT
787
+ GAAGC
788
+ GAAGG
789
+ GATAA
790
+ GATAT
791
+ GATAC
792
+ GATAG
793
+ GATTA
794
+ GATTT
795
+ GATTC
796
+ GATTG
797
+ GATCA
798
+ GATCT
799
+ GATCC
800
+ GATCG
801
+ GATGA
802
+ GATGT
803
+ GATGC
804
+ GATGG
805
+ GACAA
806
+ GACAT
807
+ GACAC
808
+ GACAG
809
+ GACTA
810
+ GACTT
811
+ GACTC
812
+ GACTG
813
+ GACCA
814
+ GACCT
815
+ GACCC
816
+ GACCG
817
+ GACGA
818
+ GACGT
819
+ GACGC
820
+ GACGG
821
+ GAGAA
822
+ GAGAT
823
+ GAGAC
824
+ GAGAG
825
+ GAGTA
826
+ GAGTT
827
+ GAGTC
828
+ GAGTG
829
+ GAGCA
830
+ GAGCT
831
+ GAGCC
832
+ GAGCG
833
+ GAGGA
834
+ GAGGT
835
+ GAGGC
836
+ GAGGG
837
+ GTAAA
838
+ GTAAT
839
+ GTAAC
840
+ GTAAG
841
+ GTATA
842
+ GTATT
843
+ GTATC
844
+ GTATG
845
+ GTACA
846
+ GTACT
847
+ GTACC
848
+ GTACG
849
+ GTAGA
850
+ GTAGT
851
+ GTAGC
852
+ GTAGG
853
+ GTTAA
854
+ GTTAT
855
+ GTTAC
856
+ GTTAG
857
+ GTTTA
858
+ GTTTT
859
+ GTTTC
860
+ GTTTG
861
+ GTTCA
862
+ GTTCT
863
+ GTTCC
864
+ GTTCG
865
+ GTTGA
866
+ GTTGT
867
+ GTTGC
868
+ GTTGG
869
+ GTCAA
870
+ GTCAT
871
+ GTCAC
872
+ GTCAG
873
+ GTCTA
874
+ GTCTT
875
+ GTCTC
876
+ GTCTG
877
+ GTCCA
878
+ GTCCT
879
+ GTCCC
880
+ GTCCG
881
+ GTCGA
882
+ GTCGT
883
+ GTCGC
884
+ GTCGG
885
+ GTGAA
886
+ GTGAT
887
+ GTGAC
888
+ GTGAG
889
+ GTGTA
890
+ GTGTT
891
+ GTGTC
892
+ GTGTG
893
+ GTGCA
894
+ GTGCT
895
+ GTGCC
896
+ GTGCG
897
+ GTGGA
898
+ GTGGT
899
+ GTGGC
900
+ GTGGG
901
+ GCAAA
902
+ GCAAT
903
+ GCAAC
904
+ GCAAG
905
+ GCATA
906
+ GCATT
907
+ GCATC
908
+ GCATG
909
+ GCACA
910
+ GCACT
911
+ GCACC
912
+ GCACG
913
+ GCAGA
914
+ GCAGT
915
+ GCAGC
916
+ GCAGG
917
+ GCTAA
918
+ GCTAT
919
+ GCTAC
920
+ GCTAG
921
+ GCTTA
922
+ GCTTT
923
+ GCTTC
924
+ GCTTG
925
+ GCTCA
926
+ GCTCT
927
+ GCTCC
928
+ GCTCG
929
+ GCTGA
930
+ GCTGT
931
+ GCTGC
932
+ GCTGG
933
+ GCCAA
934
+ GCCAT
935
+ GCCAC
936
+ GCCAG
937
+ GCCTA
938
+ GCCTT
939
+ GCCTC
940
+ GCCTG
941
+ GCCCA
942
+ GCCCT
943
+ GCCCC
944
+ GCCCG
945
+ GCCGA
946
+ GCCGT
947
+ GCCGC
948
+ GCCGG
949
+ GCGAA
950
+ GCGAT
951
+ GCGAC
952
+ GCGAG
953
+ GCGTA
954
+ GCGTT
955
+ GCGTC
956
+ GCGTG
957
+ GCGCA
958
+ GCGCT
959
+ GCGCC
960
+ GCGCG
961
+ GCGGA
962
+ GCGGT
963
+ GCGGC
964
+ GCGGG
965
+ GGAAA
966
+ GGAAT
967
+ GGAAC
968
+ GGAAG
969
+ GGATA
970
+ GGATT
971
+ GGATC
972
+ GGATG
973
+ GGACA
974
+ GGACT
975
+ GGACC
976
+ GGACG
977
+ GGAGA
978
+ GGAGT
979
+ GGAGC
980
+ GGAGG
981
+ GGTAA
982
+ GGTAT
983
+ GGTAC
984
+ GGTAG
985
+ GGTTA
986
+ GGTTT
987
+ GGTTC
988
+ GGTTG
989
+ GGTCA
990
+ GGTCT
991
+ GGTCC
992
+ GGTCG
993
+ GGTGA
994
+ GGTGT
995
+ GGTGC
996
+ GGTGG
997
+ GGCAA
998
+ GGCAT
999
+ GGCAC
1000
+ GGCAG
1001
+ GGCTA
1002
+ GGCTT
1003
+ GGCTC
1004
+ GGCTG
1005
+ GGCCA
1006
+ GGCCT
1007
+ GGCCC
1008
+ GGCCG
1009
+ GGCGA
1010
+ GGCGT
1011
+ GGCGC
1012
+ GGCGG
1013
+ GGGAA
1014
+ GGGAT
1015
+ GGGAC
1016
+ GGGAG
1017
+ GGGTA
1018
+ GGGTT
1019
+ GGGTC
1020
+ GGGTG
1021
+ GGGCA
1022
+ GGGCT
1023
+ GGGCC
1024
+ GGGCG
1025
+ GGGGA
1026
+ GGGGT
1027
+ GGGGC
1028
+ GGGGG
1029
+ A
1030
+ T
1031
+ C
1032
+ G
1033
+ N
1034
+ <eos>
1035
+ <bos>