AngelPanizo commited on
Commit
add7192
·
verified ·
1 Parent(s): 68cbb6a

Add BERTopic model

Browse files
README.md ADDED
@@ -0,0 +1,74 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ tags:
4
+ - bertopic
5
+ library_name: bertopic
6
+ pipeline_tag: text-classification
7
+ ---
8
+
9
+ # MARTINI_enrich_BERTopic_AwakenedOutlaw
10
+
11
+ This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
12
+ BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
13
+
14
+ ## Usage
15
+
16
+ To use this model, please install BERTopic:
17
+
18
+ ```
19
+ pip install -U bertopic
20
+ ```
21
+
22
+ You can use the model as follows:
23
+
24
+ ```python
25
+ from bertopic import BERTopic
26
+ topic_model = BERTopic.load("AIDA-UPM/MARTINI_enrich_BERTopic_AwakenedOutlaw")
27
+
28
+ topic_model.get_topic_info()
29
+ ```
30
+
31
+ ## Topic overview
32
+
33
+ * Number of topics: 5
34
+ * Number of training documents: 475
35
+
36
+ <details>
37
+ <summary>Click here for an overview of all topics.</summary>
38
+
39
+ | Topic ID | Topic Keywords | Topic Frequency | Label |
40
+ |----------|----------------|-----------------|-------|
41
+ | -1 | obama - democrats - michelle - pedophile - everyone | 27 | -1_obama_democrats_michelle_pedophile |
42
+ | 0 | leftists - globalist - freedom - everything - damn | 239 | 0_leftists_globalist_freedom_everything |
43
+ | 1 | doj - pelosi - testifying - presidency - corrupt | 152 | 1_doj_pelosi_testifying_presidency |
44
+ | 2 | zelensky - globalist - boris - tucker - gonzalo | 29 | 2_zelensky_globalist_boris_tucker |
45
+ | 3 | desantis - vote - republican - dumb - opponents | 28 | 3_desantis_vote_republican_dumb |
46
+
47
+ </details>
48
+
49
+ ## Training hyperparameters
50
+
51
+ * calculate_probabilities: True
52
+ * language: None
53
+ * low_memory: False
54
+ * min_topic_size: 10
55
+ * n_gram_range: (1, 1)
56
+ * nr_topics: None
57
+ * seed_topic_list: None
58
+ * top_n_words: 10
59
+ * verbose: False
60
+ * zeroshot_min_similarity: 0.7
61
+ * zeroshot_topic_list: None
62
+
63
+ ## Framework versions
64
+
65
+ * Numpy: 1.26.4
66
+ * HDBSCAN: 0.8.40
67
+ * UMAP: 0.5.7
68
+ * Pandas: 2.2.3
69
+ * Scikit-Learn: 1.5.2
70
+ * Sentence-transformers: 3.3.1
71
+ * Transformers: 4.46.3
72
+ * Numba: 0.60.0
73
+ * Plotly: 5.24.1
74
+ * Python: 3.10.12
config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "calculate_probabilities": true,
3
+ "language": null,
4
+ "low_memory": false,
5
+ "min_topic_size": 10,
6
+ "n_gram_range": [
7
+ 1,
8
+ 1
9
+ ],
10
+ "nr_topics": null,
11
+ "seed_topic_list": null,
12
+ "top_n_words": 10,
13
+ "verbose": false,
14
+ "zeroshot_min_similarity": 0.7,
15
+ "zeroshot_topic_list": null
16
+ }
ctfidf.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c7a48a6f2f6d6eefa558dfef1f0c56091e3fb4899eefdaa7b5e42184894861a2
3
+ size 131356
ctfidf_config.json ADDED
The diff for this file is too large to render. See raw diff
 
topic_embeddings.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dbb49aafe02ec0de3d6e178e4c4c0b3df390d6faa6abf43abe07621e03bfdc25
3
+ size 20568
topics.json ADDED
@@ -0,0 +1,635 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "topic_representations": {
3
+ "-1": [
4
+ [
5
+ "obama",
6
+ 0.5628839731216431
7
+ ],
8
+ [
9
+ "democrats",
10
+ 0.508961021900177
11
+ ],
12
+ [
13
+ "michelle",
14
+ 0.48871469497680664
15
+ ],
16
+ [
17
+ "pedophile",
18
+ 0.4563555419445038
19
+ ],
20
+ [
21
+ "everyone",
22
+ 0.4552122950553894
23
+ ]
24
+ ],
25
+ "0": [
26
+ [
27
+ "leftists",
28
+ 0.5821783542633057
29
+ ],
30
+ [
31
+ "globalist",
32
+ 0.5366305112838745
33
+ ],
34
+ [
35
+ "freedom",
36
+ 0.5056643486022949
37
+ ],
38
+ [
39
+ "everything",
40
+ 0.489115834236145
41
+ ],
42
+ [
43
+ "damn",
44
+ 0.47751957178115845
45
+ ]
46
+ ],
47
+ "1": [
48
+ [
49
+ "doj",
50
+ 0.5824503302574158
51
+ ],
52
+ [
53
+ "pelosi",
54
+ 0.5214692950248718
55
+ ],
56
+ [
57
+ "testifying",
58
+ 0.49994760751724243
59
+ ],
60
+ [
61
+ "presidency",
62
+ 0.48891711235046387
63
+ ],
64
+ [
65
+ "corrupt",
66
+ 0.4556235074996948
67
+ ]
68
+ ],
69
+ "2": [
70
+ [
71
+ "zelensky",
72
+ 0.5839357376098633
73
+ ],
74
+ [
75
+ "globalist",
76
+ 0.5244932174682617
77
+ ],
78
+ [
79
+ "boris",
80
+ 0.5027751922607422
81
+ ],
82
+ [
83
+ "tucker",
84
+ 0.48106610774993896
85
+ ],
86
+ [
87
+ "gonzalo",
88
+ 0.4682276248931885
89
+ ]
90
+ ],
91
+ "3": [
92
+ [
93
+ "desantis",
94
+ 0.5140770673751831
95
+ ],
96
+ [
97
+ "vote",
98
+ 0.48935818672180176
99
+ ],
100
+ [
101
+ "republican",
102
+ 0.48334789276123047
103
+ ],
104
+ [
105
+ "dumb",
106
+ 0.4616287052631378
107
+ ],
108
+ [
109
+ "opponents",
110
+ 0.4580000042915344
111
+ ]
112
+ ]
113
+ },
114
+ "topics": [
115
+ 1,
116
+ -1,
117
+ -1,
118
+ -1,
119
+ -1,
120
+ -1,
121
+ -1,
122
+ 0,
123
+ -1,
124
+ 2,
125
+ 3,
126
+ 2,
127
+ -1,
128
+ 2,
129
+ 0,
130
+ 0,
131
+ -1,
132
+ 2,
133
+ -1,
134
+ 0,
135
+ -1,
136
+ -1,
137
+ 2,
138
+ 0,
139
+ -1,
140
+ 0,
141
+ 0,
142
+ -1,
143
+ 0,
144
+ -1,
145
+ -1,
146
+ -1,
147
+ -1,
148
+ -1,
149
+ -1,
150
+ 0,
151
+ 0,
152
+ -1,
153
+ 2,
154
+ 2,
155
+ 0,
156
+ 2,
157
+ 0,
158
+ -1,
159
+ 0,
160
+ -1,
161
+ -1,
162
+ 2,
163
+ -1,
164
+ -1,
165
+ -1,
166
+ 3,
167
+ 3,
168
+ 3,
169
+ 3,
170
+ -1,
171
+ 3,
172
+ -1,
173
+ -1,
174
+ -1,
175
+ -1,
176
+ 2,
177
+ 1,
178
+ 0,
179
+ 0,
180
+ 1,
181
+ 2,
182
+ -1,
183
+ -1,
184
+ -1,
185
+ 2,
186
+ 0,
187
+ -1,
188
+ 2,
189
+ -1,
190
+ 1,
191
+ -1,
192
+ -1,
193
+ -1,
194
+ 0,
195
+ -1,
196
+ -1,
197
+ -1,
198
+ 2,
199
+ -1,
200
+ 2,
201
+ -1,
202
+ 0,
203
+ -1,
204
+ 0,
205
+ 0,
206
+ -1,
207
+ -1,
208
+ -1,
209
+ -1,
210
+ -1,
211
+ 3,
212
+ 3,
213
+ 0,
214
+ -1,
215
+ 0,
216
+ 0,
217
+ 0,
218
+ -1,
219
+ -1,
220
+ 0,
221
+ -1,
222
+ 0,
223
+ -1,
224
+ 2,
225
+ -1,
226
+ -1,
227
+ 1,
228
+ 3,
229
+ -1,
230
+ -1,
231
+ 0,
232
+ -1,
233
+ -1,
234
+ -1,
235
+ 0,
236
+ -1,
237
+ -1,
238
+ -1,
239
+ 0,
240
+ 0,
241
+ 2,
242
+ 0,
243
+ -1,
244
+ 0,
245
+ 2,
246
+ 0,
247
+ 1,
248
+ 0,
249
+ -1,
250
+ -1,
251
+ 0,
252
+ 3,
253
+ -1,
254
+ -1,
255
+ 3,
256
+ -1,
257
+ -1,
258
+ -1,
259
+ 0,
260
+ 1,
261
+ -1,
262
+ 0,
263
+ -1,
264
+ 0,
265
+ -1,
266
+ -1,
267
+ -1,
268
+ 0,
269
+ -1,
270
+ -1,
271
+ 0,
272
+ -1,
273
+ -1,
274
+ -1,
275
+ -1,
276
+ -1,
277
+ -1,
278
+ -1,
279
+ 3,
280
+ -1,
281
+ 0,
282
+ 0,
283
+ 0,
284
+ 3,
285
+ -1,
286
+ -1,
287
+ -1,
288
+ 0,
289
+ -1,
290
+ -1,
291
+ -1,
292
+ 3,
293
+ 0,
294
+ 0,
295
+ 0,
296
+ 0,
297
+ 0,
298
+ -1,
299
+ -1,
300
+ 0,
301
+ -1,
302
+ -1,
303
+ 1,
304
+ -1,
305
+ 0,
306
+ 0,
307
+ -1,
308
+ -1,
309
+ -1,
310
+ 2,
311
+ -1,
312
+ -1,
313
+ -1,
314
+ 0,
315
+ -1,
316
+ 0,
317
+ 3,
318
+ 0,
319
+ 0,
320
+ 0,
321
+ 0,
322
+ 0,
323
+ -1,
324
+ 2,
325
+ 2,
326
+ 0,
327
+ -1,
328
+ -1,
329
+ 3,
330
+ 2,
331
+ 0,
332
+ -1,
333
+ -1,
334
+ 0,
335
+ 1,
336
+ 0,
337
+ -1,
338
+ 2,
339
+ 3,
340
+ 3,
341
+ 2,
342
+ -1,
343
+ -1,
344
+ 0,
345
+ -1,
346
+ 2,
347
+ -1,
348
+ -1,
349
+ -1,
350
+ 0,
351
+ -1,
352
+ -1,
353
+ 0,
354
+ -1,
355
+ -1,
356
+ -1,
357
+ -1,
358
+ -1,
359
+ -1,
360
+ 2,
361
+ -1,
362
+ 1,
363
+ -1,
364
+ 1,
365
+ 0,
366
+ -1,
367
+ 0,
368
+ -1,
369
+ -1,
370
+ -1,
371
+ -1,
372
+ -1,
373
+ 3,
374
+ -1,
375
+ 0,
376
+ -1,
377
+ -1,
378
+ 0,
379
+ -1,
380
+ 0,
381
+ -1,
382
+ 1,
383
+ -1,
384
+ 0,
385
+ 0,
386
+ 0,
387
+ -1,
388
+ 0,
389
+ -1,
390
+ -1,
391
+ -1,
392
+ 0,
393
+ -1,
394
+ 3,
395
+ 0,
396
+ -1,
397
+ 0,
398
+ -1,
399
+ 0,
400
+ 0,
401
+ -1,
402
+ 0,
403
+ 3,
404
+ -1,
405
+ 0,
406
+ 0,
407
+ 3,
408
+ 0,
409
+ 0,
410
+ -1,
411
+ -1,
412
+ -1,
413
+ -1,
414
+ 0,
415
+ -1,
416
+ 0,
417
+ 3,
418
+ -1,
419
+ -1,
420
+ 0,
421
+ -1,
422
+ -1,
423
+ -1,
424
+ -1,
425
+ -1,
426
+ -1,
427
+ 0,
428
+ 0,
429
+ -1,
430
+ -1,
431
+ -1,
432
+ -1,
433
+ 0,
434
+ -1,
435
+ -1,
436
+ -1,
437
+ -1,
438
+ 2,
439
+ 1,
440
+ -1,
441
+ -1,
442
+ -1,
443
+ 1,
444
+ -1,
445
+ -1,
446
+ 0,
447
+ 3,
448
+ -1,
449
+ 0,
450
+ 0,
451
+ 0,
452
+ -1,
453
+ -1,
454
+ -1,
455
+ -1,
456
+ -1,
457
+ 1,
458
+ -1,
459
+ -1,
460
+ 0,
461
+ 0,
462
+ 1,
463
+ -1,
464
+ 0,
465
+ -1,
466
+ -1,
467
+ 1,
468
+ 0,
469
+ -1,
470
+ 0,
471
+ 0,
472
+ -1,
473
+ -1,
474
+ 0,
475
+ 1,
476
+ 0,
477
+ 0,
478
+ -1,
479
+ -1,
480
+ -1,
481
+ 1,
482
+ 1,
483
+ 0,
484
+ 0,
485
+ 2,
486
+ -1,
487
+ 3,
488
+ -1,
489
+ 1,
490
+ -1,
491
+ -1,
492
+ 0,
493
+ 0,
494
+ 0,
495
+ -1,
496
+ -1,
497
+ 0,
498
+ -1,
499
+ -1,
500
+ -1,
501
+ 0,
502
+ 0,
503
+ 0,
504
+ -1,
505
+ -1,
506
+ 1,
507
+ 1,
508
+ 1,
509
+ -1,
510
+ 0,
511
+ -1,
512
+ 1,
513
+ -1,
514
+ -1,
515
+ -1,
516
+ 0,
517
+ -1,
518
+ 0,
519
+ -1,
520
+ -1,
521
+ 0,
522
+ -1,
523
+ -1,
524
+ -1,
525
+ -1,
526
+ -1,
527
+ 0,
528
+ 0,
529
+ -1,
530
+ 0,
531
+ -1,
532
+ 1,
533
+ -1,
534
+ -1,
535
+ 0,
536
+ 0,
537
+ 0,
538
+ 0,
539
+ -1,
540
+ 0,
541
+ 0,
542
+ 0,
543
+ 1,
544
+ 0,
545
+ 0,
546
+ 3,
547
+ 0,
548
+ 0,
549
+ -1,
550
+ 0,
551
+ -1,
552
+ -1,
553
+ -1,
554
+ 0,
555
+ 1,
556
+ 0,
557
+ 0,
558
+ 0,
559
+ 0,
560
+ 0,
561
+ -1,
562
+ -1,
563
+ 3,
564
+ 0,
565
+ 0,
566
+ 0,
567
+ 0,
568
+ 1,
569
+ -1,
570
+ -1,
571
+ 0,
572
+ 0,
573
+ -1,
574
+ 0,
575
+ 0,
576
+ 0,
577
+ -1,
578
+ 0,
579
+ -1,
580
+ -1,
581
+ -1,
582
+ 0,
583
+ 0,
584
+ 0,
585
+ -1,
586
+ -1,
587
+ -1,
588
+ -1,
589
+ 0
590
+ ],
591
+ "topic_sizes": {
592
+ "1": 29,
593
+ "-1": 239,
594
+ "0": 152,
595
+ "2": 28,
596
+ "3": 27
597
+ },
598
+ "topic_mapper": [
599
+ [
600
+ -1,
601
+ -1,
602
+ -1
603
+ ],
604
+ [
605
+ 0,
606
+ 0,
607
+ 2
608
+ ],
609
+ [
610
+ 1,
611
+ 1,
612
+ 0
613
+ ],
614
+ [
615
+ 2,
616
+ 2,
617
+ 1
618
+ ],
619
+ [
620
+ 3,
621
+ 3,
622
+ 3
623
+ ]
624
+ ],
625
+ "topic_labels": {
626
+ "-1": "-1_obama_democrats_michelle_pedophile",
627
+ "0": "0_leftists_globalist_freedom_everything",
628
+ "1": "1_doj_pelosi_testifying_presidency",
629
+ "2": "2_zelensky_globalist_boris_tucker",
630
+ "3": "3_desantis_vote_republican_dumb"
631
+ },
632
+ "custom_labels": null,
633
+ "_outliers": 1,
634
+ "topic_aspects": {}
635
+ }