tokenizer-arena / stats /compression_rate /ClassCat.gpt2-base-french @ cc100.fr.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
"decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'"
],
"n_oov_chars": 1,
"oov_ratio": 0.007751937984496124,
"oov_charset": "[\"B\"]"
},
{
"text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
"decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'"
],
"n_oov_chars": 1,
"oov_ratio": 0.011764705882352941,
"oov_charset": "[\"V\"]"
},
{
"text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
"decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
"diff": [
"replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
],
"n_oov_chars": 1,
"oov_ratio": 0.014705882352941176,
"oov_charset": "[\"E\"]"
},
{
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
"decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
],
"n_oov_chars": 1,
"oov_ratio": 0.004098360655737705,
"oov_charset": "[\"J\"]"
},
{
"text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
"decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
"replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'"
],
"n_oov_chars": 2,
"oov_ratio": 0.008547008547008548,
"oov_charset": "[\"J\", \"P\"]"
},
{
"text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
"decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
"replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'"
],
"n_oov_chars": 2,
"oov_ratio": 0.010416666666666666,
"oov_charset": "[\"J\", \"E\"]"
},
{
"text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée",
"decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
"replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'"
],
"n_oov_chars": 2,
"oov_ratio": 0.012738853503184714,
"oov_charset": "[\"J\", \"I\"]"
},
{
"text": "- Je dois être mentalement instable, par moments",
"decoded_text": "- je dois être mentalement instable, par moments",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
],
"n_oov_chars": 1,
"oov_ratio": 0.020833333333333332,
"oov_charset": "[\"J\"]"
},
{
"text": "- Je n'envoie que très peu de sms et n'appelle personne",
"decoded_text": "- je n'envoie que très peu de sms et n'appelle personne",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
],
"n_oov_chars": 1,
"oov_ratio": 0.01818181818181818,
"oov_charset": "[\"J\"]"
},
{
"text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
"decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
"diff": [
"replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
],
"n_oov_chars": 1,
"oov_ratio": 0.006711409395973154,
"oov_charset": "[\"J\"]"
}
]