File size: 6,145 Bytes
a4208a2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
[
  {
    "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
    "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
    "diff": [
      "replace   text[36:37] --> decoded_text[36:37]      '!' --> '!'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.02702702702702703,
    "oov_charset": "[\"!\"]"
  },
  {
    "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
    "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整<unk>されてる<unk>央道を越えるとお世話になってるボウリング場が見えて来ました。",
    "diff": [
      "replace   text[31:32] --> decoded_text[31:36]      '備' --> '<unk>'",
      "replace   text[36:37] --> decoded_text[40:45]      '圏' --> '<unk>'"
    ],
    "n_oov_chars": 2,
    "oov_ratio": 0.029850746268656716,
    "oov_charset": "[\"備\", \"圏\"]"
  },
  {
    "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
    "decoded_text": "う<unk>〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
    "diff": [
      "replace   text[1:2] --> decoded_text[1:6]      'ぅ' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.021739130434782608,
    "oov_charset": "[\"ぅ\"]"
  },
  {
    "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
    "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
    "diff": [
      "replace   text[3:4] --> decoded_text[3:4]      '1' --> '1'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.02040816326530612,
    "oov_charset": "[\"1\"]"
  },
  {
    "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
    "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの<unk>断をもらっていました。",
    "diff": [
      "replace   text[31:32] --> decoded_text[31:36]      '診' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.023255813953488372,
    "oov_charset": "[\"診\"]"
  },
  {
    "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
    "decoded_text": "ただ、これまでお散<unk>仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
    "diff": [
      "replace   text[9:10] --> decoded_text[9:14]      '歩' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.016666666666666666,
    "oov_charset": "[\"歩\"]"
  },
  {
    "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
    "decoded_text": "昔はヒアルロン酸の目<unk>なども<unk>方されてたようですが、これが<unk>く事はないそうです。",
    "diff": [
      "replace   text[10:11] --> decoded_text[10:15]      '薬' --> '<unk>'",
      "replace   text[14:15] --> decoded_text[18:23]      '処' --> '<unk>'",
      "replace   text[29:30] --> decoded_text[37:42]      '効' --> '<unk>'"
    ],
    "n_oov_chars": 3,
    "oov_ratio": 0.075,
    "oov_charset": "[\"薬\", \"処\", \"効\"]"
  },
  {
    "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
    "decoded_text": "なので、エルディとのお散<unk>でも<unk>れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
    "diff": [
      "replace   text[12:13] --> decoded_text[12:17]      '歩' --> '<unk>'",
      "replace   text[15:16] --> decoded_text[19:24]      '訪' --> '<unk>'",
      "replace   text[35:36] --> decoded_text[43:44]      '5' --> '5'",
      "replace   text[51:52] --> decoded_text[59:60]      '1' --> '1'"
    ],
    "n_oov_chars": 4,
    "oov_ratio": 0.0625,
    "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]"
  },
  {
    "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
    "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで<unk>け<unk>けていくのを目の当たりにしてちょっとビビっておりました",
    "diff": [
      "replace   text[41:42] --> decoded_text[41:46]      '駆' --> '<unk>'",
      "replace   text[43:44] --> decoded_text[47:52]      '抜' --> '<unk>'"
    ],
    "n_oov_chars": 2,
    "oov_ratio": 0.028169014084507043,
    "oov_charset": "[\"駆\", \"抜\"]"
  },
  {
    "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
    "decoded_text": "彼らには<unk>対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
    "diff": [
      "replace   text[4:5] --> decoded_text[4:9]      '絶' --> '<unk>'"
    ],
    "n_oov_chars": 1,
    "oov_ratio": 0.025,
    "oov_charset": "[\"絶\"]"
  }
]