语料未清洗案例1

#18
by lupumusic - opened

In [18]: print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))
请介绍一下江西省上饶市?回答:江西的“南大门”
#头条创作挑战赛##旅游##我要上 头条##今日头条日签##城市#在我国,有许多省份都有一个别称。比如山东被称为齐鲁大地、河南称为中原之地等等。而今天我们要说的这个地方也有个别名——赣 鄱明珠!它就是位于江西省东北部的上饶市。那么接下来就让我们一起走进这座美丽的江南小城吧~一.地理位置与地形概况1.地理位置上饶地处武夷山脉和怀玉山脉之间,是长江三角洲经济区的重要组成部分。

#头条创作挑战赛##旅游##我要上 头条##今日头条日签##城市# 显然要清洗掉

问了下chatGPT,清洗效果不错:
这是一条语料,存在需要清洗去掉的内容。请给我清洗后的结果。 #头条创作挑战赛##旅游##我要上 头条##今日头条日签##城市#在我国,有许多省份都有一个别称。比如山东被称为齐鲁大地、河南称为中原之地等等。而今天我们要说的这个地方也有个别名——赣 鄱明珠!它就是位于江西省东北部的上饶市。那么接下来就让我们一起走进这座美丽的江南小城吧~一.地理位置与地形概况1.地理位置上饶地处武夷山脉和怀玉山脉之间,是长江三角洲经济区的重要组成部分。
回答:
这是一条语料,需要清洗去掉的内容已经移除。以下是清洗后的结果:

在我国,有许多省份都有一个别称。比如山东被称为齐鲁大地、河南称为中原之地等等。而今天我们要说的这个地方也有个别名——赣鄱明珠!它就是位于江西省东北部的上饶市。那么接下来就让我们一起走进这座美丽的江南小城吧~一.地理位置与地形概况1.地理位置上饶地处武夷山脉和怀玉山脉之间,是长江三角洲经济区的重要组成部分。

我也发现了。比如:

<img src="https://iknow-pic.cdn.bcebsosn/.....

+1,用了微博的数据,清洗的有点着急了
Input:请 你是一个现代诗人,请你写一段关于爱情 清晨 的诗
你是一个现代诗人,请你写一段关于爱情 清晨 的诗
新浪微博QQ空间
我喜欢早晨的阳光,因为它能照亮我的心房。

+1,用了微博的数据,清洗的有点着急了
Input:请 你是一个现代诗人,请你写一段关于爱情 清晨 的诗
你是一个现代诗人,请你写一段关于爱情 清晨 的诗
新浪微博QQ空间
我喜欢早晨的阳光,因为它能照亮我的心房。

这应该是网站的 分享到: 新浪微博、QQ空间的分享链接的文字吧

对于语料的生吞活剥

Sign up or log in to comment