{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import json\n", "import pandas as pd\n", "from tqdm.auto import tqdm\n", "tqdm.pandas()\n", "import numpy as np\n", "from glob import glob \n", "import re \n", "from nltk import word_tokenize as lib_tokenizer \n", "import math" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "df = pd.read_csv(\"../data/processed/wikipedia_20220620_cleaned_v2.csv\")\n", "train = json.load(open(\"../data/raw/e2eqa-train+public_test-v1/zac2022_train_merged_final.json\"))" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "for x in train['data']:\n", " x['dirty_text'] = None" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'Trang Chính': True,\n", " 'Internet Society': True,\n", " 'Tiếng Việt': True,\n", " 'Ohio': True,\n", " 'California': True,\n", " 'Thụy Điển': True,\n", " 'Thành phố Hồ Chí Minh': True,\n", " 'Lào Cai': True,\n", " 'W3C': True,\n", " 'Bộ Kế hoạch và Đầu tư (Việt Nam)': True,\n", " 'Lào': True,\n", " 'Hoa Kỳ': True,\n", " 'Hà Giang': True,\n", " 'Cao Bằng': True,\n", " 'Iraq': True,\n", " 'Hà Nội': True,\n", " 'Campuchia': True,\n", " 'VIQR': True,\n", " 'Việt Nam Cộng hòa': True,\n", " 'Sacramento, California': True,\n", " 'Los Angeles': True,\n", " 'San Francisco': True,\n", " 'San Diego': True,\n", " 'Người Mỹ gốc Việt': True,\n", " 'Giấy phép Tài liệu Tự do GNU': True,\n", " 'Lý Thường Kiệt': True,\n", " 'Quang Trung': True,\n", " 'Hồ Biểu Chánh': True,\n", " 'Bắc Kạn': True,\n", " 'Lạng Sơn': True,\n", " 'A': True,\n", " 'B': True,\n", " 'C': True,\n", " 'D': True,\n", " 'E': True,\n", " 'F': True,\n", " 'G': True,\n", " 'H': True,\n", " 'I': True,\n", " 'J': True,\n", " 'K': True,\n", " 'L': True,\n", " 'M': True,\n", " 'N': True,\n", " 'O': True,\n", " 'P': True,\n", " 'Q': True,\n", " 'R': True,\n", " 'S': True,\n", " 'T': True,\n", " 'U': True,\n", " 'V': True,\n", " 'W': True,\n", " 'X': True,\n", " 'Y': True,\n", " 'Z': True,\n", " 'Tuyên Quang': True,\n", " 'Unicode': True,\n", " '2003': True,\n", " 'Thăng Long': True,\n", " 'Lý Thái Tổ': True,\n", " 'Tiến quân ca': True,\n", " 'Đức': True,\n", " 'Liên Hợp Quốc': True,\n", " 'Trần Hưng Đạo': True,\n", " 'Hamid Karzai': True,\n", " 'Hoa (định hướng)': True,\n", " 'Tiếng Thụy Điển': True,\n", " 'Chiến tranh Việt Nam': True,\n", " 'New Orleans': True,\n", " 'Ngọc Lân': True,\n", " 'Ngọc Lan (định hướng)': True,\n", " '26 tháng 1': True,\n", " 'Tiếng Anh': True,\n", " 'Canada': True,\n", " 'Đài Tiếng nói Hoa Kỳ': True,\n", " 'Tháng 1 năm 2004': True,\n", " '1954': True,\n", " 'Đ': True,\n", " 'Trần Đức Lương': True,\n", " 'Québec': True,\n", " 'Saskatchewan': True,\n", " 'Đảo Hoàng tử Edward': True,\n", " 'Ontario': True,\n", " 'Manitoba': True,\n", " 'Newfoundland và Labrador': True,\n", " 'New Brunswick': True,\n", " 'British Columbia': True,\n", " 'Vancouver': True,\n", " 'Alberta': True,\n", " 'Nova Scotia': True,\n", " 'Anh': True,\n", " 'Ottawa': True,\n", " 'Bắc Mỹ': True,\n", " 'Nga': True,\n", " 'Labrador': True,\n", " 'Linux': True,\n", " 'Huế': True,\n", " 'Võ Nguyên Giáp': True,\n", " 'Chữ Nôm': True,\n", " 'Tháng 2 năm 2004': True,\n", " '19 tháng 3': True,\n", " '20 tháng 3': True,\n", " '21 tháng 3': True,\n", " '22 tháng 3': True,\n", " 'Tháng ba': True,\n", " '23 tháng 3': True,\n", " '24 tháng 3': True,\n", " 'Vương quốc Anh (1707–1800)': True,\n", " '25 tháng 3': True,\n", " '26 tháng 3': True,\n", " '27 tháng 3': True,\n", " '28 tháng 3': True,\n", " '29 tháng 3': True,\n", " 'Chủ nhật': True,\n", " 'Lá cờ Ohio': True,\n", " 'Tháng tư': True,\n", " '3 tháng 4': True,\n", " '4 tháng 4': True,\n", " '5 tháng 4': True,\n", " 'Tháng 3 năm 2004': True,\n", " 'VN': True,\n", " 'Bách khoa toàn thư': True,\n", " '9 tháng 4': True,\n", " '10 tháng 4': True,\n", " '11 tháng 4': True,\n", " '12 tháng 4': True,\n", " '13 tháng 4': True,\n", " '14 tháng 4': True,\n", " '15 tháng 4': True,\n", " 'Hóa học': True,\n", " '16 tháng 4': True,\n", " 'Ngô Đình Diệm': True,\n", " 'Máy tính': True,\n", " 'Yên Bái': True,\n", " '20 tháng 4': True,\n", " 'Đà Nẵng': True,\n", " '21 tháng 4': True,\n", " '22 tháng 4': True,\n", " '23 tháng 4': True,\n", " 'Firefox': True,\n", " 'Nguyễn Du': True,\n", " 'CJKV': True,\n", " 'VISCII': True,\n", " '29 tháng 4': True,\n", " 'Cần Thơ': True,\n", " 'GNU': True,\n", " 'Tam giác': True,\n", " 'Internet': True,\n", " 'Hello world': True,\n", " 'Heli': True,\n", " 'Từ viết tắt từ chữ đầu': True,\n", " 'Berkeley Software Distribution': True,\n", " 'FreeBSD': True,\n", " 'Tháng 4 năm 2004': True,\n", " 'Khoa học Trái Đất': True,\n", " 'Việt ngữ (định hướng)': True,\n", " 'PHP': True,\n", " 'Wiki': True,\n", " 'Tiêu chuẩn quốc gia (Việt Nam)': True,\n", " 'Java (công nghệ)': True,\n", " 'Tòa án Công lý Quốc tế': True,\n", " 'Sun Microsystems': True,\n", " 'OpenOffice.org': True,\n", " 'Chương trình Phát triển của Liên Hợp Quốc': True,\n", " '22 tháng 1': True,\n", " 'Việt Minh': True,\n", " 'Thuyết Truman': True,\n", " 'Advanced Micro Devices': True,\n", " 'Pin sạc': True,\n", " 'Edmonton': True,\n", " 'Luxeon': True,\n", " 'Philips Lumileds Lighting': True,\n", " 'Winamp': True,\n", " 'Xích lô': True,\n", " 'Hamasaki Ayumi': True,\n", " 'Amuro Namie': True,\n", " 'Java Platform, Standard Edition': True,\n", " 'Lập trình viên': True,\n", " 'Hạt nhân Linux': True,\n", " 'UniKey': True,\n", " 'Văn Tiến Dũng': True,\n", " 'Đồng Nai': True,\n", " 'Tiếng Nga': True,\n", " 'Quân đội nhân dân Việt Nam': True,\n", " 'Chiến tranh Đông Dương': True,\n", " 'Chiến tranh Vùng Vịnh': True,\n", " 'Phạm Văn Đồng': True,\n", " 'Liên bang Đông Dương': True,\n", " 'World Wide Web': True,\n", " 'Giê-su': True,\n", " 'Quảng Nam': True,\n", " 'Giang Trạch Dân': True,\n", " 'Wikipedia': True,\n", " 'Bỉ': True,\n", " 'Toán học': True,\n", " 'Khoa học tự nhiên': True,\n", " 'Hình học': True,\n", " 'Quốc gia': True,\n", " 'Địa lý': True,\n", " 'Cơ học cổ điển': True,\n", " 'Hóa hữu cơ': True,\n", " 'Nguyễn Văn Thiệu': True,\n", " 'George W. Bush': True,\n", " 'Nội chiến Congo thứ hai': True,\n", " 'Thống kê': True,\n", " 'Chiến tranh thời cổ đại': True,\n", " 'Sinh thái học': True,\n", " 'Ngô Quyền': True,\n", " 'Gangnihessou': True,\n", " 'HTML': True,\n", " 'XHTML': True,\n", " 'Phong trào Chữ thập đỏ và Trăng lưỡi liềm đỏ quốc tế': True,\n", " 'Vật lý học': True,\n", " 'Quần đảo Trường Sa': True,\n", " 'Quần đảo Hoàng Sa': True,\n", " 'Thiên văn học': True,\n", " 'Vovinam': True,\n", " 'Cornhole': True,\n", " 'Nhắn tin tức thời': True,\n", " 'Tam Quốc (Triều Tiên)': True,\n", " 'Nguyên tố': True,\n", " 'Phan Văn Khải': True,\n", " 'Lợn biển': True,\n", " 'Hành tinh': True,\n", " 'Montréal': True,\n", " 'Hình vuông': True,\n", " 'Kính viễn vọng không gian Hubble': True,\n", " 'Nha Trang': True,\n", " 'Klaipėda': True,\n", " 'Trung Quốc': True,\n", " 'Mạng riêng ảo': True,\n", " 'Mạng máy tính': True,\n", " 'Hệ quản trị nội dung': True,\n", " 'Sinh học tế bào': True,\n", " 'Nguyễn Trãi': True,\n", " 'Thực vật học': True,\n", " 'Phân loại học': True,\n", " 'Công nghệ': True,\n", " 'Chia cắt Ấn Độ': True,\n", " 'Sao Kim': True,\n", " 'Sao Hỏa': True,\n", " 'Nam quốc sơn hà': True,\n", " 'Red Deer, Alberta': True,\n", " 'Hệ Mặt Trời': True,\n", " 'Oradea': True,\n", " 'Trái Đất': True,\n", " 'Sao Mộc': True,\n", " 'Cơ học': True,\n", " 'Khí tượng học': True,\n", " 'Kế toán': True,\n", " 'Sao Thổ': True,\n", " 'Hoàng đế': True,\n", " 'Moresnet': True,\n", " 'KDE': True,\n", " 'Người Tày': True,\n", " 'Sinh học': True,\n", " 'Tế bào': True,\n", " 'Hóa phân tích': True,\n", " 'Hóa vô cơ': True,\n", " 'Hóa dầu': True,\n", " 'Cân bằng nội môi': True,\n", " 'Cây phát sinh chủng loại': True,\n", " 'Sinh học phân tử': True,\n", " 'Di truyền học': True,\n", " 'Lĩnh Nam': True,\n", " 'Hydrocarbon': True,\n", " 'Phản ứng trùng ngưng': True,\n", " 'Alcohol': True,\n", " 'Nhân Chứng Giê-hô-va': True,\n", " 'Ngôn ngữ lập trình': True,\n", " 'Tổng sản lượng quốc gia': True,\n", " 'GDP (định hướng)': True,\n", " 'Tiệp': True,\n", " 'Hà Lan': True,\n", " 'Frankfurt am Main': True,\n", " 'Sinh lý học': True,\n", " 'Giải phẫu học': True,\n", " 'Tập tính học': True,\n", " 'Truyện Kiều': True,\n", " 'Tản Đà': True,\n", " 'Tết Nguyên Đán': True,\n", " 'Lịch sử Việt Nam': True,\n", " 'Người Việt': True,\n", " 'Dầu mỏ': True,\n", " 'Việt': True,\n", " 'Kim Vân Kiều': True,\n", " 'Kinh': True,\n", " 'Tổ chức các nước xuất khẩu dầu lửa': True,\n", " 'Quận Cam, California': True,\n", " '30 tháng 4': True,\n", " 'Trương Vĩnh Ký': True,\n", " 'Hải Dương': True,\n", " '8 tháng 3': True,\n", " 'Tháng 9 năm 2004': True,\n", " 'Amin': True,\n", " 'Sao Thiên Vương': True,\n", " 'Kỹ thuật': True,\n", " 'Chăm Pa': True,\n", " 'Nguyễn Hoàng': True,\n", " 'Phù Nam': True,\n", " 'Pin nhiên liệu': True,\n", " 'Chiêm Thành': True,\n", " 'Carbon': True,\n", " 'Nguyễn Công Trứ': True,\n", " 'Tế bào nhiên liệu kiềm': True,\n", " 'AFC': True,\n", " 'Hydro': True,\n", " 'Đoạn mồi': True,\n", " 'Probe': True,\n", " 'DNA microarray': True,\n", " 'Lạm phát': True,\n", " 'Sông Hậu': True,\n", " 'Ngũ hành': True,\n", " 'PEMFC': True,\n", " 'Phản ứng chuỗi polymerase': True,\n", " 'Trần Ngọc Liên': True,\n", " 'CPU': True,\n", " 'Nguyên tố hóa học': True,\n", " 'Tổng sản phẩm nội địa': True,\n", " 'Electron': True,\n", " 'Phần mềm doanh nghiệp': True,\n", " 'Berlin': True,\n", " 'Oxy': True,\n", " 'Ozon': True,\n", " 'Tích hợp ứng dụng doanh nghiệp': True,\n", " 'Harry Potter': True,\n", " 'Dương Văn Minh': True,\n", " 'Bạch cầu': True,\n", " 'Tầng bình lưu': True,\n", " 'Chiến tranh thế giới thứ hai': True,\n", " 'Touchdown PCR': True,\n", " 'Telex (kiểu gõ)': True,\n", " 'Hiệu ứng nhà kính': True,\n", " 'Khí quyển Trái Đất': True,\n", " 'Tăng áp (định hướng)': True,\n", " 'Khí hậu học': True,\n", " 'Nước': True,\n", " 'Albert Einstein': True,\n", " 'Isaac Newton': True,\n", " 'Hoạch định tài nguyên doanh nghiệp': True,\n", " 'Nhà vật lý': True,\n", " 'Danh sách nhà vật lý': True,\n", " 'Chúa': True,\n", " '2004': True,\n", " 'HIV/AIDS': True,\n", " 'SIDA': True,\n", " 'Giải Nobel': True,\n", " 'Danh sách người đoạt giải Nobel': True,\n", " 'Vật chất': True,\n", " 'Tiên đề': True,\n", " 'Ánh sáng': True,\n", " 'Tương tác hấp dẫn': True,\n", " 'Khối lượng': True,\n", " 'Thể tích': True,\n", " 'Tích phân': True,\n", " 'Tân Bình (phủ cũ Gia Định)': True,\n", " 'Kim Dung': True,\n", " 'Đại Việt sử ký toàn thư': True,\n", " 'SAP': True,\n", " 'Lập xuân': True,\n", " 'Tiết khí': True,\n", " 'Phương trình': True,\n", " 'Không điểm của hàm số': True,\n", " 'Mét': True,\n", " 'Thời gian': True,\n", " 'Rượu (định hướng)': True,\n", " 'Giây': True,\n", " 'Giờ': True,\n", " 'Phút': True,\n", " 'Tốc độ ánh sáng': True,\n", " 'Xuân phân': True,\n", " 'Ba Lê (định hướng)': True,\n", " 'Moskva': True,\n", " 'Paris': True,\n", " 'Cholesterol': True,\n", " 'Kali': True,\n", " 'CeBIT': True,\n", " 'Hằng số Planck': True,\n", " 'Năng lượng': True,\n", " 'Kilôgam': True,\n", " 'Tiền tố SI': True,\n", " 'Yôta': True,\n", " 'Zêta': True,\n", " 'Êxa': True,\n", " 'Pêta': True,\n", " 'Têra': True,\n", " 'Giga': True,\n", " 'Mêga': True,\n", " 'Kilô': True,\n", " 'Héctô': True,\n", " 'Đêca': True,\n", " 'Đêxi': True,\n", " 'Xăngti': True,\n", " 'Mili': True,\n", " 'Micrô': True,\n", " 'Nanô': True,\n", " 'Pico-': True,\n", " 'Femto-': True,\n", " 'Atto-': True,\n", " 'Zepto-': True,\n", " 'Yocto-': True,\n", " 'Chiều dài': True,\n", " 'Khoảng cách': True,\n", " 'Việt kiều': True,\n", " 'Centimet': True,\n", " 'Gam': True,\n", " 'Milimét': True,\n", " 'Micrômét': True,\n", " 'Nanômét': True,\n", " 'Phạm Hồng Sơn (nhân vật bất đồng chính kiến)': True,\n", " 'Rừng của người đã mất': True,\n", " 'Đại số': True,\n", " 'Kinh Thánh': True,\n", " 'Quang học': True,\n", " 'Người Hoa (Việt Nam)': True,\n", " 'Người Trung Quốc': True,\n", " 'Đông chí': True,\n", " 'Thu phân': True,\n", " 'Thức uống có cồn': True,\n", " 'Vốn điều lệ': True,\n", " 'Vốn pháp định': True,\n", " 'Tiếng Pháp': True,\n", " 'Thành Cát Tư Hãn': True,\n", " 'Dòng Tên': True,\n", " 'Nồng độ': True,\n", " 'Nguyễn Đan Quế': True,\n", " 'Khánh Hòa': True,\n", " 'TeX': True,\n", " 'Sao Hải Vương': True,\n", " 'Sếu đầu đỏ': True,\n", " 'Tây Hạ': True,\n", " 'Đông Bắc Bộ': True,\n", " 'Thuyết tương đối': True,\n", " 'Nhà Kim': True,\n", " 'Ngân Xuyên': True,\n", " 'NATO': True,\n", " 'Hoàng Hà': True,\n", " 'Bệnh tả': True,\n", " 'Trường Giang (định hướng)': True,\n", " 'Tam Quốc (định hướng)': True,\n", " 'Tam quốc': True,\n", " 'Áo': True,\n", " 'Tiếng Đức': True,\n", " 'Cân': True,\n", " 'Lạng': True,\n", " 'Úc': True,\n", " 'Trực khuẩn': True,\n", " 'Escherichia coli': True,\n", " 'The Star-Spangled Banner': True,\n", " 'Pháp': True,\n", " 'Pháp (định hướng)': True,\n", " 'Đại số tuyến tính': True,\n", " 'Ma trận (định hướng)': True,\n", " 'Ma trận (toán học)': True,\n", " 'Hình chữ nhật': True,\n", " 'Hệ đo lường cổ Việt Nam': True,\n", " 'Cải lương': True,\n", " 'Lượng (kim hoàn)': True,\n", " 'Lịch sử Nhật Bản': True,\n", " 'Địa lý Nhật Bản': True,\n", " 'Văn hóa Nhật Bản': True,\n", " 'Các chính đảng ở Nhật Bản': True,\n", " 'Kinh tế Nhật Bản': True,\n", " 'Vi khuẩn': True,\n", " 'Lịch sử Hoa Kỳ': True,\n", " 'Vi trùng': True,\n", " 'Kinh Dịch': True,\n", " 'Sức mua tương đương': True,\n", " 'ASCII': True,\n", " 'Phương trình đại số': True,\n", " 'Phương trình tuyến tính': True,\n", " 'Biến số': True,\n", " 'Chúa tể những chiếc nhẫn': True,\n", " 'Bộ Sếu': True,\n", " 'Nguyễn': True,\n", " 'Johann Sebastian Bach': True,\n", " 'Hệ phương trình tuyến tính': True,\n", " 'Planctomycetes': True,\n", " 'Murein': True,\n", " 'PPP': True,\n", " 'Trường Sa': True,\n", " 'Lịch sử': True,\n", " 'Khoa học ứng dụng': True,\n", " 'Phát thanh quốc tế': True,\n", " 'Truyền thông đại chúng': True,\n", " 'Chỉ (đơn vị đo)': True,\n", " 'Tạ': True,\n", " 'Yến (đo lường)': True,\n", " 'Tấn': True,\n", " 'Vật lý thực nghiệm': True,\n", " 'Điện từ học': True,\n", " 'Bức xạ điện từ': True,\n", " 'Tổ chức Thương mại Thế giới': True,\n", " 'Vàng (định hướng)': True,\n", " 'Vàng': True,\n", " 'Thuần Càn': True,\n", " 'Thuần Khôn': True,\n", " 'Thủy Lôi Truân': True,\n", " 'Sơn Thủy Mông': True,\n", " 'Thủy Thiên Nhu': True,\n", " 'Thiên Thủy Tụng': True,\n", " 'Địa Thủy Sư': True,\n", " '26 tháng 4': True,\n", " 'Đảo Phục Sinh': True,\n", " 'Thái tử': True,\n", " 'Texas': True,\n", " 'Ngân Hà': True,\n", " 'Alaska': True,\n", " 'Tán xạ': True,\n", " 'Kinh tế Đức': True,\n", " 'Thủy Địa Tỷ': True,\n", " 'Phong Thiên Tiểu Súc': True,\n", " 'Thiên Trạch Lý': True,\n", " 'Địa Thiên Thái': True,\n", " 'Thiên Địa Bĩ': True,\n", " 'Thiên Hỏa Đồng Nhân': True,\n", " 'Hỏa Thiên Đại Hữu': True,\n", " 'Địa Sơn Khiêm': True,\n", " 'Lôi Địa Dự': True,\n", " 'Trạch Lôi Tùy': True,\n", " 'Sơn Phong Cổ': True,\n", " 'Địa Trạch Lâm': True,\n", " 'Phong Địa Quan': True,\n", " 'Sơn Hỏa Bí': True,\n", " 'Sơn Địa Bác': True,\n", " 'Địa Lôi Phục': True,\n", " 'Thiên Lôi Vô Vọng': True,\n", " 'Sơn Thiên Đại Súc': True,\n", " 'Sơn Lôi Di': True,\n", " 'Trạch Phong Đại Quá': True,\n", " 'Thuần Khảm': True,\n", " 'Thuần Ly': True,\n", " 'Trạch Sơn Hàm': True,\n", " 'Lôi Phong Hằng': True,\n", " 'Thiên Sơn Độn': True,\n", " 'Lôi Thiên Đại Tráng': True,\n", " 'Địa Hỏa Minh Di': True,\n", " 'Phong Hỏa Gia Nhân': True,\n", " 'Hỏa Trạch Khuê': True,\n", " 'Thủy Sơn Kiển': True,\n", " 'Lôi Thủy Giải': True,\n", " 'Sơn Trạch Tổn': True,\n", " 'Phong Lôi Ích': True,\n", " 'Trạch Thiên Quải': True,\n", " 'Thiên Phong Cấu': True,\n", " 'Trạch Địa Tụy': True,\n", " 'Địa Phong Thăng': True,\n", " 'Trạch Thủy Khốn': True,\n", " 'Thủy Phong Tỉnh': True,\n", " 'Trạch Hỏa Cách': True,\n", " 'Hỏa Phong Đỉnh': True,\n", " 'Lịch sử Hoa Kỳ (1493–1776)': True,\n", " 'Thuần Chấn': True,\n", " 'Thuần Cấn': True,\n", " 'Phong Sơn Tiệm': True,\n", " 'Lôi Trạch Quy Muội': True,\n", " 'Lôi Hỏa Phong': True,\n", " 'Hỏa Sơn Lữ': True,\n", " 'Thuần Tốn': True,\n", " 'Thuần Đoài': True,\n", " 'Phong Thủy Hoán': True,\n", " 'Thủy Trạch Tiết': True,\n", " 'Lôi Sơn Tiểu Quá': True,\n", " 'Thủy Hỏa Ký Tế': True,\n", " 'Hỏa Thủy Vị Tế': True,\n", " 'Lê Chí Quang': True,\n", " 'Sao Diêm Vương': True,\n", " 'Sông Hồng': True,\n", " 'Đo lường': True,\n", " 'Hồng Hà (định hướng)': True,\n", " 'Sông Cái Nha Trang': True,\n", " 'Nguyên Giang': True,\n", " 'Đo lường học': True,\n", " 'Ma trận vuông': True,\n", " 'Hệ thống sông Thái Bình': True,\n", " 'Sông Cầu': True,\n", " 'Đơn vị đo': True,\n", " 'Lễ Phục Sinh': True,\n", " 'Sông Cửu Long': True,\n", " 'Mê Kông': True,\n", " 'Nguyễn Vũ Bình': True,\n", " 'Năm nhuận': True,\n", " 'Đơn vị đo chiều dài': True,\n", " 'Pêtamét': True,\n", " 'Latinh (định hướng)': True,\n", " 'Năm ánh sáng': True,\n", " 'Yôtamét': True,\n", " 'Doraemon': True,\n", " 'Nhà xuất bản Kim Đồng': True,\n", " 'Tiếng Latinh': True,\n", " 'Danh sách ngôn ngữ theo tổng số người sử dụng': True,\n", " 'Thủy Tinh': True,\n", " 'NASA': True,\n", " 'Việt Nam Dân chủ Cộng hòa': True,\n", " 'Năm Cam': True,\n", " 'Năm chí tuyến': True,\n", " 'Kitô giáo': True,\n", " 'Thiên Chúa giáo': True,\n", " 'Illinois': True,\n", " 'Rhode Island': True,\n", " 'Viên': True,\n", " 'Nhiệt động lực học': True,\n", " 'Thứ Hai': True,\n", " 'Thứ Ba': True,\n", " 'Thứ Tư': True,\n", " 'Thứ Năm': True,\n", " 'Thứ Sáu': True,\n", " 'Thứ Bảy': True,\n", " 'Giờ Phối hợp Quốc tế': True,\n", " 'Sao Mai (định hướng)': True,\n", " 'Tháng năm': True,\n", " 'Tháng sáu': True,\n", " 'Tháng bảy': True,\n", " 'Thủy tinh': True,\n", " 'Trịnh Công Sơn': True,\n", " 'Kitô giáo Đông phương': True,\n", " 'Chính thống giáo Đông phương': True,\n", " 'Giáo hội Công giáo': True,\n", " 'Kitô giáo Tây phương': True,\n", " 'Kháng Cách': True,\n", " 'Anh giáo': True,\n", " 'Giáo hội Anh': True,\n", " 'Tháng tám': True,\n", " 'Tháng chín': True,\n", " 'Phạm Duy': True,\n", " 'Tháng mười': True,\n", " 'Tháng mười một': True,\n", " 'Tháng mười hai': True,\n", " 'Tháng một': True,\n", " 'Tháng hai': True,\n", " 'Cơ sở dữ liệu': True,\n", " 'Tháng giêng': True,\n", " 'Tháng chạp': True,\n", " 'Sóc (lịch)': True,\n", " 'Tiếng Ý': True,\n", " 'Nông lịch': True,\n", " 'Tháng Tý': True,\n", " 'Âm lịch': True,\n", " 'Can Chi': True,\n", " 'Công Nguyên': True,\n", " 'CN': True,\n", " 'Lịch sử vật lý học': True,\n", " 'Lịch sử cơ học': True,\n", " 'Danh sách quốc gia theo dân số': True,\n", " 'Công giáo': True,\n", " 'Israel': True,\n", " 'Pakistan': True,\n", " 'Mặt Trời': True,\n", " 'Euro': True,\n", " 'Land der Berge, Land am Strome': True,\n", " 'Sankt Pölten': True,\n", " 'Graz': True,\n", " 'Giáo hoàng Gioan Phaolô II': True,\n", " 'Vật lý hạt': True,\n", " 'Thuyết tương đối hẹp': True,\n", " 'Phục Sinh': True,\n", " 'Lý thuyết dây': True,\n", " 'Đức Quốc Xã': True,\n", " 'Sao lùn trắng': True,\n", " 'Hạt sơ cấp': True,\n", " 'Không-thời gian': True,\n", " 'Cơ học thống kê': True,\n", " 'Hạt Higgs': True,\n", " 'Lý thuyết hấp dẫn lượng tử vòng': True,\n", " 'Chất độc da cam': True,\n", " 'VietNamNet': True,\n", " 'Đồng (đơn vị tiền tệ)': True,\n", " 'Đồng (định hướng)': True,\n", " 'Hằng số vật lý': True,\n", " 'CH': True,\n", " 'TP': True,\n", " 'ĐT': True,\n", " 'CQ': True,\n", " 'Khí quyển (định hướng)': True,\n", " 'TV (định hướng)': True,\n", " 'Nhóm ngôn ngữ gốc Ý': True,\n", " 'TN': True,\n", " 'ĐH': True,\n", " 'ND': True,\n", " 'QĐ': True,\n", " 'HQ': True,\n", " 'BĐ': True,\n", " 'QH': True,\n", " 'LĐ': True,\n", " 'ĐN': True,\n", " 'Hỏa Lôi Phệ Hạp': True,\n", " 'ĐC': True,\n", " 'VH': True,\n", " 'VV': True,\n", " 'PT': True,\n", " 'QL': True,\n", " 'Tương tác cơ bản': True,\n", " 'Giải tích thực': True,\n", " 'Đảng Cộng sản Việt Nam': True,\n", " 'Ngữ hệ Nam Á': True,\n", " 'Ngữ hệ Ấn-Âu': True,\n", " 'Ngữ tộc Môn-Khmer': True,\n", " 'Ngữ tộc Slav': True,\n", " 'Ngữ tộc German': True,\n", " 'Nhóm ngôn ngữ Hy Lạp': True,\n", " 'Giới hạn Chandrasekhar': True,\n", " 'Phân loại sao': True,\n", " 'Kim loại kiềm': True,\n", " 'Au': True,\n", " 'Kanji': True,\n", " 'Lê (họ)': True,\n", " 'Vàng (màu)': True,\n", " 'Tía': True,\n", " 'Tím': True,\n", " 'Đỏ': True,\n", " 'Đỏ thắm': True,\n", " 'Đỏ tươi': True,\n", " 'Đỏ son': True,\n", " 'Hồng (màu)': True,\n", " 'Du lịch Áo': True,\n", " 'Địa khai hóa': True,\n", " 'Alexandre Yersin': True,\n", " 'AG': True,\n", " 'AL': True,\n", " 'AQ': True,\n", " 'AN': True,\n", " 'Màu gốc in ấn': True,\n", " 'VI': True,\n", " 'Vi': True,\n", " 'AM': True,\n", " 'Emacs': True,\n", " 'Phối màu phát xạ': True,\n", " 'Phối màu hấp thụ': True,\n", " 'Mô hình màu CMYK': True,\n", " 'Mô hình màu RGB': True,\n", " 'Hà Nam': True,\n", " 'Nhược trương': True,\n", " 'Đẳng trương': True,\n", " 'Hà Nam (định hướng)': True,\n", " 'Mô hình Chuẩn': True,\n", " 'Thí nghiệm Michelson-Morley': True,\n", " 'Phú Thọ': True,\n", " 'An Giang': True,\n", " 'Đen': True,\n", " 'Tổng thống Đức': True,\n", " 'Trắng': True,\n", " 'Das Lied der Deutschen': True,\n", " 'Cúm gia cầm': True,\n", " 'Danh sách màu': True,\n", " 'Ngữ tộc Celt': True,\n", " 'Hổ phách (màu)': True,\n", " 'Ametit (màu)': True,\n", " 'Tỉnh thành Việt Nam': True,\n", " 'Xanh berin': True,\n", " 'Xanh da trời': True,\n", " 'Ngôn ngữ học': True,\n", " 'Nâu sẫm': True,\n", " 'Xanh dương': True,\n", " 'Sinh vật biến đổi gen': True,\n", " 'Tây Bắc Bộ': True,\n", " 'Đồng bằng sông Hồng': True,\n", " 'Bắc Trung Bộ': True,\n", " 'Duyên hải Nam Trung Bộ': True,\n", " 'Tây Nguyên': True,\n", " 'Đông Nam Bộ': True,\n", " 'Đồng bằng sông Cửu Long': True,\n", " 'Bắc Bộ': True,\n", " 'Miền Nam (Việt Nam)': True,\n", " 'Chàm': True,\n", " 'Chàm (bệnh)': True,\n", " 'Yersinia pestis': True,\n", " 'Viêm da': True,\n", " 'Kỹ thuật di truyền': True,\n", " 'Google': True,\n", " 'Yahoo!': True,\n", " 'Lịch sử Hoa Kỳ (1776–1789)': True,\n", " 'Tháng 2 năm 2005': True,\n", " 'Chàm (định hướng)': True,\n", " 'Điện toán': True,\n", " 'Văn hóa': True,\n", " 'Màu sắc': True,\n", " 'Giấy điện tử': True,\n", " 'Cộng hòa Séc': True,\n", " 'Trương Trọng Thi': True,\n", " 'Toán học ứng dụng': True,\n", " 'PC': True,\n", " 'AC': True,\n", " 'Dc': True,\n", " 'Washington': True,\n", " 'Màu be': True,\n", " 'BE': True,\n", " 'Máy tính cá nhân': True,\n", " 'Ngôn ngữ': True,\n", " 'Kde domov můj?': True,\n", " 'Séc': True,\n", " 'Y học': True,\n", " 'Lời thề Hippocrates': True,\n", " 'Virus': True,\n", " 'Hồng Bàng': True,\n", " 'An Dương Vương': True,\n", " 'Vĩnh Phúc': True,\n", " 'DNA': True,\n", " 'Vụ Nổ Lớn': True,\n", " 'Nâu': True,\n", " 'Big Bang (định hướng)': True,\n", " 'Tòa Thánh': True,\n", " 'Xanh lơ': True,\n", " 'Vi ba': True,\n", " 'Lục bảo': True,\n", " 'Vàng kim loại (màu)': True,\n", " 'Xám': True,\n", " 'Da cam': True,\n", " 'Cam cháy': True,\n", " 'Số Hex': True,\n", " 'Cô ban (màu)': True,\n", " 'Đồng (màu)': True,\n", " 'San hô (màu)': True,\n", " 'Kem (màu)': True,\n", " 'Vòi voi (màu)': True,\n", " 'Cá hồi (màu)': True,\n", " 'Nâu đen': True,\n", " 'Xanh chromi': True,\n", " 'Kaki': True,\n", " 'Ngọc thạch (màu)': True,\n", " 'Oải hương (màu)': True,\n", " 'Bạc (màu)': True,\n", " 'Bước sóng': True,\n", " 'Debian': True,\n", " 'SI (định hướng)': True,\n", " 'Mẫu (dạng thức)': True,\n", " '2 tháng 9': True,\n", " 'BCT': True,\n", " 'Ngữ hệ Kra-Dai': True,\n", " 'Mẫu (đơn vị đo)': True,\n", " 'Anh đào (màu)': True,\n", " 'Vàng chanh': True,\n", " 'Lòng đào': True,\n", " 'Dừa cạn (màu)': True,\n", " 'Ngữ hệ Nhật-Lưu Cầu': True,\n", " 'Đỏ yên chi': True,\n", " 'Ôliu (màu)': True,\n", " 'Lan tím': True,\n", " 'Ngọc lam (màu)': True,\n", " 'Mòng két (màu)': True,\n", " 'Hoa cà (màu)': True,\n", " 'Cẩm quỳ (màu)': True,\n", " 'Mận (màu)': True,\n", " 'Tần số': True,\n", " 'Xanh nõn chuối': True,\n", " 'Màu': True,\n", " 'Toàn cầu hóa': True,\n", " 'Virus (định hướng)': True,\n", " 'Liên Xô': True,\n", " 'Siêu dẫn': True,\n", " 'Men ngọc (màu)': True,\n", " 'Hạt dẻ (màu)': True,\n", " 'Hình học giải tích': True,\n", " 'Lam sẫm': True,\n", " 'Nguyễn Cao': True,\n", " 'Hồng đất': True,\n", " 'Xanh thủy tinh': True,\n", " 'Chu kỳ': True,\n", " 'Nâu tanin': True,\n", " 'Hồng y (màu)': True,\n", " 'Ngữ chi Rôman': True,\n", " 'Ngữ tộc Balt': True,\n", " '17 tháng 4': True,\n", " '18 tháng 4': True,\n", " '19 tháng 4': True,\n", " 'Sóng': True,\n", " 'Tần số góc': True,\n", " 'Thánh địa Mỹ Sơn': True,\n", " 'Quần đảo Cát Bà': True,\n", " 'Đồ Sơn': True,\n", " 'Ba Bể (định hướng)': True,\n", " 'Vịnh Hạ Long': True,\n", " 'Hồ Ba Bể': True,\n", " 'Sa Pa (phường)': True,\n", " 'Đà Lạt': True,\n", " 'Phú Quốc': True,\n", " 'Côn Đảo': True,\n", " 'Phố cổ Hội An': True,\n", " 'Ao Bà Om': True,\n", " 'Ngủ đông': True,\n", " 'Chu trình tiềm tan': True,\n", " 'Tiềm sinh': True,\n", " 'Electrum': True,\n", " 'Tia X': True,\n", " 'KTS': True,\n", " 'Quang tuyến': True,\n", " 'Thanh Xuân': True,\n", " 'Di sản thế giới': True,\n", " 'Hạ Long (định hướng)': True,\n", " '24 tháng 4': True,\n", " 'Hóa sinh': True,\n", " '25 tháng 4': True,\n", " 'Tôn giáo': True,\n", " 'Danh sách Thủ tướng Việt Nam': True,\n", " 'KCS': True,\n", " 'KCN': True,\n", " 'Muối ăn': True,\n", " 'Đại lượng vật lý': True,\n", " 'Sự kiện 30 tháng 4 năm 1975': True,\n", " 'Quy hoạch đô thị': True,\n", " 'Danh sách nhà toán học': True,\n", " 'Phật giáo': True,\n", " 'Tắc đường': True,\n", " 'Khoa học máy tính': True,\n", " 'Hưng Yên': True,\n", " 'Bắc Ninh': True,\n", " 'Hà Tây (tỉnh)': True,\n", " 'Khí quyển Sao Hỏa': True,\n", " 'Thượng Hải': True,\n", " 'Công nghệ thông tin': True,\n", " 'Hồ Chí Minh (định hướng)': True,\n", " 'Khu công nghiệp': True,\n", " 'Tam giáo': True,\n", " 'Thái Bình': True,\n", " 'Nam Định': True,\n", " 'Nhà': True,\n", " 'Ninh Bình': True,\n", " 'Chiếu dời đô': True,\n", " 'Ngọc lục bảo': True,\n", " 'Tin học': True,\n", " 'Tự do hóa': True,\n", " 'CSS': True,\n", " 'Hiệp ước chung về thuế quan và mậu dịch': True,\n", " 'Lai tạp hóa': True,\n", " 'Mỹ hóa': True,\n", " 'Tổ chức sở hữu trí tuệ': True,\n", " 'Khoa học thông tin': True,\n", " 'Thuật toán': True,\n", " 'WEB': True,\n", " '1 tháng 4': True,\n", " 'Tổ chức phi chính phủ': True,\n", " 'Đầu tư trực tiếp nước ngoài': True,\n", " 'NGO': True,\n", " 'Phần cứng': True,\n", " 'Châu Âu': True,\n", " 'Thái Lan': True,\n", " 'Virus (máy tính)': True,\n", " 'Phần mềm ác ý': True,\n", " 'Linux From Scratch': True,\n", " 'LFS': True,\n", " 'Hà Nội (định hướng)': True,\n", " 'Ngọc lam': True,\n", " '2 tháng 4': True,\n", " 'Lipid': True,\n", " 'Toán học tổ hợp': True,\n", " 'Toán học rời rạc': True,\n", " 'Nara (thành phố)': True,\n", " 'Phan Bội Châu': True,\n", " 'Sắc ký': True,\n", " 'Hồng ngọc': True,\n", " 'Ribosome': True,\n", " 'Trung tử': True,\n", " 'Lysosome': True,\n", " 'Mạng lưới nội chất': True,\n", " 'Peroxisome': True,\n", " 'Bộ máy Golgi': True,\n", " 'Điện tử học': True,\n", " 'Ty thể': True,\n", " 'Công nghệ nano': True,\n", " 'Quan Âm': True,\n", " 'Tháp Hà Nội (định hướng)': True,\n", " 'Nhà Nguyễn': True,\n", " 'Danh sách quốc gia có chủ quyền': True,\n", " 'Sông Cầu (định hướng)': True,\n", " 'Thiên đỉnh': True,\n", " 'Thiên để': True,\n", " 'Tạ (định hướng)': True,\n", " 'Tấn (định hướng)': True,\n", " 'Câu lệnh (khoa học máy tính)': True,\n", " 'Chỉ thị (máy tính)': True,\n", " 'Frank Sherwood Rowland': True,\n", " 'Cú pháp câu lệnh': True,\n", " 'Nhóm chức': True,\n", " 'Quy tắc đặt dấu thanh trong chữ quốc ngữ': True,\n", " 'Tán xạ Rayleigh': True,\n", " 'Đúng': True,\n", " 'Đồng': True,\n", " 'Đậu tương': True,\n", " 'Cộng đồng Wikipedia': True,\n", " 'Đồng tính luyến ái': True,\n", " 'Tam quốc diễn nghĩa': True,\n", " 'Vết đen Mặt Trời': True,\n", " 'Mô hình Markov ẩn': True,\n", " 'Tin sinh học': True,\n", " 'Vết đen': True,\n", " 'Tứ đại danh tác': True,\n", " 'Sách đỏ IUCN': True,\n", " 'Hệ điều hành': True,\n", " 'Bắt cặp trình tự': True,\n", " 'Tam quốc diễn nghĩa (định hướng)': True,\n", " 'Trình tự motif': True,\n", " 'Thành phố Trung Quốc': True,\n", " 'Thụy Sĩ': True,\n", " 'Kẽm': True,\n", " 'Dãy số thực': True,\n", " 'Bánh chưng': True,\n", " 'Lá dong': True,\n", " 'Bánh giầy': True,\n", " 'Bạc': True,\n", " 'Boson W': True,\n", " ...}" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "all_titles = dict([(x.strip(),True) for x in open(\"../data/raw/wikipedia_20220620_cleaned/wikipedia_20220620_all_titles.txt\").readlines()])\n", "all_titles" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "dict_map = dict({}) \n", " \n", "def word_tokenize(text): \n", " global dict_map \n", " words = text.split() \n", " words_norm = [] \n", " for w in words: \n", " if dict_map.get(w, None) is None: \n", " dict_map[w] = ' '.join(lib_tokenizer(w)).replace('``', '\"').replace(\"''\", '\"') \n", " words_norm.append(dict_map[w]) \n", " return words_norm \n", " \n", "def strip_answer_string(text): \n", " text = text.strip() \n", " while text[-1] in '.,/><;:\\'\"[]{}+=-_)(*&^!~`': \n", " if text[0] != '(' and text[-1] == ')' and '(' in text: \n", " break \n", " if text[-1] == '\"' and text[0] != '\"' and text.count('\"') > 1: \n", " break \n", " text = text[:-1].strip() \n", " while text[0] in '.,/><;:\\'\"[]{}+=-_)(*&^!~`': \n", " if text[0] == '\"' and text[-1] != '\"' and text.count('\"') > 1: \n", " break \n", " text = text[1:].strip() \n", " text = text.strip() \n", " return text \n", " \n", "def strip_context(text): \n", " text = text.replace('\\n', ' ') \n", " text = re.sub(r'\\s+', ' ', text) \n", " text = text.strip() \n", " return text" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO: Pandarallel will run on 6 workers.\n", "INFO: Pandarallel will use standard multiprocessing data transfer (pipe) to transfer data between the main process and workers.\n" ] } ], "source": [ "from pandarallel import pandarallel\n", "\n", "pandarallel.initialize(progress_bar=True, use_memory_fs=False, nb_workers=6)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "9bacd2c6720d48209399c9220f4e3054", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "140698a55ee644c79d2a54941c4beb6b", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "8e9ae778df744c568ac4e990dd356f19", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "b3be62a6ab8a4190974f50bc3e6eb74b", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "c98f91a6efa94966af32ceec70eea55c", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "ed68d16693ef4b7dadafd098e3d6bc88", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "07f08ef339ea431ab76a84ff6b8c2e57", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "82630b19f0164af7915195256ec63a00", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "365cd1db011a48de884862248ecdfc84", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=36008), Label(value='0 / 36008')))…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "c1bb81622d9648308170dbeda422b7a5", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=1), Label(value='0 / 1'))),))" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "0 Trang Chính < templatestyles src= \" Wiki2021/s...\n", "1 Internet Society hay ISOC là một tổ chức quốc ...\n", "2 Tiếng Việt , cũng gọi là tiếng Việt Nam hay Vi...\n", "3 hệ thống thanh điệu phát triển cao hơn , hệ th...\n", "4 tiếp xúc Hán – Việt thành 2 giai đoạn chính : ...\n", "Name: cleaned_text, dtype: object" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "def apply_tokenizer(df, num_chunks):\n", " chunk_sr = pd.Series()\n", " i = 0\n", " end = df.shape[0]\n", " chunk_size = math.floor(end/num_chunks)\n", " while i != end:\n", " if end - i < chunk_size:\n", " chunk_size = end - i\n", " temp_df = df[i:i+chunk_size].copy()\n", " chunk_sr = pd.concat([chunk_sr, temp_df[\"text\"].parallel_apply(lambda x: \" \".join(word_tokenize(strip_context(x))))], ignore_index=True)\n", " i+=chunk_size\n", " return chunk_sr\n", "\n", "df[\"cleaned_text\"] = apply_tokenizer(df, 9)\n", "df[\"cleaned_text\"].head()" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "train_titles = set([x['title'].strip() for x in train['data'] if len(x['title']) > 0])" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "8492dc037ce24b2eb849ba28a7a64eb2", "version_major": 2, "version_minor": 0 }, "text/plain": [ "VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=324068), Label(value='0 / 324068')…" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df[\"valid\"] = df['title'].parallel_apply(lambda x: str(x).strip() in train_titles)" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": [ "df = df[df['valid']]\n", "df.reset_index(drop=True, inplace=True)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(8782,)" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.title.unique().shape" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | title | \n", "text | \n", "bm25_text | \n", "cleaned_text | \n", "valid | \n", "
---|---|---|---|---|---|
0 | \n", "Tiếng Việt | \n", "Tiếng Việt , cũng gọi là tiếng Việt Nam hay Vi... | \n", "tiếng việt cũng gọi là tiếng việt nam hay việt... | \n", "Tiếng Việt , cũng gọi là tiếng Việt Nam hay Vi... | \n", "True | \n", "
1 | \n", "Tiếng Việt | \n", "hệ thống thanh điệu phát triển cao hơn, hệ thố... | \n", "hệ thống thanh điệu phát triển cao hơn hệ thốn... | \n", "hệ thống thanh điệu phát triển cao hơn , hệ th... | \n", "True | \n", "
2 | \n", "Tiếng Việt | \n", "tiếp xúc Hán – Việt thành 2 giai đoạn chính: \\... | \n", "tiếp xúc hán – việt thành 2 giai đoạn chính bu... | \n", "tiếp xúc Hán – Việt thành 2 giai đoạn chính : ... | \n", "True | \n", "
3 | \n", "Tiếng Việt | \n", "thêm hàng loạt các yếu tố Hán–Việt. Như là \"ch... | \n", "thêm hàng loạt các yếu tố hán–việt như là chủ ... | \n", "thêm hàng loạt các yếu tố Hán–Việt . Như là \" ... | \n", "True | \n", "
4 | \n", "Tiếng Việt | \n", "tiếng Hán vẫn có ai đó chấp nhận và sử dụng tr... | \n", "tiếng hán vẫn có ai đó chấp nhận và sử dụng tr... | \n", "tiếng Hán vẫn có ai đó chấp nhận và sử dụng tr... | \n", "True | \n", "
\n", " | id | \n", "title | \n", "text | \n", "
---|---|---|---|
0 | \n", "718d41cd997b2b44b0685ac54aa55bd8 | \n", "Trung Quốc | \n", "Thủ tướng Trung Quốc là nhân vật lãnh đạo chín... | \n", "
1 | \n", "c926e7b0717202618a10dd907d4b4c39 | \n", "\n", " | có 23 quốc gia không có lực lượng quân đội, ba... | \n", "
2 | \n", "d38ef5bf1fb82b410026ed82c8a44cae | \n", "Raymondienne | \n", "Raymondienne (hay Raymonde Dien) sinh ngày 13 ... | \n", "
3 | \n", "b6b5589a98fdccd208dc752bac853993 | \n", "Cúp cờ vua thế giới | \n", "Cúp cờ vua thế giới là tên gọi một số giải đấu... | \n", "
4 | \n", "82396a18fa9812bfec4d3ecb7ae60905 | \n", "Shkhara | \n", "Đỉnh núi nằm ở phần trung tâm của dãy núi Đại ... | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "
20852 | \n", "508022f540c39fe31511f594748759bc | \n", "Eros | \n", "Trong thần thoại Hy Lạp , \" Eros \" là vị thần ... | \n", "
20853 | \n", "93c746695c50932ac45ac498a192a3e5 | \n", "Lịch sử hành chính Hà Nội | \n", "Vào thời điểm hiện tại ( 2017 ) , về mặt hành ... | \n", "
20854 | \n", "c477d4b40045ee4251cf9b2a0482cfc4 | \n", "Nhật ký trong tù | \n", "“ Nhật ký trong tù ” là một cuốn sổ tay nhỏ , ... | \n", "
20855 | \n", "278ad127825c085a54fa22116c281f92 | \n", "Tên miền www.google.com được đăng ký ngày 15 t... | \n", "|
20856 | \n", "09ee53a835ea4ed2234aee8161b16d87 | \n", "Dãy núi Hoàng Liên Sơn | \n", "Dãy núi Hoàng Liên Sơn rộng 30 km, chạy dài 18... | \n", "
20857 rows × 3 columns
\n", "\n", " | id | \n", "title | \n", "text | \n", "dirty_text | \n", "
---|---|---|---|---|
0 | \n", "718d41cd997b2b44b0685ac54aa55bd8 | \n", "Trung Quốc | \n", "Thủ tướng Trung Quốc là nhân vật lãnh đạo chín... | \n", "Thủ tướng Trung Quốc là nhân vật lãnh đạo chín... | \n", "
1 | \n", "c926e7b0717202618a10dd907d4b4c39 | \n", "\n", " | có 23 quốc gia không có lực lượng quân đội, ba... | \n", "None | \n", "
2 | \n", "d38ef5bf1fb82b410026ed82c8a44cae | \n", "Raymondienne | \n", "Raymondienne (hay Raymonde Dien) sinh ngày 13 ... | \n", "None | \n", "
3 | \n", "b6b5589a98fdccd208dc752bac853993 | \n", "Cúp cờ vua thế giới | \n", "Cúp cờ vua thế giới là tên gọi một số giải đấu... | \n", "Cúp cờ vua thế giới là tên gọi một số giải đấu... | \n", "
4 | \n", "82396a18fa9812bfec4d3ecb7ae60905 | \n", "Shkhara | \n", "Đỉnh núi nằm ở phần trung tâm của dãy núi Đại ... | \n", "Shkhara ( ) là núi cao thứ ba trong dãy núi Ka... | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
20852 | \n", "508022f540c39fe31511f594748759bc | \n", "Eros | \n", "Trong thần thoại Hy Lạp , \" Eros \" là vị thần ... | \n", "Eros Trong thần thoại Hy Lạp , \" Eros \" là vị ... | \n", "
20853 | \n", "93c746695c50932ac45ac498a192a3e5 | \n", "Lịch sử hành chính Hà Nội | \n", "Vào thời điểm hiện tại ( 2017 ) , về mặt hành ... | \n", "Vào thời điểm hiện tại ( 2017 ) , về mặt hành ... | \n", "
20854 | \n", "c477d4b40045ee4251cf9b2a0482cfc4 | \n", "Nhật ký trong tù | \n", "“ Nhật ký trong tù ” là một cuốn sổ tay nhỏ , ... | \n", "“ Nhật ký trong tù ” là một cuốn sổ tay nhỏ , ... | \n", "
20855 | \n", "278ad127825c085a54fa22116c281f92 | \n", "Tên miền www.google.com được đăng ký ngày 15 t... | \n", "Tên miền www.google.com được đăng ký ngày 15 t... | \n", "|
20856 | \n", "09ee53a835ea4ed2234aee8161b16d87 | \n", "Dãy núi Hoàng Liên Sơn | \n", "Dãy núi Hoàng Liên Sơn rộng 30 km, chạy dài 18... | \n", "Dãy núi Hoàng Liên Sơn rộng 30 km , chạy dài 1... | \n", "
20857 rows × 4 columns
\n", "\n", " | id | \n", "title | \n", "text | \n", "dirty_text | \n", "
---|---|---|---|---|
1 | \n", "c926e7b0717202618a10dd907d4b4c39 | \n", "\n", " | có 23 quốc gia không có lực lượng quân đội, ba... | \n", "None | \n", "
2 | \n", "d38ef5bf1fb82b410026ed82c8a44cae | \n", "Raymondienne | \n", "Raymondienne (hay Raymonde Dien) sinh ngày 13 ... | \n", "None | \n", "
14 | \n", "361a30769c1a5dca2a7b8f5c7f601982 | \n", "Bánh gai Tứ Trụ | \n", "Làng Mía thuộc hữu ngạn sông Chu, cách thị trấ... | \n", "None | \n", "
18 | \n", "5d7d3b0d5cd7b2917a2081c3b4d7c8a8 | \n", "Nhà nước Hồi giáo ( chính thể ) | \n", "Khái niệm về nhà nước Hồi giáo hiện đại đã đượ... | \n", "None | \n", "
20 | \n", "d7000d411d3f04dee7fa327ef11e3db0 | \n", "Quan hệ Israel – Liban | \n", "Thủ tướng Liban Fouad Siniora cho biết vào thá... | \n", "None | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
20804 | \n", "cb4d3b162a56b52a4927ab29b739c7a2 | \n", "Thủy điện An Khê - Kanak | \n", "Nhà máy được khởi công xây dựng vào ngày 14 th... | \n", "None | \n", "
20834 | \n", "d701dfcba59420604c66e803c9556754 | \n", "Sao Hoả | \n", "Sao Hoả còn gọi là : Hoả Tinh , ( Tiếng Anh : ... | \n", "None | \n", "
20836 | \n", "5769cee0487a9674306d271854244b39 | \n", "\n", " | Máy quay phim: Phát minh kỳ diệu của anh em Lu... | \n", "None | \n", "
20843 | \n", "5f420b6d68436b684f33dcded61d5a3c | \n", "Egil Kapstad | \n", "Ông sinh ra tại Oslo, thủ đô của Na Uy và thàn... | \n", "None | \n", "
20846 | \n", "323218bcf129df929716884a1a89e2e3 | \n", "\n", " | Vật lý học (tiếng Anh: Physics, từ tiếng Hy Lạ... | \n", "None | \n", "
3498 rows × 4 columns
\n", "