Personal identification information detection - Nhận diện thông tin cá nhân

Nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:

  • Tiếng Việt

Model description

Mô hình có tác dụng nhận diện thông tin cá nhân hỗ trợ các ngôn ngữ:

  • Họ và tên
  • Giới tính
  • Số điện thoại
  • Email
  • Địa chỉ
  • Nơi làm việc
  • Nghệ nghiệp
  • Dân tộc
  • Tôn giáo
  • Nơi sinh
  • Quê quán
  • Quốc tịnh
  • Nhóm máu
  • Số căn cước công dân
  • Số hộ chiếu
  • Nơi ở hiện tại
  • Tình trạng hôn nhân
  • Ngày sinh
  • Ngành học
  • Trường học
  • Bằng cấp
  • Chức vụ
  • Sở thích
  • Tính cách
  • Điểm mạnh
  • Điểm yếu
  • Tuổi
  • Mục tiêu, mong muốn

Ví dụ:

Xin chào, tôi tên là Đặng Việt Dũng, tôi sinh ra ở Hòa Bình và đang sinh sống ở Hà Nội. Tôi thích chơi game và công nghệ, hiện tôi đang làm việc tại công ty 132.one, tôi là một lập trình viên. Tôi dễ nổi nóng nhưng có tính cách dễ hòa đồng. Tôi có bằng kỹ sư phần mềm lấy tại trường Đại Học Phương Đông. Là người dân tộc kinh, giới tính nam và không theo tốn giáo nào.

Họ và tên: Đặng Việt Dũng ,
Quê quán: Hòa Bình
Quê quán: Hà Nội .
Sở thích: chơi game
Sở thích: công nghệ ,
Nơi làm việc: công ty 132 . one ,
Nghệ nghiệp: lập trình viên .
Điểm mạnh: dễ nổi nóng
Điểm mạnh: tính cách dễ hòa đồng .
Bằng cấp: kỹ sư phần mềm lấy
Trường học: trường Đại Học Phương Đông .
Tôn giáo: dân tộc kinh ,
Điểm mạnh: giới tính nam
Tôn giáo: không theo

Base model

Mô hình được đạo tạo dựa trên cơ sở của model google-bert/bert-base-multilingual-cased

Training data

Chưa thể công khai dữ liệu training

Model variations

Chưa xác định

Intended uses & limitations

Chưa xác định

License

Đây là một open-source library, bạn có thể sử dụng nó với bất kì mục đích nào. Rất cảm ơn nếu bạn ghi nguồn khi sử dụng mô hình này (nếu không ghi cũng không sao).

How to use

text = "Xin chào, tôi tên là Đặng Việt Dũng, tôi sinh ra ở Hòa Bình và đang sinh sống ở Hà Nội. Tôi thích chơi game và công nghệ, hiện tôi đang làm việc tại công ty 132.one, tôi là một lập trình viên. Tôi dễ nổi nóng nhưng có tính cách dễ hòa đồng. Tôi có bằng kỹ sư phần mềm lấy tại trường Đại Học Phương Đông. Là người dân tộc kinh, giới tính nam và không theo tốn giáo nào."

import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("mr4/ner-vi")
inputs = tokenizer(text, return_tensors="pt")

model = AutoModelForTokenClassification.from_pretrained("mr4/ner-vi")
with torch.no_grad():
    logits = model(**inputs).logits

predicted_token_class_ids = torch.argmax(logits, dim=-1)
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"].squeeze().tolist())
print("List all token:")
predicted_entities = [model.config.id2label[id] for id in predicted_token_class_ids.squeeze().tolist()]
for token, entity in zip(tokens, predicted_entities):
    print(f"  - {token}: {entity}")

final_result = []
current_entity = []
current_label = None

for token, entity in zip(tokens, predicted_entities):
    if entity.startswith("B-"):
        if entity[2:] == current_label:
            current_entity.append(token)
        else:
            if current_entity:
                final_result.append((" ".join(current_entity), current_label))
            current_entity = [token]
            current_label = entity[2:]
    elif entity.startswith("I-") and current_label == entity[2:]:
        current_entity.append(token)
    else:
        if current_entity:
            final_result.append((" ".join(current_entity), current_label))
        current_entity = []
        current_label = None
if current_entity:
    final_result.append((" ".join(current_entity), current_label))

print("Input:")
print(text)

print("Final result:")
for entity, label in final_result:
    ner_value = entity.replace(" ##", "").replace("##", "")
    print(f"  - {ner_value}: {label}")

Liên hệ

Mọi thông tin liên quan có thể liên hệ qua email: [email protected].

Downloads last month
2
Safetensors
Model size
177M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support