emanuelaboros
/

lang-detect

Token Classification

language-identification

Model card Files Files and versions Community

lang-detect / test.py

emanuelaboros's picture

lets try to change the pipeline

6f4cd0c 4 months ago

1.28 kB

	# Import necessary Python modules from the Transformers library
	from transformers import AutoModelForTokenClassification, AutoTokenizer
	from transformers import pipeline

	# Define the model name to be used for token classification, we use the Impresso NER
	# that can be found at "https://huggingface.co/impresso-project/ner-stacked-bert-multilingual"
	MODEL_NAME = "emanuelaboros/ner-stacked-bert-multilingual"

	# Load the tokenizer corresponding to the specified model name
	ner_tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

	ner_pipeline = pipeline("lang-detect", model=MODEL_NAME,
	# tokenizer=ner_tokenizer,
	trust_remote_code=True,
	device='cpu')

	sentence = "En l'an 1348, au plus fort des ravages de la peste noire à travers l'Europe, le Royaume de France se trouvait à la fois au bord du désespoir et face à une opportunité. À la cour du roi Philippe VI, les murs du Louvre étaient animés par les rapports sombres venus de Paris et des villes environnantes. La peste ne montrait aucun signe de répit, et le chancelier Guillaume de Nogaret, le conseiller le plus fidèle du roi, portait le lourd fardeau de gérer la survie du royaume."

	entities = ner_pipeline(sentence)
	entities