File size: 5,475 Bytes
234165b
 
3ce8da5
 
 
 
 
 
 
 
234165b
 
e72855c
234165b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3ce8da5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
---
license: mit
datasets:
- wmt/wmt14
language:
- fr
- en
base_model:
- google-t5/t5-base
pipeline_tag: translation
---

```python

from transformers import T5Tokenizer, T5ForConditionalGeneration

# Load the pre-trained model and tokenizer
model_name = "SynapseQAI/T5-base-WMT14v2"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

# Function to translate using a mixed strategy: Beam Search + Top-P Sampling
def translate(sentence, num_beams=4, top_p=0.9):
    # Prepare the input with the prompt for the model
    input_text = f"correct phrasing and grammar:{sentence}"
    input_ids = tokenizer(input_text, return_tensors="pt").input_ids

    # Step 1: Beam search to generate top candidate outputs
    beam_outputs = model.generate(
        input_ids, 
        num_beams=num_beams,  # Define number of beams for beam search
        max_length=40, 
        early_stopping=True,
        num_return_sequences=num_beams,  # Return the top beams for Top-p sampling
        do_sample=False  # Beam search is deterministic
    )

    # Step 2: Apply Top-P sampling on the beam outputs to introduce variety
    top_p_output = model.generate(
        input_ids,
        do_sample=True,
        top_p=top_p,  # Apply Top-p sampling
        max_length=40,
        early_stopping=True
    )

    # Decode the beam outputs and top-p sampled output
    beam_translations = [tokenizer.decode(output, skip_special_tokens=True) for output in beam_outputs]
    top_p_translation = tokenizer.decode(top_p_output[0], skip_special_tokens=True)

    # Clean the translations to remove the prompt text
    clean_top_p_translation = top_p_translation.split(":", 1)[-1].strip()
    
    # Combine top translations (Beam search + Top-P sampling)
    combined_translations = [translation.split(":", 1)[-1].strip() for translation in beam_translations]
    
    # Return both top-p sampled translation and beam search candidates
    return clean_top_p_translation, combined_translations

# French sentences from easy to advanced, including more difficult ones
sentences = [
    "Les scientifiques travaillent dur pour trouver un remède.",
    "La capitale de la France est Paris.",
    "Je voudrais un café s'il vous plaît.",
    "Il fait beau aujourd'hui.",
    "J'aime lire des livres et regarder des films pendant mon temps libre.",
    "Si j'avais su que tu venais, j'aurais préparé quelque chose de spécial pour le dîner.",
    "Même si les avancées technologiques apportent de nombreux avantages, elles posent également des défis éthiques considérables qu'il nous faut relever.",
    "La notion de vérité absolue reste controversée parmi les philosophes depuis l'Antiquité.",
    "Dans une société hyperconnectée, la surabondance d'informations peut rendre difficile la distinction entre les faits et les opinions.",
    "L'impact des changements climatiques sur la biodiversité est d'une ampleur difficile à concevoir.",
    "Il est impératif que nous abordions les crises environnementales avec une approche systémique et collaborative.",
    "Les révolutions industrielles successives ont façonné le monde moderne de manière irréversible.",
    "La théorie des jeux est souvent utilisée pour modéliser des situations où les décisions de plusieurs individus s'influencent mutuellement.",
    "La métamorphose de la chenille en papillon est un processus biologique fascinant et complexe.",
    "Les découvertes en physique quantique ont radicalement transformé notre compréhension de l'univers à l'échelle microscopique.",
    "L'analyse des textes anciens révèle souvent des perspectives historiques inexplorées.",
    "Les neurosciences nous offrent une fenêtre sur le fonctionnement des processus cognitifs et émotionnels du cerveau.",
    "L'interaction entre les cultures a enrichi l'histoire humaine, mais a aussi souvent conduit à des conflits violents.",
    "La nature fractale de certaines structures naturelles remet en question nos notions classiques de géométrie.",
    "Il est étonnant de voir comment la technologie de pointe a rendu possible des prouesses médicales autrefois inimaginables.",
    "La complexité de l'économie mondiale réside dans l'interconnexion des marchés financiers, des politiques monétaires et des échanges internationaux.",
    "L'évolution des espèces s'effectue sur des millions d'années, à travers un processus d'adaptation et de sélection naturelle.",
    "Les concepts d'intelligence artificielle soulèvent des questions éthiques sur l'autonomie et la responsabilité des machines.",
    "Le paradoxe du temps est un thème récurrent dans la science-fiction, souvent utilisé pour explorer des réalités alternatives.",
    "Les travaux de recherche en biologie synthétique promettent de révolutionner la manière dont nous produisons des médicaments.",
    "La théorie des cordes cherche à unifier les forces fondamentales de la nature dans une seule théorie cohérente.",
    "L'éducation joue un rôle central dans la promotion du développement durable et l'atténuation des inégalités mondiales."
]

# Translate each sentence and print the top-p sampled translation + beam search candidates
for sentence in sentences:
    top_p_translation, beam_translations = translate(sentence)
    print(f"French: {sentence}\nTop-P Translation: {top_p_translation}\nBeam Search Candidates: {beam_translations}\n")