File size: 12,788 Bytes
bd97f47
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
import re
import logging
import string
from collections import Counter

logger = logging.getLogger(__name__)


class TextImprover:
    """
    Türkçe metinlerde iyileştirme ve öneriler sunan sınıf.
    Yazım hataları düzeltme, dilbilgisi önerileri ve okunabilirlik analizi yapar.
    """

    def __init__(self):
        """Metin iyileştirme sınıfını başlatır"""
        # Türkçe'de yaygın yazım hataları ve düzeltmeleri
        self.common_typos = {
            # Büyük küçük harf duyarsız olarak yazım hataları
            'bişey': 'bir şey',
            'herşey': 'her şey',
            'hiçbirşey': 'hiçbir şey',
            'birsey': 'bir şey',
            'hersey': 'her şey',
            'hicbir': 'hiçbir',
            'hicbirsey': 'hiçbir şey',
            'yalnız': 'yalnız',
            'bi': 'bir',
            'gelicek': 'gelecek',
            'gidiyom': 'gidiyorum',
            'yapıyom': 'yapıyorum',
            'biliyomusun': 'biliyor musun',
            'napıyorsun': 'ne yapıyorsun',
            'naber': 'ne haber',
            'bilmiyomki': 'bilmiyorum ki',
            'dicek': 'diyecek',
            'dicem': 'diyeceğim',
            'yicek': 'yiyecek',
            'yicem': 'yiyeceğim'
        }

        # Türkçe'de sık kullanılan doldurma kelimeleri
        self.filler_words = [
            'yani', 'işte', 'şey', 'falan', 'filan', 'hani', 'mesela',
            'aslında', 'ya', 'ki', 'de', 'da', 'ama', 'fakat', 'lakin',
            'gerçekten', 'kesinlikle', 'tabii', 'tabi', 'şimdi', 'sonra'
        ]

        # Türkçe cümle karmaşıklığını değerlendirmek için parametreler
        self.max_sentence_length = 25  # Kelime sayısı
        self.max_word_length = 6  # Ortalama kelime uzunluğu

        # Okunabilirlik için kullanılacak parametreler
        # Türkçe için uyarlanmış Flesch Reading Ease formülü
        self.readability_thresholds = {
            'çok_kolay': 90,
            'kolay': 80,
            'orta_kolay': 70,
            'orta': 60,
            'orta_zor': 50,
            'zor': 30,
            'çok_zor': 0
        }

        logger.info("Metin iyileştirme modülü başlatıldı")

    def fix_typos(self, text):
        """
        Metindeki yaygın yazım hatalarını düzeltir

        Args:
            text: Düzeltilecek metin

        Returns:
            dict: {
                'corrected_text': str,  # Düzeltilmiş metin
                'corrections': list,    # Yapılan düzeltmeler listesi
                'correction_count': int # Düzeltme sayısı
            }
        """
        corrected_text = text
        corrections = []

        # Önce metni kelimelere ayır
        words = re.findall(r'\b\w+\b', text.lower())

        # Her kelimeyi kontrol et
        for word in words:
            if word.lower() in self.common_typos:
                correct_word = self.common_typos[word.lower()]
                # Kelimenin metindeki tüm örneklerini düzelt
                # \b ile kelime sınırlarını belirt
                pattern = r'\b' + re.escape(word) + r'\b'
                corrected_text = re.sub(pattern, correct_word, corrected_text, flags=re.IGNORECASE)
                corrections.append(f"'{word}' -> '{correct_word}'")

        return {
            'corrected_text': corrected_text,
            'corrections': corrections,
            'correction_count': len(corrections)
        }

    def check_grammar(self, text):
        """
        Metindeki temel dilbilgisi sorunlarını kontrol eder

        Args:
            text: Kontrol edilecek metin

        Returns:
            dict: {
                'issues': list,  # Tespit edilen sorunlar listesi
                'suggestions': list, # Öneriler listesi
                'issue_count': int   # Sorun sayısı
            }
        """
        issues = []
        suggestions = []

        # Cümlelere ayır
        sentences = re.split(r'[.!?]+', text)
        sentences = [s.strip() for s in sentences if s.strip()]

        for i, sentence in enumerate(sentences):
            # Büyük harfle başlama kontrolü
            if sentence and not sentence[0].isupper():
                issues.append(f"Cümle {i + 1}: Büyük harfle başlamıyor")
                suggestions.append(f"Cümle {i + 1}: '{sentence[0]}' -> '{sentence[0].upper()}'")

            # Cümle uzunluğu kontrolü
            words = sentence.split()
            if len(words) > self.max_sentence_length:
                issues.append(f"Cümle {i + 1}: Çok uzun ({len(words)} kelime)")
                suggestions.append(f"Cümle {i + 1}: Daha kısa cümlelere bölmeyi düşünün")

            # Noktalama kontrolü
            if i < len(sentences) - 1:  # Son cümle değilse
                if not text.find(sentence + ".") and not text.find(sentence + "!") and not text.find(sentence + "?"):
                    issues.append(f"Cümle {i + 1}: Noktalama işareti eksik olabilir")
                    suggestions.append(f"Cümle {i + 1}: Cümle sonuna uygun noktalama işareti ekleyin")

        return {
            'issues': issues,
            'suggestions': suggestions,
            'issue_count': len(issues)
        }

    def reduce_filler_words(self, text):
        """
        Metindeki doldurma kelimelerini tespit eder ve azaltma önerileri sunar

        Args:
            text: İyileştirilecek metin

        Returns:
            dict: {
                'filler_words': list,  # Bulunan doldurma kelimeleri
                'filler_count': int,   # Doldurma kelimesi sayısı
                'suggested_text': str  # Önerilen iyileştirilmiş metin
            }
        """
        # Metindeki kelimeleri bul
        words = re.findall(r'\b\w+\b', text.lower())

        # Doldurma kelimelerini ve sayılarını say
        filler_counter = Counter()
        for word in words:
            if word.lower() in self.filler_words:
                filler_counter[word.lower()] += 1

        # Metni kelime kelime işle ve fazla doldurma kelimelerini kaldır
        suggested_text = text
        for filler_word, count in filler_counter.items():
            if count > 1:  # Birden fazla geçiyorsa
                # Her bir örneği bul
                occurrences = list(re.finditer(r'\b' + re.escape(filler_word) + r'\b', suggested_text, re.IGNORECASE))

                # İlk geçtiği yer hariç diğerlerini kaldır
                for occurrence in occurrences[1:]:
                    start, end = occurrence.span()
                    # Eğer kelimenin önünde veya arkasında boşluk varsa, onu da kaldır
                    if start > 0 and suggested_text[start - 1] == ' ':
                        start -= 1
                    suggested_text = suggested_text[:start] + suggested_text[end:]

        return {
            'filler_words': list(filler_counter.keys()),
            'filler_count': sum(filler_counter.values()),
            'suggested_text': suggested_text
        }

    def calculate_readability(self, text):
        """
        Metnin okunabilirlik skorunu hesaplar (Türkçe'ye uyarlanmış Flesch Reading Ease)

        Args:
            text: Değerlendirilecek metin

        Returns:
            dict: {
                'score': float,        # Okunabilirlik skoru (0-100)
                'level': str,          # Okunabilirlik seviyesi
                'avg_sentence_length': float, # Ortalama cümle uzunluğu
                'avg_word_length': float      # Ortalama kelime uzunluğu
            }
        """
        # Cümleleri ve kelimeleri ayır
        sentences = re.split(r'[.!?]+', text)
        sentences = [s.strip() for s in sentences if s.strip()]

        total_words = 0
        total_syllables = 0

        for sentence in sentences:
            words = re.findall(r'\b\w+\b', sentence)
            total_words += len(words)

            # Türkçe heceleri kabaca hesapla (sesli harf sayısı)
            for word in words:
                # Türkçedeki sesli harfler
                vowels = 'aeıioöuüAEIİOÖUÜ'
                syllable_count = sum(1 for char in word if char in vowels)
                # En az bir hece olmalı
                syllable_count = max(1, syllable_count)
                total_syllables += syllable_count

        # Hesaplamalar
        if len(sentences) == 0 or total_words == 0:
            return {
                'score': 100,  # Boş metin - en kolay
                'level': 'çok_kolay',
                'avg_sentence_length': 0,
                'avg_word_length': 0
            }

        avg_sentence_length = total_words / len(sentences)
        avg_syllables_per_word = total_syllables / total_words

        # Türkçe için uyarlanmış Flesch Reading Ease
        # (orijinal formül: 206.835 - 1.015 * ASL - 84.6 * ASW)
        # Türkçe için katsayılar ayarlandı
        readability_score = 206.835 - (1.3 * avg_sentence_length) - (60.0 * avg_syllables_per_word)

        # Skoru 0-100 aralığına sınırla
        readability_score = max(0, min(100, readability_score))

        # Seviyeyi belirle
        level = 'çok_zor'
        for threshold_level, threshold_value in sorted(self.readability_thresholds.items(), key=lambda x: x[1]):
            if readability_score >= threshold_value:
                level = threshold_level
                break

        return {
            'score': float(readability_score),
            'level': level,
            'avg_sentence_length': float(avg_sentence_length),
            'avg_word_length': float(avg_syllables_per_word)
        }

    def improve_text(self, text):
        """
        Metni kapsamlı şekilde analiz eder ve iyileştirme önerileri sunar

        Args:
            text: İyileştirilecek metin

        Returns:
            dict: Tüm iyileştirme analizlerini içeren sonuçlar
        """
        if not text or len(text.strip()) == 0:
            return {
                'corrected_text': text,
                'suggestions': [],
                'readability': {
                    'score': 100,
                    'level': 'çok_kolay'
                },
                'improvement_count': 0
            }

        try:
            # Yazım hatalarını düzelt
            typo_results = self.fix_typos(text)

            # Dilbilgisi kontrolü
            grammar_results = self.check_grammar(typo_results['corrected_text'])

            # Doldurma kelimelerini azalt
            filler_results = self.reduce_filler_words(typo_results['corrected_text'])

            # Okunabilirlik hesapla
            readability_results = self.calculate_readability(text)

            # Tüm önerileri birleştir
            all_suggestions = []
            all_suggestions.extend([f"Yazım düzeltmesi: {correction}" for correction in typo_results['corrections']])
            all_suggestions.extend(
                [f"Dilbilgisi önerisi: {suggestion}" for suggestion in grammar_results['suggestions']])

            if filler_results['filler_count'] > 0:
                all_suggestions.append(f"Doldurma kelimelerini azaltın: {', '.join(filler_results['filler_words'])}")

            # Okunabilirlik önerisi
            if readability_results['score'] < 60:  # Orta seviyenin altında ise
                if readability_results['avg_sentence_length'] > 15:
                    all_suggestions.append("Daha kısa cümleler kullanın (ortalama cümle uzunluğu yüksek)")
                if readability_results['avg_word_length'] > 2.5:
                    all_suggestions.append("Daha basit kelimeler kullanmayı deneyin (ortalama hece sayısı yüksek)")

            # Birleştirilmiş sonuç
            return {
                'original_text': text,
                'corrected_text': typo_results['corrected_text'],
                'improved_text': filler_results['suggested_text'],
                'suggestions': all_suggestions,
                'readability': {
                    'score': readability_results['score'],
                    'level': readability_results['level'],
                    'avg_sentence_length': readability_results['avg_sentence_length']
                },
                'improvement_count': len(all_suggestions)
            }

        except Exception as e:
            logger.error(f"Metin iyileştirme sırasında hata: {str(e)}")
            return {
                'original_text': text,
                'corrected_text': text,
                'improved_text': text,
                'suggestions': ["Metin analizi sırasında bir hata oluştu"],
                'readability': {
                    'score': 0,
                    'level': 'bilinmiyor'
                },
                'improvement_count': 0
            }