--- library_name: transformers license: mit datasets: - sekerlipencere/zynpdata-zynp_ai-teknofest language: - tr pipeline_tag: summarization tags: - summarization - turkish - mistral - causal-lm --- # Zynp AI Teknofest Cevap Özetleme Modeli Bu model, **Mistral-7B** temel alınarak Türkçe dilinde özetleme görevleri için ince ayar yapılmıştır. Model, belirli bir soruya verilen uzun cevapları özetleyerek daha kısa ve anlaşılır bir bilgi sağlar. Özellikle Türkçe metinleri işlemek için optimize edilmiştir. ## Veri Seti Model, zynpdata-zynp_ai-teknofest: Türkiye'nin En Büyük Açık Kaynaklı Türkçe Veri Seti kullanarak eğitilmiştir. Veri seti hakkında daha fazla bilgi ve veri setinin nasıl kullanılacağıyla ilgili detaylar için [bu bağlantıya](https://sekerlipencere.com.tr/posts/zynpdata-turkiyenin-en-buyuk-acik-kaynakli-turkce-veri-seti/) göz atabilirsiniz. ## Modelin Kullanımı Bu modelin kullanımı oldukça basittir. Aşağıdaki Python kodu ile modelinizi yükleyebilir ve test edebilirsiniz: ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM # Modeli ve tokenizer'ı yükleyin model_name = "ocaklisemih/sekerlipencere/zynpdata-mistral-7b-summarization" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto") # Örnek giriş metni input_text = """[INST]Soru: CS:GO FPS nasıl arttırılır? Hocam çoklu CPU kullanımını ayarlardan kapattıysanız aktif edince 4 5 FPS artar.CS:GO görüntü ayarlarında Uber gölgelendirici kullan komutunu hayır yapmanız öneririm dikey eşitleme FPS'ini sabitler bundan dolayı yüksek FPS değerleri almana mani olur.[/INST] Özet: """ # Giriş metnini tokenizasyon işlemi inputs = tokenizer(input_text, return_tensors="pt").to("cuda") input_ids = inputs["input_ids"] # Modelle özetleme işlemi output = model.generate(input_ids, max_new_tokens=150) output_text = tokenizer.decode(output[0], skip_special_tokens=True) print(output_text) ``` ## Eğitim Detayları Bu model, aşağıdaki ayarlarla eğitilmiştir: * Model: Mistral-7B * Veri Kümesi: sekerlipencere-zynpdata-zynp_ai-teknofest * Eğitim Süresi: 3 epoch * Hiperparametreler: * Öğrenme Oranı: 2e-4 * Toplam Adım: 10,000 * Batch Boyutu: 4 * Gradient Accumulation: 8 * Optimizasyon: LoRA (Low-Rank Adaptation) * Kayıp Fonksiyonu: Causal Language Modeling (CLM) * Model, LoRA yöntemi kullanılarak düşük rank adaptasyonu ile eğitildi ve daha verimli bir şekilde büyük dil modelleri üzerinde ince ayar yapıldı. ## Modelin Özellikleri * Dil: Türkçe * Görev: Özetleme (Summarization) * Model Boyutu: 7B parametre * Quantization: 4-bit NF4 quantization ile optimize edilmiştir. ## Atıf ```bibtex @misc{zynpdata2024, author = {sekerlipencere}, title = {zynpdata: Türkiye'nin En Büyük Açık Kaynaklı Türkçe Forum Veri Seti}, year = {2024}, publisher = {GitHub}, journal = {GitHub Repository}, howpublished = {\url{https://github.com/sekerlipencere/zynpdata-zynp_ai-teknofest}} } ```