Zamiast używać InferenceClient, ładujemy model lokalnie za pomocą AutoModelForCausalLM i AutoTokenizer. f7fc778 wiklif commited on Jul 24, 2024
Usunęliśmy globalną zmienną pipeline. Stworzyliśmy funkcję create_pipeline(), która tworzy pipeline za każdym razem, gdy jest potrzebny. 9d9f151 wiklif commited on Jul 24, 2024
Usunięto inicjalizację pipeline'u przy starcie aplikacji. Dodano lazy loading dla pipeline'u w funkcji generate_response() bbe0270 wiklif commited on Jul 24, 2024