Spaces:

icostan
/

livebook

Build error

App Files Files

icostan commited on Jan 5

Commit

15fe45a

verified ·

1 Parent(s): a670533

Upload whisper_chat.livemd

Browse files

Files changed (1) hide show

public-apps/whisper_chat.livemd +81 -0

public-apps/whisper_chat.livemd ADDED Viewed

	@@ -0,0 +1,81 @@

+<!-- livebook:{"autosave_interval_s":60,"persist_outputs":true} -->
+# whisper_chat
+```elixir
+Mix.install(
+  [
+    {:kino_bumblebee, "~> 0.5.0"},
+    {:exla, ">= 0.0.0"}
+  ],
+  config: [nx: [default_backend: EXLA.Backend]]
+)
+# Nx.global_default_backend(EXLA.Backend)
+# Nx.Defn.default_options(compiler: EXLA, client: :cuda, lazy_transfers: :always)
+```
+## Model
+<!-- livebook:{"attrs":"eyJjb21waWxlciI6bnVsbCwibWF4X25ld190b2tlbnMiOjEwMCwidGFza19pZCI6InNwZWVjaF90b190ZXh0IiwidmFyaWFudF9pZCI6IndoaXNwZXJfdGlueSJ9","chunks":[[0,618],[620,1063]],"kind":"Elixir.KinoBumblebee.TaskCell","livebook_object":"smart_cell"} -->
+```elixir
+{:ok, model_info} = Bumblebee.load_model({:hf, "openai/whisper-tiny"})
+{:ok, featurizer} = Bumblebee.load_featurizer({:hf, "openai/whisper-tiny"})
+{:ok, tokenizer} = Bumblebee.load_tokenizer({:hf, "openai/whisper-tiny"})
+{:ok, generation_config} = Bumblebee.load_generation_config({:hf, "openai/whisper-tiny"})
+generation_config = Bumblebee.configure(generation_config, max_new_tokens: 100)
+serving =
+  Bumblebee.Audio.speech_to_text_whisper(
+    model_info,
+    featurizer,
+    tokenizer,
+    generation_config,
+    compile: [batch_size: 4],
+    chunk_num_seconds: 30,
+    timestamps: :segments,
+    stream: true
+  )
+audio_input = Kino.Input.audio("Audio", sampling_rate: featurizer.sampling_rate)
+form = Kino.Control.form([audio: audio_input], submit: "Run")
+frame = Kino.Frame.new()
+Kino.listen(form, fn %{data: %{audio: audio}} ->
+  if audio do
+    audio =
+      audio.file_ref
+      |> Kino.Input.file_path()
+      |> File.read!()
+      |> Nx.from_binary(:f32)
+      |> Nx.reshape({:auto, audio.num_channels})
+      |> Nx.mean(axes: [1])
+    Kino.Frame.render(frame, Kino.Text.new("(Start of transcription)", chunk: true))
+    for chunk <- Nx.Serving.run(serving, audio) do
+      [start_mark, end_mark] =
+        for seconds <- [chunk.start_timestamp_seconds, chunk.end_timestamp_seconds] do
+          seconds |> round() |> Time.from_seconds_after_midnight() |> Time.to_string()
+        end
+      text = "
+#{start_mark}-#{end_mark}: #{chunk.text}"
+      Kino.Frame.append(frame, Kino.Text.new(text, chunk: true))
+    end
+    Kino.Frame.append(frame, Kino.Text.new("\n(End of transcription)", chunk: true))
+  end
+end)
+Kino.Layout.grid([form, frame], boxed: true, gap: 16)
+```
+<!-- livebook:{"output":true} -->
+```
+14:10:10.810 [info] Loaded cuDNN version 90501
+```