Spaces:

Jiangxz01
/

Generated_Podcast_Audio

Running

App Files Files

Jiangxz01 commited on Sep 27, 2024

Commit

5ecccc7

verified ·

1 Parent(s): fe9bc81

Upload app.py

Browse files

Files changed (1) hide show

app.py +39 -22

app.py CHANGED Viewed

@@ -97,8 +97,19 @@ Follow this JSON example structure, MUST be in {language} language:
         temperature=1
     )
     try:
-        podcast_match = re.search(r'{(.*?)}', response.choices[0].message.content, re.DOTALL)
-        print(response.choices[0].message.content)
     except Exception as e:
         if "API key not valid" in str(e):
             raise gr.Error("Invalid API key. Please provide a valid API key.")
@@ -106,7 +117,6 @@ Follow this JSON example structure, MUST be in {language} language:
             raise gr.Error("Rate limit exceeded for the API key. Please try again later or provide your own API key.")
         else:
             raise gr.Error(f"Failed to generate podcast script: {e}")
-    return podcast_match.group(0)
 async def tts_generate(input_text, speaker1, speaker2):
     speaker1_name = speaker1.split(' - ')[0]
@@ -114,39 +124,46 @@ async def tts_generate(input_text, speaker1, speaker2):
     speaker1_voice = speaker1.split(' - ')[1]
     speaker2_voice = speaker2.split(' - ')[1]
-    podcast_dict = json.loads(input_text)
     podcast_json = {
-        "topic": podcast_dict["topic"],
         "podcast": []
     }
     speaker_map = {
-        "speaker1": 1,
-        "speaker2": 2
     }
-    for line in podcast_dict["podcast"]:
-        speaker = line["speaker"]
-        text = line["line"]
-        voice = speaker1_voice if speaker == "speaker1" else speaker2_voice
-        voice_name = speaker1_name if speaker == "speaker1" else speaker2_name
         communicate = edge_tts.Communicate(text, voice)
-        await communicate.save(f"{voice_name}.mp3")
         podcast_json["podcast"].append({
             "speaker": speaker_map.get(speaker, speaker),
             "line": text
         })
-    combined = AudioSegment.empty()
-    for line in podcast_json["podcast"]:
-        speaker = line["speaker"]
-        voice_name = speaker1_name if speaker == 1 else speaker2_name
-        audio = AudioSegment.from_mp3(f"{voice_name}.mp3")
-        combined += audio
-    combined.export("combined.mp3", format="mp3")
-    return "combined.mp3"
 async def process_podcast(input_text, language, speaker1, speaker2, api_key):
     podcast_script = generate_response(input_text, language, speaker1, speaker2, api_key)

         temperature=1
     )
     try:
+        podcast_match = re.search(r'{.*}', response.choices[0].message.content, re.DOTALL)
+        if podcast_match:
+            podcast_json = podcast_match.group(0)
+            # 嘗試解析 JSON，如果失敗則進行清理
+            try:
+                json.loads(podcast_json)
+            except json.JSONDecodeError:
+                # 清理 JSON 字符串
+                podcast_json = re.sub(r',\s*}', '}', podcast_json)  # 移除最後一個逗號
+                podcast_json = re.sub(r',\s*]', ']', podcast_json)  # 移除數組最後一個逗號
+            return podcast_json
+        else:
+            raise gr.Error("Failed to generate podcast script. Please try again.")
     except Exception as e:
         if "API key not valid" in str(e):
             raise gr.Error("Invalid API key. Please provide a valid API key.")
             raise gr.Error("Rate limit exceeded for the API key. Please try again later or provide your own API key.")
         else:
             raise gr.Error(f"Failed to generate podcast script: {e}")
 async def tts_generate(input_text, speaker1, speaker2):
     speaker1_name = speaker1.split(' - ')[0]
     speaker1_voice = speaker1.split(' - ')[1]
     speaker2_voice = speaker2.split(' - ')[1]
+    try:
+        podcast_dict = json.loads(input_text)
+    except json.JSONDecodeError:
+        # 如果 JSON 解析失敗，嘗試清理輸入
+        cleaned_input = re.sub(r',\s*}', '}', input_text)
+        cleaned_input = re.sub(r',\s*]', ']', cleaned_input)
+        podcast_dict = json.loads(cleaned_input)
     podcast_json = {
+        "topic": podcast_dict.get("topic", "Unknown Topic"),
         "podcast": []
     }
     speaker_map = {
+        1: "speaker1",
+        2: "speaker2"
     }
+    combined = AudioSegment.empty()
+    for line in podcast_dict.get("podcast", []):
+        speaker = line.get("speaker")
+        text = line.get("line", "")
+        voice = speaker1_voice if speaker == 1 else speaker2_voice
+        voice_name = speaker1_name if speaker == 1 else speaker2_name
         communicate = edge_tts.Communicate(text, voice)
+        audio_file = f"{voice_name}_{uuid.uuid4()}.mp3"
+        await communicate.save(audio_file)
+        audio = AudioSegment.from_mp3(audio_file)
+        combined += audio
+        os.remove(audio_file)  # 刪除臨時文件
         podcast_json["podcast"].append({
             "speaker": speaker_map.get(speaker, speaker),
             "line": text
         })
+    output_file = f"combined_{uuid.uuid4()}.mp3"
+    combined.export(output_file, format="mp3")
+    return output_file
 async def process_podcast(input_text, language, speaker1, speaker2, api_key):
     podcast_script = generate_response(input_text, language, speaker1, speaker2, api_key)