Spaces:

soojeongcrystal
/

analysis

Sleeping

App Files Files Community

soojeongcrystal commited on Aug 29, 2024

Commit

8a5357f

verified ·

1 Parent(s): 1e47f6f

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -26

app.py CHANGED Viewed

@@ -20,12 +20,13 @@ def process_file(file):
     elif file.name.endswith('.xlsx'):
         df = pd.read_excel(file.name)
     else:
-        return None, "지원되지 않는 파일 형식입니다."
-    return df, f"{file.name} 파일이 성공적으로 업로드되었습니다."
 def analyze_data(df, query, target_variable, feature_variables):
     if df is None:
-        return "먼저 데이터 파일을 업로드해주세요.", None
     result = nlp(query)[0]
     intent = result['label']
@@ -33,13 +34,13 @@ def analyze_data(df, query, target_variable, feature_variables):
     if '시계열' in query or '추세' in query:
         fig = px.line(df, x=df.columns[0], y=feature_variables, title='시계열 그래프')
-        return f'시계열 그래프를 생성했습니다. (신뢰도: {confidence:.2f})', fig
     elif '분포' in query or '히스토그램' in query:
         fig = px.histogram(df, x=feature_variables[0], title='분포 히스토그램')
-        return f'분포 히스토그램을 생성했습니다. (신뢰도: {confidence:.2f})', fig
     elif '상관관계' in query or '산점도' in query:
         fig = px.scatter_matrix(df[feature_variables], title='상관관계 매트릭스')
-        return f'상관관계 매트릭스를 생성했습니다. (신뢰도: {confidence:.2f})', fig
     elif '예측' in query or '회귀' in query:
         if '랜덤' in query or '포레스트' in query:
             return perform_random_forest(df, target_variable, feature_variables)
@@ -48,7 +49,7 @@ def analyze_data(df, query, target_variable, feature_variables):
     elif '군집' in query or '클러스터링' in query:
         return perform_clustering(df, feature_variables)
     else:
-        return '죄송합니다. 요청을 이해하지 못했습니다.', None
 def perform_regression(df, target, features):
     X = df[features]
@@ -75,7 +76,7 @@ def perform_regression(df, target, features):
     for feature, importance in zip(features, model.coef_):
         result_text += f"- {feature}: {importance:.4f}\n"
-    return result_text, fig
 def perform_random_forest(df, target, features):
     X = df[features]
@@ -103,7 +104,7 @@ def perform_random_forest(df, target, features):
     for feature, importance in sorted(zip(features, importances), key=lambda x: x[1], reverse=True):
         result_text += f"- {feature}: {importance:.4f}\n"
-    return result_text, fig
 def perform_clustering(df, features):
     X = df[features]
@@ -133,24 +134,50 @@ def perform_clustering(df, features):
     return result_text, fig, elbow_fig
-def update_variable_options(df):
-    if df is not None:
-        return gr.Dropdown.update(choices=df.columns), gr.Dropdown.update(choices=df.columns)
-    return gr.Dropdown.update(choices=[]), gr.Dropdown.update(choices=[])
 # Gradio 인터페이스 설정
 with gr.Blocks() as demo:
     gr.Markdown("# 고급 한국어 데이터 분석 앱")
     with gr.Row():
-        file_input = gr.File(label="데이터 파일 업로드 (CSV 또는 XLSX)")
-        upload_output = gr.Textbox(label="업로드 상태")
-    query_input = gr.Textbox(label="분석 요청 입력", placeholder="예: '매출과 비용의 시계열 그래프를 보여줘' 또는 '랜덤 포레스트로 매출을 예측해줘' 또는 '데이터를 군집화해줘'")
-    with gr.Row():
-        target_variable = gr.Dropdown(label="목표 변수 선택")
-        feature_variables = gr.Dropdown(label="특성 변수 선택", multiselect=True)
     with gr.Row():
         result_text = gr.Textbox(label="분석 결과")
@@ -158,13 +185,12 @@ with gr.Blocks() as demo:
     elbow_plot = gr.Plot(label="엘보우 곡선 (군집 분석용)")
-    upload_button = gr.Button("파일 업로드")
-    analyze_button = gr.Button("분석 실행")
     df = gr.State()
-    upload_button.click(process_file, inputs=file_input, outputs=[df, upload_output]).then(
-        update_variable_options, inputs=[df], outputs=[target_variable, feature_variables]
     )
     analyze_button.click(

     elif file.name.endswith('.xlsx'):
         df = pd.read_excel(file.name)
     else:
+        return None, "지원되지 않는 파일 형식입니다.", [], []
+    columns = df.columns.tolist()
+    return df, f"{file.name} 파일이 성공적으로 업로드되었습니다.", columns, columns
 def analyze_data(df, query, target_variable, feature_variables):
     if df is None:
+        return "먼저 데이터 파일을 업로드해주세요.", None, None
     result = nlp(query)[0]
     intent = result['label']
     if '시계열' in query or '추세' in query:
         fig = px.line(df, x=df.columns[0], y=feature_variables, title='시계열 그래프')
+        return f'시계열 그래프를 생성했습니다. (신뢰도: {confidence:.2f})', fig, None
     elif '분포' in query or '히스토그램' in query:
         fig = px.histogram(df, x=feature_variables[0], title='분포 히스토그램')
+        return f'분포 히스토그램을 생성했습니다. (신뢰도: {confidence:.2f})', fig, None
     elif '상관관계' in query or '산점도' in query:
         fig = px.scatter_matrix(df[feature_variables], title='상관관계 매트릭스')
+        return f'상관관계 매트릭스를 생성했습니다. (신뢰도: {confidence:.2f})', fig, None
     elif '예측' in query or '회귀' in query:
         if '랜덤' in query or '포레스트' in query:
             return perform_random_forest(df, target_variable, feature_variables)
     elif '군집' in query or '클러스터링' in query:
         return perform_clustering(df, feature_variables)
     else:
+        return '죄송합니다. 요청을 이해하지 못했습니다.', None, None
 def perform_regression(df, target, features):
     X = df[features]
     for feature, importance in zip(features, model.coef_):
         result_text += f"- {feature}: {importance:.4f}\n"
+    return result_text, fig, None
 def perform_random_forest(df, target, features):
     X = df[features]
     for feature, importance in sorted(zip(features, importances), key=lambda x: x[1], reverse=True):
         result_text += f"- {feature}: {importance:.4f}\n"
+    return result_text, fig, None
 def perform_clustering(df, features):
     X = df[features]
     return result_text, fig, elbow_fig
+# 가이드 텍스트
+guide_text = """
+# 분석 방법 가이드
+이 앱에서 사용할 수 있는 분석 방법과 명령어 예시입니다:
+1. 시계열 분석
+   예시: "매출의 시계열 그래프를 보여줘"
+2. 분포 분석
+   예시: "고객 나이 분포를 히스토그램으로 보여줘"
+3. 상관관계 분석
+   예시: "매출과 광고비의 상관관계를 보여줘"
+4. 선형 회귀 분석
+   예시: "광고비로 매출을 예측해줘"
+5. 랜덤 포레스트 회귀
+   예시: "랜덤 포레스트로 매출을 예측해줘"
+6. 군집 분석
+   예시: "고객 데이터를 군집화해줘"
+분석하고자 하는 변수를 선택한 후, 위의 예시를 참고하여 분석 요청을 입력해주세요.
+"""
 # Gradio 인터페이스 설정
 with gr.Blocks() as demo:
     gr.Markdown("# 고급 한국어 데이터 분석 앱")
     with gr.Row():
+        with gr.Column(scale=2):
+            file_input = gr.File(label="데이터 파일 업로드 (CSV 또는 XLSX)")
+            upload_output = gr.Textbox(label="업로드 상태")
+            query_input = gr.Textbox(label="분석 요청 입력", placeholder="예: '매출과 비용의 시계열 그래프를 보여줘'")
+            with gr.Row():
+                target_variable = gr.Dropdown(label="목표 변수 선택")
+                feature_variables = gr.Dropdown(label="특성 변수 선택", multiselect=True)
+            upload_button = gr.Button("파일 업로드")
+            analyze_button = gr.Button("분석 실행")
+        with gr.Column(scale=1):
+            gr.Markdown(guide_text)
     with gr.Row():
         result_text = gr.Textbox(label="분석 결과")
     elbow_plot = gr.Plot(label="엘보우 곡선 (군집 분석용)")
     df = gr.State()
+    upload_button.click(
+        process_file,
+        inputs=[file_input],
+        outputs=[df, upload_output, target_variable, feature_variables]
     )
     analyze_button.click(