Spaces:

siyux1927
/

Chinese-feature-extraction

Sleeping

App Files Files Community

SonyaX20 commited on Jan 14

Commit

27be9b9

1 Parent(s): 79fb563

new

Browse files

Files changed (1) hide show

app.py +67 -71

app.py CHANGED Viewed

@@ -2,6 +2,11 @@ import gradio as gr
 from transformers import AutoModel, AutoTokenizer
 from datasets import load_dataset
 import torch
 # 加载预训练模型和分词器
 MODEL_NAME = "bert-base-chinese"
@@ -25,84 +30,75 @@ def extract_features(text):
     cls_embedding = outputs.last_hidden_state[:, 0, :].squeeze().numpy()
     return cls_embedding
-# Gradio接口
 def predict(text):
     features = extract_features(text)
-    return f"特征维度: {features.shape}\n特征向量（部分展示）: {features[:10]}"
-# 定义界面
 demo = gr.Interface(
     fn=predict,
     inputs=gr.Textbox(lines=2, placeholder="输入中文文本..."),
-    outputs="text",
-    title="中文特征提取",
-    description="基于BERT的中文文本特征提取，使用tnews数据集进行微调。",
 )
 # 运行Gradio应用
 if __name__ == "__main__":
-    demo.launch()
-# import gradio as gr
-# from huggingface_hub import InferenceClient
-# """
-# For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-# """
-# client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
-# def respond(
-#     message,
-#     history: list[tuple[str, str]],
-#     system_message,
-#     max_tokens,
-#     temperature,
-#     top_p,
-# ):
-#     messages = [{"role": "system", "content": system_message}]
-#     for val in history:
-#         if val[0]:
-#             messages.append({"role": "user", "content": val[0]})
-#         if val[1]:
-#             messages.append({"role": "assistant", "content": val[1]})
-#     messages.append({"role": "user", "content": message})
-#     response = ""
-#     for message in client.chat_completion(
-#         messages,
-#         max_tokens=max_tokens,
-#         stream=True,
-#         temperature=temperature,
-#         top_p=top_p,
-#     ):
-#         token = message.choices[0].delta.content
-#         response += token
-#         yield response
-# """
-# For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-# """
-# demo = gr.ChatInterface(
-#     respond,
-#     additional_inputs=[
-#         gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-#         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-#         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-#         gr.Slider(
-#             minimum=0.1,
-#             maximum=1.0,
-#             value=0.95,
-#             step=0.05,
-#             label="Top-p (nucleus sampling)",
-#         ),
-#     ],
-# )
-# if __name__ == "__main__":
-#     demo.launch()

 from transformers import AutoModel, AutoTokenizer
 from datasets import load_dataset
 import torch
+import numpy as np
+from sklearn.manifold import TSNE
+import matplotlib.pyplot as plt
+import io
+import base64
 # 加载预训练模型和分词器
 MODEL_NAME = "bert-base-chinese"
     cls_embedding = outputs.last_hidden_state[:, 0, :].squeeze().numpy()
     return cls_embedding
+# 余弦相似度计算
+def cosine_similarity(vec1, vec2):
+    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
+# 预定义相似性对比文本
+predefined_texts = [
+    "今天的天气很好，我想去散步。",
+    "股票市场今天表现不错。",
+    "人工智能正在改变我们的生活。"
+]
+predefined_features = [extract_features(text) for text in predefined_texts]
+# 绘制降维可视化
+def plot_features(features):
+    # 用 t-SNE 进行降维
+    tsne = TSNE(n_components=2, random_state=42)
+    reduced_features = tsne.fit_transform([features] + predefined_features)
+    colors = ['red'] + ['blue'] * len(predefined_texts)
+    # 绘制图像
+    plt.figure(figsize=(8, 6))
+    for i, point in enumerate(reduced_features):
+        label = "Input" if i == 0 else f"Text {i}"
+        plt.scatter(point[0], point[1], c=colors[i], label=label)
+    plt.legend()
+    plt.title("Feature Vector Visualization (t-SNE)")
+    plt.xlabel("Dimension 1")
+    plt.ylabel("Dimension 2")
+    plt.grid()
+    # 保存图像为字符串
+    buf = io.BytesIO()
+    plt.savefig(buf, format="png")
+    buf.seek(0)
+    img_str = base64.b64encode(buf.read()).decode("utf-8")
+    plt.close()
+    return f'<img src="data:image/png;base64,{img_str}" />'
+# Gradio接口函数
 def predict(text):
+    # 提取特征
     features = extract_features(text)
+    # 计算相似性
+    similarities = [
+        (predefined_texts[i], cosine_similarity(features, predefined_features[i]))
+        for i in range(len(predefined_texts))
+    ]
+    # 构造相似性结果文本
+    similarity_text = "\n".join([f"与 \"{t}\" 的相似度: {s:.2f}" for t, s in similarities])
+    # 降维图
+    tsne_plot = plot_features(features)
+    return f"特征维度: {features.shape}\n特征向量（部分展示）: {features[:10]}\n\n相似性结果:\n{similarity_text}\n", tsne_plot
+# 定义Gradio界面
 demo = gr.Interface(
     fn=predict,
     inputs=gr.Textbox(lines=2, placeholder="输入中文文本..."),
+    outputs=[
+        "text",  # 文本输出
+        "html",  # 图像输出
+    ],
+    title="中文特征提取与分析",
+    description="基于BERT的中文文本特征提取，支持相似性分析与降维可视化。",
 )
 # 运行Gradio应用
 if __name__ == "__main__":
+    demo.launch()