Spaces:

dstars
/

InternVL_foodie

Runtime error

App Files Files Community

dstars commited on Jan 14

Commit

12afd35

verified ·

1 Parent(s): 4bebcaf

Upload 10 files

Browse files

Files changed (10) hide show

app.py +119 -0
outputs/logs/Jan14_09-50-48.txt +53 -0
outputs/logs/Jan14_11-23-28.txt +47 -0
outputs/logs/Jan14_11-28-57.txt +47 -0
outputs/uploaded/0.jpg +0 -0
process_food.py +25 -0
requirements.txt +158 -0
utils.py +25 -0
xtuner_config/.ipynb_checkpoints/internvl_v2_internlm2_2b_lora_finetune_food-checkpoint.py +184 -0
xtuner_config/internvl_v2_internlm2_2b_lora_finetune_food.py +184 -0

app.py ADDED Viewed

	@@ -0,0 +1,119 @@

+import os
+import random
+import numpy as np
+import torch
+import torch.backends.cudnn as cudnn
+import gradio as gr
+from utils import load_json, init_logger
+from demo import ConversationalAgent, CustomTheme
+FOOD_EXAMPLES = "./demo/food_for_demo.json"
+# MODEL_PATH = "/root/share/new_models/OpenGVLab/InternVL2-2B"
+MODEL_PATH = "./lr35_ep10"
+OUTPUT_PATH = "./outputs"
+def setup_seeds():
+    seed = 42
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    cudnn.benchmark = False
+    cudnn.deterministic = True
+def main():
+    setup_seeds()
+    # logging
+    init_logger(OUTPUT_PATH)
+    # food examples
+    food_examples = load_json(FOOD_EXAMPLES)
+    agent = ConversationalAgent(model_path=MODEL_PATH,
+                                outputs_dir=OUTPUT_PATH)
+    theme = CustomTheme()
+    titles = [
+        """<center><B><font face="Comic Sans MS" size=10>书生大模型实战营</font></B></center>"""  ## Kalam:wght@700
+        """<center><B><font face="Courier" size=5>「进阶岛」InternVL 多模态模型部署微调实践</font></B></center>"""
+    ]
+    language = """Language: 中文 and English"""
+    with gr.Blocks(theme) as demo_chatbot:
+        for title in titles:
+            gr.Markdown(title)
+        # gr.Markdown(article)
+        gr.Markdown(language)
+        with gr.Row():
+            with gr.Column(scale=3):
+                start_btn = gr.Button("Start Chat", variant="primary", interactive=True)
+                clear_btn = gr.Button("Clear Context", interactive=False)
+                image = gr.Image(type="pil", interactive=False)
+                upload_btn = gr.Button("🖼️ Upload Image", interactive=False)
+                with gr.Accordion("Generation Settings"):
+                    top_p = gr.Slider(minimum=0, maximum=1, step=0.1,
+                                      value=0.8,
+                                      interactive=True,
+                                      label='top-p value',
+                                      visible=True)
+                    temperature = gr.Slider(minimum=0, maximum=1.5, step=0.1,
+                                            value=0.8,
+                                            interactive=True,
+                                            label='temperature',
+                                            visible=True)
+            with gr.Column(scale=7):
+                chat_state = gr.State()
+                chatbot = gr.Chatbot(label='InternVL2', height=800, avatar_images=((os.path.join(os.path.dirname(__file__), 'demo/user.png')), (os.path.join(os.path.dirname(__file__), "demo/bot.png"))))
+                text_input = gr.Textbox(label='User', placeholder="Please click the <Start Chat> button to start chat!", interactive=False)
+                gr.Markdown("### 输入示例")
+                def on_text_change(text):
+                    return gr.update(interactive=True)
+                text_input.change(fn=on_text_change, inputs=text_input, outputs=text_input)
+                gr.Examples(
+                    examples=[["图片中的食物通常属于哪个菜系?"],
+                              ["如果让你简单形容一下品尝图片中的食物的滋味，你会描述它"],
+                              ["去哪个地方游玩时应该品尝当地的特色美食图片中的食物?"],
+                              ["食用图片中的食物时，一般它上菜或摆盘时的特点是?"]],
+                    inputs=[text_input]
+                )
+        with gr.Row():
+            gr.Markdown("### 食物快捷栏")
+        with gr.Row():
+            example_xinjiang_food = gr.Examples(examples=food_examples["新疆菜"], inputs=image, label="新疆菜")
+            example_sichuan_food = gr.Examples(examples=food_examples["川菜（四川，重庆）"], inputs=image, label="川菜（四川，重庆）")
+            example_xibei_food = gr.Examples(examples=food_examples["西北菜 （陕西，甘肃等地）"], inputs=image, label="西北菜 （陕西，甘肃等地）")
+        with gr.Row():
+            example_guizhou_food = gr.Examples(examples=food_examples["黔菜 (贵州）"], inputs=image, label="黔菜 (贵州）")
+            example_jiangsu_food = gr.Examples(examples=food_examples["苏菜（江苏）"], inputs=image, label="苏菜（江苏）")
+            example_guangdong_food = gr.Examples(examples=food_examples["粤菜（广东等地）"], inputs=image, label="粤菜（广东等地）")
+        with gr.Row():
+            example_hunan_food = gr.Examples(examples=food_examples["湘菜（湖南）"], inputs=image, label="湘菜（湖南）")
+            example_fujian_food = gr.Examples(examples=food_examples["闽菜（福建）"], inputs=image, label="闽菜（福建）")
+            example_zhejiang_food = gr.Examples(examples=food_examples["浙菜（浙江）"], inputs=image, label="浙菜（��江）")
+        with gr.Row():
+            example_dongbei_food = gr.Examples(examples=food_examples["东北菜 （黑龙江等地）"], inputs=image, label="东北菜 （黑龙江等地）")
+        start_btn.click(agent.start_chat, [chat_state], [text_input, start_btn, clear_btn, image, upload_btn, chat_state])
+        clear_btn.click(agent.restart_chat, [chat_state], [chatbot, text_input, start_btn, clear_btn, image, upload_btn, chat_state], queue=False)
+        upload_btn.click(agent.upload_image, [image, chatbot, chat_state], [image, chatbot, chat_state])
+        text_input.submit(
+            agent.respond,
+            inputs=[text_input, image, chatbot, top_p, temperature, chat_state],
+            outputs=[text_input, image, chatbot, chat_state]
+        )
+    demo_chatbot.launch(share=True, server_name="127.0.0.1", server_port=1096, allowed_paths=['./'])
+    demo_chatbot.queue()
+if __name__ == "__main__":
+    main()

outputs/logs/Jan14_09-50-48.txt ADDED Viewed

	@@ -0,0 +1,53 @@

+2025-01-14 09:50:53,500 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:50:53,502 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:50:53,502 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:50:53,502 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:50:53,537 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:50:53,537 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:50:53,537 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:50:53,537 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:50:54,641 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:50:54,642 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:50:54,642 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:50:54,642 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:51:27,929 modeling_internvl_chat.py[line:54] INFO || num_image_token: 256
+2025-01-14 09:51:27,930 modeling_internvl_chat.py[line:55] INFO || ps_version: v2
+2025-01-14 09:53:54,644 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:53:54,645 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:53:54,646 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:53:54,646 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:53:55,190 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:53:55,190 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:53:55,190 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:53:55,190 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:53:55,199 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:53:55,199 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:53:55,199 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:53:55,199 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:53:55,220 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:53:55,220 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:53:55,220 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:53:55,220 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:53:55,233 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:53:55,233 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:53:55,233 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:53:55,233 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:53:55,241 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:53:55,242 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:53:55,242 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:53:55,242 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:53:55,251 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 09:53:55,251 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 09:53:55,251 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 09:53:55,251 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 09:54:03,863 _client.py[line:1025] INFO || HTTP Request: GET https://checkip.amazonaws.com/ "HTTP/1.1 200 "
+2025-01-14 09:54:03,950 _client.py[line:1025] INFO || HTTP Request: GET https://api.gradio.app/pkg-version "HTTP/1.1 200 OK"
+2025-01-14 09:54:11,354 _client.py[line:1025] INFO || HTTP Request: GET http://127.0.0.1:1096/startup-events "HTTP/1.1 200 OK"
+2025-01-14 09:54:11,700 _client.py[line:1025] INFO || HTTP Request: HEAD http://127.0.0.1:1096/ "HTTP/1.1 200 OK"
+2025-01-14 09:54:12,493 _client.py[line:1025] INFO || HTTP Request: GET https://api.gradio.app/v2/tunnel-request "HTTP/1.1 200 OK"
+2025-01-14 10:07:49,759 agent.py[line:30] INFO || ==============================Start Chat==============================
+2025-01-14 10:08:03,453 agent.py[line:84] INFO || Time: Jan14-10:08:03
+2025-01-14 10:08:03,453 agent.py[line:85] INFO || User: 去哪个地方游玩时应该品尝当地的特色美食图片中的食物?
+2025-01-14 10:08:03,706 agent.py[line:91] INFO || image save path: /root/InternVL2-Tutorial/outputs/uploaded/0.jpg
+2025-01-14 10:08:21,808 agent.py[line:103] INFO || generated text =
+广东，图中的菜是鸡蛋肠粉

outputs/logs/Jan14_11-23-28.txt ADDED Viewed

	@@ -0,0 +1,47 @@

+2025-01-14 11:23:29,817 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:29,817 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:29,817 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:29,817 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:29,838 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:29,838 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:29,838 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:29,838 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:30,712 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:30,713 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:30,713 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:30,713 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:38,556 modeling_internvl_chat.py[line:54] INFO || num_image_token: 256
+2025-01-14 11:23:38,556 modeling_internvl_chat.py[line:55] INFO || ps_version: v2
+2025-01-14 11:23:43,589 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:43,593 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:43,593 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:43,593 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:43,778 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:43,778 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:43,778 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:43,778 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:43,787 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:43,787 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:43,787 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:43,787 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:43,798 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:43,798 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:43,798 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:43,798 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:43,817 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:43,817 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:43,818 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:43,818 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:43,834 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:43,834 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:43,834 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:43,834 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:43,846 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:23:43,846 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:23:43,846 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:23:43,846 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:23:51,555 _client.py[line:1025] INFO || HTTP Request: GET https://checkip.amazonaws.com/ "HTTP/1.1 200 "
+2025-01-14 11:23:52,073 _client.py[line:1025] INFO || HTTP Request: GET https://api.gradio.app/pkg-version "HTTP/1.1 200 OK"
+2025-01-14 11:23:57,909 _client.py[line:1025] INFO || HTTP Request: GET http://127.0.0.1:1096/startup-events "HTTP/1.1 200 OK"
+2025-01-14 11:23:58,092 _client.py[line:1025] INFO || HTTP Request: HEAD http://127.0.0.1:1096/ "HTTP/1.1 200 OK"
+2025-01-14 11:23:58,906 _client.py[line:1025] INFO || HTTP Request: GET https://api.gradio.app/v2/tunnel-request "HTTP/1.1 200 OK"

outputs/logs/Jan14_11-28-57.txt ADDED Viewed

	@@ -0,0 +1,47 @@

+2025-01-14 11:28:58,580 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:28:58,580 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:28:58,580 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:28:58,580 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:28:58,594 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:28:58,594 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:28:58,594 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:28:58,594 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:28:59,395 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:28:59,395 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:28:59,395 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:28:59,395 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:07,303 modeling_internvl_chat.py[line:54] INFO || num_image_token: 256
+2025-01-14 11:29:07,304 modeling_internvl_chat.py[line:55] INFO || ps_version: v2
+2025-01-14 11:29:11,003 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:29:11,003 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:29:11,003 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:29:11,003 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:11,211 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:29:11,211 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:29:11,211 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:29:11,211 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:11,225 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:29:11,225 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:29:11,225 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:29:11,225 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:11,240 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:29:11,240 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:29:11,240 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:29:11,240 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:11,254 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:29:11,254 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:29:11,254 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:29:11,254 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:11,265 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:29:11,265 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:29:11,265 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:29:11,265 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:11,291 configuration_internvl_chat.py[line:68] INFO || vision_select_layer: -1
+2025-01-14 11:29:11,291 configuration_internvl_chat.py[line:69] INFO || ps_version: v2
+2025-01-14 11:29:11,291 configuration_internvl_chat.py[line:70] INFO || min_dynamic_patch: 1
+2025-01-14 11:29:11,291 configuration_internvl_chat.py[line:71] INFO || max_dynamic_patch: 12
+2025-01-14 11:29:18,842 _client.py[line:1025] INFO || HTTP Request: GET https://checkip.amazonaws.com/ "HTTP/1.1 200 "
+2025-01-14 11:29:19,239 _client.py[line:1025] INFO || HTTP Request: GET https://api.gradio.app/pkg-version "HTTP/1.1 200 OK"
+2025-01-14 11:29:19,866 _client.py[line:1025] INFO || HTTP Request: GET http://127.0.0.1:1096/startup-events "HTTP/1.1 200 OK"
+2025-01-14 11:29:19,979 _client.py[line:1025] INFO || HTTP Request: HEAD http://127.0.0.1:1096/ "HTTP/1.1 200 OK"
+2025-01-14 11:29:20,806 _client.py[line:1025] INFO || HTTP Request: GET https://api.gradio.app/v2/tunnel-request "HTTP/1.1 200 OK"

outputs/uploaded/0.jpg ADDED Viewed

process_food.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import json
+input_path = "/root/huggingface/FoodieQA/FoodieQA/sivqa_tidy.json"  # sivqa_tidy.json所在位置
+output_path = "/root/huggingface/FoodieQA/FoodieQA/sivqa_llava.json"  # 输出文件位置
+with open(input_path, 'r', encoding='utf-8') as f:
+    foodqa = json.load(f)
+llava_format = []
+for data in foodqa:
+    llava_format.append({
+        "image": data['food_meta']['food_file'],
+        "conversations": [
+            {
+                "from": "human",
+                "value": data['question']+"\n<image>"
+            },
+            {
+                "from": "gpt",
+                "value": data['choices'][int(data['answer'])] + "，图中的菜是"+ data['food_meta']['food_name']
+            }
+        ]
+    })
+with open(output_path, 'w', encoding='utf-8') as f:
+    json.dump(llava_format, f, indent=4, ensure_ascii=False)

requirements.txt ADDED Viewed

	@@ -0,0 +1,158 @@

+accelerate==0.33.0
+addict==2.4.0
+aiofiles==23.2.1
+aiohttp==3.9.5
+aiosignal==1.3.1
+altair==5.3.0
+annotated-types==0.7.0
+anyio==4.4.0
+asttokens==2.4.1
+async-timeout==4.0.3
+attrs==23.2.0
+bitsandbytes==0.43.1
+blinker==1.8.2
+cachetools==5.4.0
+click==8.1.7
+comm==0.2.2
+contourpy==1.2.1
+cycler==0.12.1
+datasets==2.19.2
+debugpy==1.8.1
+decorator==5.1.1
+dill==0.3.8
+distro==1.9.0
+dnspython==2.6.1
+einops==0.6.1
+einops-exts==0.0.4
+email_validator==2.1.1
+exceptiongroup==1.2.1
+executing==2.0.1
+fastapi==0.115.6
+fastapi-cli==0.0.4
+ffmpy==0.3.2
+fire==0.6.0
+fonttools==4.53.0
+frozenlist==1.4.1
+fsspec==2024.3.1
+gitdb==4.0.11
+GitPython==3.1.43
+gradio==4.44.1
+gradio_client==1.3.0
+grpcio==1.64.1
+h11==0.14.0
+httpcore==1.0.7
+httptools==0.6.1
+httpx==0.28.1
+huggingface-hub==0.26.5
+importlib_metadata==7.1.0
+importlib_resources==6.4.0
+ipykernel==6.29.4
+ipython==8.25.0
+jedi==0.19.1
+jiter==0.5.0
+joblib==1.4.2
+jsonschema==4.22.0
+jsonschema-specifications==2023.12.1
+jupyter_client==8.6.2
+jupyter_core==5.7.2
+kiwisolver==1.4.5
+lmdeploy==0.5.3
+markdown-it-py==3.0.0
+markdown2==2.4.13
+matplotlib==3.9.0
+matplotlib-inline==0.1.7
+mdurl==0.1.2
+mkl-service==2.4.0
+mmengine-lite==0.10.4
+multidict==6.0.5
+multiprocess==0.70.16
+nest-asyncio==1.6.0
+nvidia-cublas-cu12==12.5.2.13
+nvidia-cuda-runtime-cu12==12.5.39
+nvidia-curand-cu12==10.3.6.39
+nvidia-nccl-cu12==2.21.5
+openai==1.58.1
+orjson==3.10.5
+packaging==24.1
+pandas==2.2.2
+parso==0.8.4
+peft==0.9.0
+pexpect==4.9.0
+platformdirs==4.2.2
+prompt_toolkit==3.0.47
+protobuf==4.25.3
+psutil==5.9.8
+ptyprocess==0.7.0
+pure-eval==0.2.2
+pyarrow==16.1.0
+pyarrow-hotfix==0.6
+pybind11==2.12.0
+pydantic==2.7.4
+pydantic_core==2.18.4
+pydeck==0.9.1
+pydub==0.25.1
+Pygments==2.18.0
+pynvml==11.5.0
+pyparsing==3.1.2
+python-dateutil==2.9.0.post0
+python-dotenv==1.0.1
+python-multipart==0.0.19
+python-rapidjson==1.17
+pytz==2024.1
+pyzmq==26.0.3
+referencing==0.35.1
+regex==2024.5.15
+requests==2.32.3
+rich==13.7.1
+rpds-py==0.18.1
+ruff==0.4.9
+safehttpx==0.1.6
+safetensors==0.4.3
+scikit-learn==1.2.2
+scipy==1.13.1
+semantic-version==2.10.0
+sentencepiece==0.1.99
+shellingham==1.5.4
+shortuuid==1.0.13
+six==1.16.0
+smmap==5.0.1
+sniffio==1.3.1
+stack-data==0.6.3
+starlette==0.41.3
+streamlit==1.37.0
+svgwrite==1.4.3
+tenacity==8.5.0
+termcolor==2.4.0
+threadpoolctl==3.5.0
+tiktoken==0.7.0
+timm==1.0.8
+tokenizers==0.15.1
+toml==0.10.2
+tomli==2.0.1
+tomlkit==0.12.0
+toolz==0.12.1
+torch==2.1.2
+torchaudio==2.1.2
+torchvision==0.16.2
+tornado==6.4.1
+tqdm==4.66.4
+traitlets==5.14.3
+transformers==4.39.3
+transformers-stream-generator==0.0.5
+triton==2.1.0
+tritonclient==2.46.0
+typer==0.12.3
+typing_extensions==4.12.2
+tzdata==2024.1
+ujson==5.10.0
+uvicorn==0.30.1
+uvloop==0.19.0
+watchdog==4.0.1
+watchfiles==0.22.0
+wavedrom==2.0.3.post3
+wcwidth==0.2.13
+websockets==11.0.3
+xxhash==3.4.1
+yapf==0.40.2
+yarl==1.9.4
+zipp==3.19.2

utils.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import os
+import json
+import logging
+from datetime import datetime
+def load_json(file_name: str):
+    if isinstance(file_name, str) and file_name.endswith("json"):
+        with open(file_name, 'r') as file:
+            data = json.load(file)
+    else:
+        raise ValueError("The file path you passed in is not a json file path.")
+    return data
+def init_logger(outputs_dir):
+    current_time = datetime.now().strftime("%b%d_%H-%M-%S")
+    os.makedirs(os.path.join(outputs_dir, "logs"), exist_ok=True)
+    log_path = os.path.join(outputs_dir, "logs", "{}.txt".format(current_time))
+    logging.basicConfig(
+        level=logging.INFO,
+        format="%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s || %(message)s",
+        handlers=[logging.StreamHandler(), logging.FileHandler(log_path)],
+    )

xtuner_config/.ipynb_checkpoints/internvl_v2_internlm2_2b_lora_finetune_food-checkpoint.py ADDED Viewed

	@@ -0,0 +1,184 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+from mmengine.hooks import (CheckpointHook, DistSamplerSeedHook, IterTimerHook,
+                            LoggerHook, ParamSchedulerHook)
+from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
+from peft import LoraConfig
+from torch.optim import AdamW
+from transformers import AutoTokenizer
+from xtuner.dataset import InternVL_V1_5_Dataset
+from xtuner.dataset.collate_fns import default_collate_fn
+from xtuner.dataset.samplers import LengthGroupedSampler
+from xtuner.engine.hooks import DatasetInfoHook
+from xtuner.engine.runner import TrainLoop
+from xtuner.model import InternVL_V1_5
+from xtuner.utils import PROMPT_TEMPLATE
+#######################################################################
+#                          PART 1  Settings                           #
+#######################################################################
+# Model
+path = '/root/share/new_models/OpenGVLab/InternVL2-2B'
+# Data
+data_root = '/root/share/datasets/FoodieQA/'  # your data path
+data_path = data_root + 'sivqa_llava.json'
+image_folder = data_root  # your image folder path
+prompt_template = PROMPT_TEMPLATE.internlm2_chat
+max_length = 8192
+# Scheduler & Optimizer
+batch_size = 4  # per_device
+accumulative_counts = 2
+dataloader_num_workers = 4
+max_epochs = 10
+optim_type = AdamW
+# official 1024 -> 4e-5
+# lr = 1e-6
+lr = 3e-5
+betas = (0.9, 0.999)
+weight_decay = 0.05
+max_norm = 1  # grad clip
+warmup_ratio = 0.03
+# Save
+save_steps = 64
+save_total_limit = -1  # Maximum checkpoints to keep (-1 means unlimited)
+#######################################################################
+#            PART 2  Model & Tokenizer & Image Processor              #
+#######################################################################
+model = dict(
+    type=InternVL_V1_5,
+    model_path=path,
+    freeze_llm=True,
+    freeze_visual_encoder=True,
+    # comment the following lines if you don't want to use Lora in llm
+    llm_lora=dict(
+        type=LoraConfig,
+        r=128,
+        lora_alpha=256,
+        lora_dropout=0.05,
+        target_modules=None,
+        task_type='CAUSAL_LM'),
+    # uncomment the following lines if you don't want to use Lora in visual encoder # noqa
+    # visual_encoder_lora=dict(
+    #     type=LoraConfig, r=64, lora_alpha=16, lora_dropout=0.05,
+    #     target_modules=['attn.qkv', 'attn.proj', 'mlp.fc1', 'mlp.fc2'])
+)
+#######################################################################
+#                      PART 3  Dataset & Dataloader                   #
+#######################################################################
+llava_dataset = dict(
+    type=InternVL_V1_5_Dataset,
+    model_path=path,
+    data_paths=data_path,
+    image_folders=image_folder,
+    template=prompt_template,
+    max_length=max_length)
+train_dataloader = dict(
+    batch_size=batch_size,
+    num_workers=dataloader_num_workers,
+    dataset=llava_dataset,
+    sampler=dict(
+        type=LengthGroupedSampler,
+        length_property='modality_length',
+        per_device_batch_size=batch_size * accumulative_counts),
+    collate_fn=dict(type=default_collate_fn))
+#######################################################################
+#                    PART 4  Scheduler & Optimizer                    #
+#######################################################################
+# optimizer
+optim_wrapper = dict(
+    type=AmpOptimWrapper,
+    optimizer=dict(
+        type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
+    clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
+    accumulative_counts=accumulative_counts,
+    loss_scale='dynamic',
+    dtype='float16')
+# learning policy
+# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md  # noqa: E501
+param_scheduler = [
+    dict(
+        type=LinearLR,
+        start_factor=1e-5,
+        by_epoch=True,
+        begin=0,
+        end=warmup_ratio * max_epochs,
+        convert_to_iter_based=True),
+    dict(
+        type=CosineAnnealingLR,
+        eta_min=0.0,
+        by_epoch=True,
+        begin=warmup_ratio * max_epochs,
+        end=max_epochs,
+        convert_to_iter_based=True)
+]
+# train, val, test setting
+train_cfg = dict(type=TrainLoop, max_epochs=max_epochs)
+#######################################################################
+#                           PART 5  Runtime                           #
+#######################################################################
+# Log the dialogue periodically during the training process, optional
+tokenizer = dict(
+    type=AutoTokenizer.from_pretrained,
+    pretrained_model_name_or_path=path,
+    trust_remote_code=True)
+custom_hooks = [
+    dict(type=DatasetInfoHook, tokenizer=tokenizer),
+]
+# configure default hooks
+default_hooks = dict(
+    # record the time of every iteration.
+    timer=dict(type=IterTimerHook),
+    # print log every 10 iterations.
+    logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10),
+    # enable the parameter scheduler.
+    param_scheduler=dict(type=ParamSchedulerHook),
+    # save checkpoint per `save_steps`.
+    checkpoint=dict(
+        type=CheckpointHook,
+        save_optimizer=False,
+        by_epoch=False,
+        interval=save_steps,
+        max_keep_ckpts=save_total_limit),
+    # set sampler seed in distributed evrionment.
+    sampler_seed=dict(type=DistSamplerSeedHook),
+)
+# configure environment
+env_cfg = dict(
+    # whether to enable cudnn benchmark
+    cudnn_benchmark=False,
+    # set multi process parameters
+    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0),
+    # set distributed parameters
+    dist_cfg=dict(backend='nccl'),
+)
+# set visualizer
+visualizer = None
+# set log level
+log_level = 'INFO'
+# load from which checkpoint
+load_from = None
+# whether to resume training from the loaded checkpoint
+resume = False
+# Defaults to use random seed and disable `deterministic`
+randomness = dict(seed=None, deterministic=False)
+# set log processor
+log_processor = dict(by_epoch=False)

xtuner_config/internvl_v2_internlm2_2b_lora_finetune_food.py ADDED Viewed

	@@ -0,0 +1,184 @@

+# Copyright (c) OpenMMLab. All rights reserved.
+from mmengine.hooks import (CheckpointHook, DistSamplerSeedHook, IterTimerHook,
+                            LoggerHook, ParamSchedulerHook)
+from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
+from peft import LoraConfig
+from torch.optim import AdamW
+from transformers import AutoTokenizer
+from xtuner.dataset import InternVL_V1_5_Dataset
+from xtuner.dataset.collate_fns import default_collate_fn
+from xtuner.dataset.samplers import LengthGroupedSampler
+from xtuner.engine.hooks import DatasetInfoHook
+from xtuner.engine.runner import TrainLoop
+from xtuner.model import InternVL_V1_5
+from xtuner.utils import PROMPT_TEMPLATE
+#######################################################################
+#                          PART 1  Settings                           #
+#######################################################################
+# Model
+path = '/root/share/new_models/OpenGVLab/InternVL2-2B'
+# Data
+data_root = '/root/share/datasets/FoodieQA/'  # your data path
+data_path = data_root + 'sivqa_llava.json'
+image_folder = data_root  # your image folder path
+prompt_template = PROMPT_TEMPLATE.internlm2_chat
+max_length = 8192
+# Scheduler & Optimizer
+batch_size = 4  # per_device
+accumulative_counts = 2
+dataloader_num_workers = 4
+max_epochs = 10
+optim_type = AdamW
+# official 1024 -> 4e-5
+# lr = 1e-6
+lr = 3e-5
+betas = (0.9, 0.999)
+weight_decay = 0.05
+max_norm = 1  # grad clip
+warmup_ratio = 0.03
+# Save
+save_steps = 64
+save_total_limit = -1  # Maximum checkpoints to keep (-1 means unlimited)
+#######################################################################
+#            PART 2  Model & Tokenizer & Image Processor              #
+#######################################################################
+model = dict(
+    type=InternVL_V1_5,
+    model_path=path,
+    freeze_llm=True,
+    freeze_visual_encoder=True,
+    # comment the following lines if you don't want to use Lora in llm
+    llm_lora=dict(
+        type=LoraConfig,
+        r=128,
+        lora_alpha=256,
+        lora_dropout=0.05,
+        target_modules=None,
+        task_type='CAUSAL_LM'),
+    # uncomment the following lines if you don't want to use Lora in visual encoder # noqa
+    # visual_encoder_lora=dict(
+    #     type=LoraConfig, r=64, lora_alpha=16, lora_dropout=0.05,
+    #     target_modules=['attn.qkv', 'attn.proj', 'mlp.fc1', 'mlp.fc2'])
+)
+#######################################################################
+#                      PART 3  Dataset & Dataloader                   #
+#######################################################################
+llava_dataset = dict(
+    type=InternVL_V1_5_Dataset,
+    model_path=path,
+    data_paths=data_path,
+    image_folders=image_folder,
+    template=prompt_template,
+    max_length=max_length)
+train_dataloader = dict(
+    batch_size=batch_size,
+    num_workers=dataloader_num_workers,
+    dataset=llava_dataset,
+    sampler=dict(
+        type=LengthGroupedSampler,
+        length_property='modality_length',
+        per_device_batch_size=batch_size * accumulative_counts),
+    collate_fn=dict(type=default_collate_fn))
+#######################################################################
+#                    PART 4  Scheduler & Optimizer                    #
+#######################################################################
+# optimizer
+optim_wrapper = dict(
+    type=AmpOptimWrapper,
+    optimizer=dict(
+        type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
+    clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
+    accumulative_counts=accumulative_counts,
+    loss_scale='dynamic',
+    dtype='float16')
+# learning policy
+# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md  # noqa: E501
+param_scheduler = [
+    dict(
+        type=LinearLR,
+        start_factor=1e-5,
+        by_epoch=True,
+        begin=0,
+        end=warmup_ratio * max_epochs,
+        convert_to_iter_based=True),
+    dict(
+        type=CosineAnnealingLR,
+        eta_min=0.0,
+        by_epoch=True,
+        begin=warmup_ratio * max_epochs,
+        end=max_epochs,
+        convert_to_iter_based=True)
+]
+# train, val, test setting
+train_cfg = dict(type=TrainLoop, max_epochs=max_epochs)
+#######################################################################
+#                           PART 5  Runtime                           #
+#######################################################################
+# Log the dialogue periodically during the training process, optional
+tokenizer = dict(
+    type=AutoTokenizer.from_pretrained,
+    pretrained_model_name_or_path=path,
+    trust_remote_code=True)
+custom_hooks = [
+    dict(type=DatasetInfoHook, tokenizer=tokenizer),
+]
+# configure default hooks
+default_hooks = dict(
+    # record the time of every iteration.
+    timer=dict(type=IterTimerHook),
+    # print log every 10 iterations.
+    logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10),
+    # enable the parameter scheduler.
+    param_scheduler=dict(type=ParamSchedulerHook),
+    # save checkpoint per `save_steps`.
+    checkpoint=dict(
+        type=CheckpointHook,
+        save_optimizer=False,
+        by_epoch=False,
+        interval=save_steps,
+        max_keep_ckpts=save_total_limit),
+    # set sampler seed in distributed evrionment.
+    sampler_seed=dict(type=DistSamplerSeedHook),
+)
+# configure environment
+env_cfg = dict(
+    # whether to enable cudnn benchmark
+    cudnn_benchmark=False,
+    # set multi process parameters
+    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0),
+    # set distributed parameters
+    dist_cfg=dict(backend='nccl'),
+)
+# set visualizer
+visualizer = None
+# set log level
+log_level = 'INFO'
+# load from which checkpoint
+load_from = None
+# whether to resume training from the loaded checkpoint
+resume = False
+# Defaults to use random seed and disable `deterministic`
+randomness = dict(seed=None, deterministic=False)
+# set log processor
+log_processor = dict(by_epoch=False)