추가된 weight값에 대하여 문의 드립니다.

#4
by yigeon - opened

일단 좋은 모델 공유 해주셔서 감사드립니다.

base model로 llama 3.2 3B를 사용하신 것 같은데 공개된 모델의 weight가 5B네요.

2B가 혹시 어디에서 추가된 건지 공유 가능하실까요??

직접적인 공유가 어렵다면 참고하신 paper 공유가 가능할까요??

llama 3.2 3B에서 tie embeding을 풀었고
이미지를 지원하기 위해 LlamaForCausalLM에서 MllamaForConditionalGeneration으로 바뀌면서 CrossAttentionBlock과 vision_model이 추가되서 파라미터가 증가하였습니다
자세한 내용은 아래의 논문의 7장 "Vision Experiments"을 참고하길 바랍니다

https://arxiv.org/abs/2407.21783

llama 3.2의 백본 아키를 구현하셨나 보네요.

제가 생각했던 것보다 CrossAttentionBlock의 weight가 큰가 보네요.

다시 한번 좋은 모델 감사드립니다!!

좋은 하루 보내세요~

Bllossom org

안녕하세요 서울과학기술대학교 MLP Lab
신동재 연구원입니다.

CrossAttention이 8개 레이어가 추가(언어 모델 레이어 8개 추가됬다고 생각하시면 이해하기 편하실겁니다) + (Global 시각인코더 & 시각인코더) 가 추가되어 2B 정도 추가됬습니다!

감사합니다. 좋은 하루 보내세요

Sign up or log in to comment