Guide model 문의

by Alchem - opened Dec 16, 2024

Dec 16, 2024

•

edited Dec 16, 2024

CachedGISTEmbedLoss에서 guide model로 어떤 모델을 사용하셨는지 궁금합니다.
그리고 GISTEmbed 논문에선 학습하는 모델보다 더 큰 모델을 guide model로 사용하여 일종의 distilation을 사용한 것처럼 느껴지는데 학습 모델과 동일한 혹은 더 퍼포먼스가 낮은 모델을 사용하는 것도 의미가 있을까요?

좋은 모델과 학습 방법을 공유해주셔서 감사합니다.

dragonkue

Owner Dec 23, 2024

답변이 좀 늦었네요.
Guide 모델로 말씀하신 것처럼 더 큰 모델을 사용하는 것이 이상적이나 학습하는 모델보다 더 큰 모델을 사용하는 것은 부담이 되기 때문에 같은 BGE-m3 모델을 사용하였습니다.
퍼포먼스가 더 낮은 모델로 guide 모델을 사용하는 것은.. 글쎄요.. distilation의 역할을 하기 위해서는 더 큰 모델을 사용하는 것이 좋다고 생각합니다.

Alchem

Dec 24, 2024

답변 감사합니다!

dragonkue changed discussion status to closed Dec 24, 2024

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

Your need to confirm your account before you can post a new comment.

· Sign up or log in to comment