Guide model 문의

#4
by Alchem - opened

CachedGISTEmbedLoss에서 guide model로 어떤 모델을 사용하셨는지 궁금합니다.
그리고 GISTEmbed 논문에선 학습하는 모델보다 더 큰 모델을 guide model로 사용하여 일종의 distilation을 사용한 것처럼 느껴지는데 학습 모델과 동일한 혹은 더 퍼포먼스가 낮은 모델을 사용하는 것도 의미가 있을까요?

좋은 모델과 학습 방법을 공유해주셔서 감사합니다.

답변이 좀 늦었네요.
Guide 모델로 말씀하신 것처럼 더 큰 모델을 사용하는 것이 이상적이나 학습하는 모델보다 더 큰 모델을 사용하는 것은 부담이 되기 때문에 같은 BGE-m3 모델을 사용하였습니다.
퍼포먼스가 더 낮은 모델로 guide 모델을 사용하는 것은.. 글쎄요.. distilation의 역할을 하기 위해서는 더 큰 모델을 사용하는 것이 좋다고 생각합니다.

답변 감사합니다!

dragonkue changed discussion status to closed

Sign up or log in to comment