Midm์ ํ ํฌ๋์ด์ ํ๊ตญ์ด ํ ํฐ ๊ตฌ์ฑ์ด ์ฐ์ํ๊ณ , ์ฌ์ฉํ ๊ฐ์น๊ฐ ๋๋ค๊ณ ์๊ฐํ์ฌ ์ฐ๊ตฌ ์ค์ ๋๋ค.
๊ตณ์ด Midm repo์ ํ ํฌ๋์ด์ ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ์ง ์๊ณ , ๋ผ๋ง ๊ฐ์ฒด๋ก ๋ถ๋ฌ์ค๋๋ก ์ปค์คํฐ๋ง์ด์ง ํ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ต๊ทผ ๋๋ถ๋ถ ๋ชจ๋ธ๋ค์ด LlamaTokenizer๋ฅผ ๋ฒ ์ด์ค๋ก ํ ํฌ๋์ด์ ๋ฅผ ๋ง๋ค๊ณ ์์
Midm์ ๋ด๋ถ ์ฝ๋ ๊ตฌ์กฐ ๋ํ ๋์ฒด ๋น์ทํ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ผ๊ฐ๊ณ ์๊ณ ๋น์ทํ๋, ํน์ ์ปค์คํ ์ฝ๋์ ๋ด์ฉ์ผ๋ก ์ธํด, load์ Midm repo์ custom code๊ฐ ์๋ํด์ผ ์ ์์ ์ผ๋ก ๋ถ๋ฌ์ฌ ์ ์์(ํ์๋ง์์๋ ๋ถ๋ฌ์ฌ ๋ repo ์ ์์ด ๋ถ๊ฐํ์ฌ ์ค๋ฅ ๋ฐ์)
๋ค๋ฅธ ํ ํฌ๋์ด์ ์ Midm ํ ํฌ๋์ด์ ์ ํ ํฐ์ ์ถ๊ฐํ์ฌ ์ฌ์ฉํด๋ณด๋ ค ํ์ผ๋, ๋น์ ์ ์๋(tokenize ํ, decoding ์ ๋์ด์ฐ๊ธฐ๊ฐ ์ฌ๋ผ์ง๋ ๋ฌธ์ ๋ฑ)
tokenizer ์ถ๊ฐ ์ปค์คํฐ๋ง์ด์ง ์ดํ, ์ ์์ ์ธ save, load ๋ณด์ฅ์ ์ํจ
์ด ๋ ํฌ๋
KT-AI/midm-bitext-S-7B-inst-v1[https://huggingface.co/KT-AI/midm-bitext-S-7B-inst-v1]์
ํ ํฌ๋์ด์ ๋ชจ๋ธ ์ต์ ์ ์ด์ง ์์ ํ์ฌ AutoModel๋ก ์์ ๋กญ๊ฒ ๋ถ๋ฅด๊ณ ๋ก๋ํ๋๋ก ๋ง๋ ๊ฒ์ผ๋ก
KT-AIํ ์์ฒญ ์ ๋ด๋ ค๊ฐ ์ ์์ต๋๋ค.