Model Card for Model ID
Model Details
Model Description
Summarise Korean sentences concisely
- Developed by: [Kang Seok Ju]
- Contact: [[email protected]]
Training Details
Training Data
https://huggingface.co/datasets/brildev7/polite_summary_by_gpt4
Inference Examples
import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel
model_id = "google/gemma-7b"
peft_model_id = "brildev7/gemma-7b-polite-summarization-ko-sft-qlora"
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_quant_type="nf4"
)
model = AutoModelForCausalLM.from_pretrained(model_id,
quantization_config=quantization_config,
torch_dtype=torch.float16,
low_cpu_mem_usage=True,
attn_implementation="flash_attention_2",
device_map="auto")
model = PeftModel.from_pretrained(model, peft_model_id)
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
# example
prompt_template = "๋ค์ ๊ธ์ ์์ฝํ์ธ์.:{}\n์์ฝ:"
passage = "๊ธฐํ์ฌ์ ๋ถ๋ 20์ผ ์ด ๊ฐ์ ๋ด์ฉ์ '์ฃผ๋ฅ ๋ฉดํ ๋ฑ์ ๊ดํ ๋ฒ๋ฅ ์ํ๋ น' ๊ฐ์ ์์ ์
๋ฒ ์๊ณ ํ๋ค. ๊ฐ์ ์์๋ ์ฃผ๋ฅ ํ๋งค์
๋ฉดํ ์ทจ์์ ์์ธ์ ํด๋นํ๋ ์ฃผ๋ฅ์ ๋จ์๊ฐ๊ณตยท์กฐ์์ ๋ฒ์๋ฅผ ์ ์ ๋ฑ ๋น ์ฉ๊ธฐ์ ์ฃผ๋ฅ๋ฅผ ๋๋ ๋ด์ ํ๋งคํ๋ ๊ฒฝ์ฐ ๋ฑ์ด ํฌํจ๋๋ค. ์๋นยท์ฃผ์ ๋ฑ์์ ์ฃผ๋ฅ๋ฅผ ํ๋งคํ ๋ ์ ์ ์์ ๋๋ ํ๋งคํ ์ ์๋ค๋ ์๋ฏธ๋ค. ์ข
ํฉ์ฃผ๋ฅ๋๋งค์
์๊ฐ ์ฃผ๋ฅ์ ์กฐ์ ๋ฑ์ด ์ ์กฐยทํ๋งคํ๋ ๋น์์ฝ์ฌ ์๋ฃ ๋๋ ๋ฌด์์ฝ์ฌ ์๋ฃ๋ฅผ ์ฃผ๋ฅ์ ํจ๊ป ์์์ ๋ฑ์ ๊ณต๊ธํ ์ ์๋๋ก ์ฃผ๋ฅํ๋งค ์ ์
์๋ฌด ๋ฉดํ์๊ฑด๋ ์ํํ๋ค. ํ์ฌ ์์ฝ์ฌ ๋์๊ฐ 0%์ธ ์๋ฃ๋ '๋ฌด์์ฝ์ฌ ์๋ฃ'๋ก, 0% ์ด์ 1% ๋ฏธ๋ง์ธ ๊ฒ์ '๋น์์ฝ์ฌ ์๋ฃ'๋ก ๊ตฌ๋ถ๋๋ค. ํํ ๊ท์ ์ ๋ฌด์์ฝ์ฌยท๋น์์ฝ์ฌ ์ฃผ๋ฅ๋ ์ฃผ๋ฅ ์
์๊ฐ ์ ํตํ ์ ์๋๋ฐ ์ด ๊ท์ ์ ์ํํ๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์ฌ๋ถ๋ ๋ค์ ๋ฌ 29์ผ๊น์ง ์๊ฒฌ ์๋ ด์ ๊ฑฐ์ณ ์ด๋ฅด๋ฉด ๋ค์ ๋ฌ ๋ง๋ถํฐ ์ํํ ์์ ์ด๋ค๏ผ"
prompt = prompt_template.format(passage)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=1024,
temperature=0.2,
top_p=0.95,
do_sample=True,
use_cache=False)
print(tokenizer.decode(outputs[0]))
- 20์ผ ๊ธฐํ์ฌ์ ๋ถ๋ '์ฃผ๋ฅ ๋ฉดํ ๋ฑ์ ๊ดํ ๋ฒ๋ฅ ์ํ๋ น' ๊ฐ์ ์์ ์
๋ฒ ์๊ณ ํ์ผ๋ฉฐ, ๊ฐ์ ์์๋ ์ฃผ๋ฅ ํ๋งค์
๋ฉดํ ์ทจ์์ ์์ธ๋ก ์ฃผ๋ฅ์ ๋จ์๊ฐ๊ณตยท์กฐ์์ ๋ฒ์๋ฅผ ์ ์ ๋ฑ์ ์ฉ๊ธฐ์ ๋๋์ด ํ๋งคํ๋ ๊ฒฝ์ฐ๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. ๋ํ, ์ข
ํฉ์ฃผ๋ฅ๋๋งค์
์๊ฐ ์ฃผ๋ฅ์ ์กฐ์ ๋ฑ์ด ์ ์กฐยทํ๋งคํ๋ ๋น์์ฝ์ฌ ์๋ฃ ๋๋ ๋ฌด์์ฝ์ฌ ์๋ฃ๋ฅผ ์ฃผ๋ฅ์ ํจ๊ป ์์์ ์ ๊ณต๊ธ ๊ฐ๋ฅํด์ง๊ฒ ๋์์ต๋๋ค.
# example
prompt_template = "๋ค์ ๊ธ์ ์์ฝํ์ธ์.:{}\n์์ฝ:"
passage = "์ง๋ 1์ ์ผ๋ณธ ์ค์ฌ์นด ์ฐ๋ฉ๋ค์ ๋ทฐํฐ์ต โ์ณ์ฝ์ค๋ฉโ์์ ์งํ๋ CJ์ฌ๋ฆฌ๋ธ์์ ๋ฉ์ดํฌ์
๋ธ๋๋(PB) โ๋ฐ์ด์คํ ๋ณดโ์ ํ์
์คํ ์ด ํ์ฅ. ์ค์ฌ์นด ์ต๋ ๊ท๋ชจ๋ฅผ ์๋ํ๋ ์ณ์ฝ์ค๋ฉ ๋งค์ฅ ํ ๊ฐ์ด๋ฐ ๊พธ๋ฉฐ์ง ํ์
์คํ ์ด์๋ ํ๊ตญ์์ ์ธ๊ธฐ ๋์ ํ์ฅํ์ ์ค์ ๋ก ๊ฒฝํํด๋ณด๋ ค๋ ๊ณ ๊ฐ๋ค๋ก ๋ฐ ๋๋ ํ ์์ด ๋ถ์ ๊ฑฐ๋ ธ๋ค. ํ์ด์ ๊ตญ์ ์์ด์ง๋ง ์ค์ฌ์นด์์ ๊ฑฐ์ฃผํ๊ณ ์๋ค๋ 32์ด ์ฟ ์ด์์จ๋ ์ด๋ ํ์
์คํ ์ด๋ฅผ ์ฐพ์ ๋ฐ์ด์คํ ๋ณด์ โํํํฌ๋ฆผโ์ ๊ตฌ๋งคํ๋ค. ์ฌํ๊ด๊ณ๋ง์๋น์ค(SNS)์ ์ ํ๋ธ๋ฅผ ํตํด ํ๊ตญ ํ์ฅํ์ด ์ข๋ค๋ ํ์ ๋ค์ด๋ณธ ํฐ๋ผ ์ด๋ฒ ๊ธฐํ์ ๊ตฌ๋งคํด ์ฌ์ฉํด๋ณด๊ธฐ๋ก ๊ฒฐ์ฌํ๋ค๊ณ ํ๋ค. ์ฟ ์ด์์จ๋ ํ๊ตญ ํ์ฅํ์ ์ฐ๋ฉด ํ๊ตญ ์ฌ์ฑ์ฒ๋ผ ์๋ป์ง์ง ์์๊น ๊ธฐ๋๊ฐ ๋๋ค๊ณ ๋งํ๋ค. ์ด๋ ์ณ์ฝ์ค๋ฉ๋ ๋ฐ์ด์คํ ๋ณด ํ์
๋ฟ๋ง ์๋๋ผ ๋์ ์ ๋๋ ๋ฉ์ธ ์ง์ด๋ ์๋น์๊ฐ ํ๊ตญ ๋ธ๋๋ ์ฐจ์ง์๋ค. ๋๋ถ๋ถ ํ๊ตญ์์๋ ์ธ๊ธฐ๊ฐ ๋์ ๋ธ๋๋๋ค๋ก, ์
๊ตฌ์์ ๋ฐ๋ก ๋ณด์ด๋ ์ง์ด๋์๋ โ์จ์ดํฌ๋ฉ์ดํฌโ์ โํผ์น์จโ, โ์ด๋ฎค์ฆโ๊ฐ, ํด์ธ ๋ช
ํ ๋ธ๋๋ ์กด ์ ์ค์์๋ โํค๋ผโ๊ฐ ์๋ฆฌํ๊ณ ์์๋ค. ์ผ๋ณธ ๋ด K๋ทฐํฐ์ ์ธ๊ธฐ๊ฐ ์์ฌ๋กญ์ง ์๋ค. โ์ 3์ฐจ ํ๋ฅ๋ถโ์ด๋ผ๊ณ ๊น์ง ์ผ์ปฌ์ด์ง๋ ํ๋ฅ์ดํ์ ํ๊ณ ์ผ๋ณธ ๋ด K๋ทฐํฐ์ ์
์ง๊ฐ ๋๋ ์ด ์น์๊ณ ์๋ค. ๊ณผ๊ฑฐ์๋ ์ผ๋ณธ ๋ด์์ ํ๊ตญ ๋ฌธํ๋ฅผ ์ข์ํ๋ ์ผ๋ถ ์๋น์๋ค ์ฌ์ด์์๋ง ์ ํํ๋ ์์ค์ด์๋ค๋ฉด, ์ง๊ธ์ ์ผ๋ณธ ๋ทฐํฐ ์์ฅ์ ํ๋์ ์นดํ
๊ณ ๋ฆฌ๋ก K๋ทฐํฐ๊ฐ ์๋ฆฌ๋ฅผ ์ก์๋ค๋ ํ๊ฐ๋ค. 21์ผ ๋ฒ ์ธ์ค๋์ปดํผ๋์ ์ ๋ก๋ชจ๋ํฐ์ ๋ฐ๋ฅด๋ฉด K๋ทฐํฐ์ ์ผ๋ณธ ์ง์ญ๋ณ ์นจํฌ์จ(ํน์ ๊ธฐ๊ฐ ๋์ ํน์ ์ํ ์๋น ๊ท๋ชจ ๋น์ค)์ 2017๋
1%์์ 2022๋
4.9%๋ก 5๋
๋ง์ 5๋ฐฐ๊ฐ ์ฆ๊ฐํ๋ค. ์ต๊ทผ 3๋
๊ฐ ์ฐํ๊ท ์ฑ์ฅ๋ฅ ์ 20%๊ฐ ๋๋๋ค. ์ง๋ํด์๋ ์ผ๋ณธ ์์
ํ์ฅํ ๊ตญ๊ฐ๋ณ ๋น์ค์์ ํ๊ตญ์ด ์ฒ์์ผ๋ก ํ๋์ค๋ฅผ ์ ์น๊ณ 1์์ ์ค๋ฅด๊ธฐ๋ ํ๋ค. ์ํจ์ฃผ ๋ฒ ์ธ์ค๋์ปดํผ๋ ํํธ๋๋ ์ง๊ธ๋ณด๋ค 3~4๋ฐฐ ์ด์ ์ฑ์ฅํ ์ฌ๋ ฅ์ด ์ถฉ๋ถํ๋ค๊ณ ๋งํ๋ค. ์ผ๋ณธ ์ฌ์ฑ๋ค์ด K๋ทฐํฐ์ ๋งค๋ฃ๋ ์ด์ ๋ ๋ฌด์์ผ๊น. ๊ฐ์ฅ ํฐ ์ด์ ๋ก๋ โ๋์ ๊ฐ์ฑ๋น(๊ฐ๊ฒฉ ๋๋น ์ฑ๋ฅ)โ๊ฐ ๊ผฝํ๋ค. ์
๊ณ์ ๋ฐ๋ฅด๋ฉด ์ค์ ์ผ๋ณธ์์ ๋ง์ด ํ๋งค๋๋ ํ๊ตญ ํ์ฅํ ๋ธ๋๋์ ๊ธฐ์ด์ ํ๋ค์ ์ผ๋ณธ ๋ธ๋๋์ ๋นํด ์ ํ ๊ฐ๊ฒฉ์ด 10~20% ๊ฐ๋ ์ ๋ ดํ ํธ์ด๋ค. ์ด๋ ํ๊ตญ์ฝ๋ง์ ์ฝ์ค๋งฅ์ค ๊ฐ์ ๊ตญ๋ด ํ์ฅํ OEM(์ฃผ๋ฌธ์ ์ํ ๋ถ์ฐฉ ์์ฐ)ยทODM(์ฃผ๋ฌธ์ ๊ฐ๋ฐ์์ฐ) ์ ์กฐ์ฌ๋ค์ ์ฑ์ฅ ๋์ด ํฌ๋ค. ์ด๋ค์ ๊ธฐ์ ๋ ฅ์ ์ธ๊ณ ์ต๊ณ ์์ค์ผ๋ก, ์ธ๊ณ ์ต๋ ํ์ฅํ ๊ธฐ์
์ธ ๋ก๋ ์๋ ๊ณ ๊ฐ์ฌ์ผ ์ ๋๋ค. ์ด๋ค์ ๋จ์ ์ ํ ์ ์กฐ๋ฅผ ๋์ด ์ ์ ํ์ ๊ฐ๋ฐํด ๋ธ๋๋์ ๋จผ์ ์ ์ํ๊ณ ๋ ํ์์ ๋ง์ผํ
๊น์ง ์ง์ํด ๋ธ๋๋๋ฅผ ํค์ฐ๋ ์๋น์ค๋ฅผ ์ ๊ณตํ๊ณ ์๋ค. ํ๊ตญ ๋ทฐํฐ ๋ธ๋๋ ๋๋ถ๋ถ์ด ์ด๋ค์ ํตํด ์ ํ์ ๋ง๋ค๊ณ ์์ด ์ค์ ๊ท๋ชจ K๋ทฐํฐ ๋ธ๋๋๋ ํ์ง์ด ๋ณด์ฅ๋๋ค๋ ์๊ธฐ๋ค. ๋ K๋ทฐํฐ ์ ํ์ ๊ฐ์ ์ผ๋ก๋ โณ๋
ํนํ๊ณ ํธ๋ ๋ํ ์ปจ์
โณ๋ฐ๋น ๋ฅธ ์ ์ ํ ์ถ์ โณ์์ ํจํค์ง ๋ฑ์ด ๊ฑฐ๋ก ๋๋ค. ์ด๋ฅผ ๋ฐฉ์ฆํ๋ฏ ์ต๊ทผ ์ผ๋ณธ์์ ์์ ๊ฐ์ ๋ค์ ๊ฐ์ถ ํ๊ตญ์ ์ ์ง ๋ฉ์ดํฌ์
๋ธ๋๋๋ค์ด ์ธ๊ธฐ๋ค. ์ค์ ๋ก ์ผ๋ณธ ๋ด ํธ์ํฐ์ ์ ํ๋ธ ๋ฑ SNS์์๋ ์์ญ~์๋ฐฑ๋ง ํ๋ก์๋ฅผ ๋ณด์ ํ ํ์ง ์ธํ๋ฃจ์ธ์๋ค๋ ์ผ๋ช
โ๋ด๋๋ด์ฐโ(๋ด ๋ ์ฃผ๊ณ ๋ด๊ฐ ์ฐ ๋ฌผ๊ฑด) ์์์์ ์๋ฐ์ ์ผ๋ก K๋ทฐํฐ ๋ฉ์ดํฌ์
๋ธ๋๋ ์ ํ์ ์๊ฐํ๊ณ ์๋ค. ์ง๋ 1์ ์ผ๋ณธ ์ค์ฌ์นด์ ์์ฌํ ๋ทฐํฐ ๋ญํน์ต โ์ณ์ฝ์ค๋ฉ ์ฐ๋ฉ๋ค์ โ์์ ์ผ๋ณธ ์ฌ์ฑ๋ค์ด ํ๊ตญ ์ฝ์ค๋ฉํฑ ๋ธ๋๋ โ๋ผ์นด(Laka)โ์ ์ ํ์ ์ดํด๋ณด๊ณ ์๋ ๋ชจ์ต. [๊นํจํ ๊ธฐ์] ๋ํ์ ์ธ ์๊ฐ โ๋ผ์นดโ๋ค. ํ๊ตญ๋ณด๋ค ์ผ๋ณธ์์ ๋ ์ ๋ช
ํ ๋ผ์นด๋ 100๋ง ๊ตฌ๋
์๋ฅผ ๋ณด์ ํ๊ณ ์๋ ๋ฉ์ดํฌ์
์ํฐ์คํธ์ด์ ์ ํ๋ฒ โํ๋กโ(์ค๋ค๊ธฐ๋ฆฌ ํ๋ก)๊ฐ ์์์์ ์ ํ์ ์ถ์ฒํด ํ๋ณด ํจ๊ณผ๋ฅผ ํกํกํ ๋ดค๋ค. ์ด๋ฏผ๋ฏธ ๋ผ์นด ๋ํ๋ ์ผ๋ณธ์์ ํน์ ์ ํ์ด ๊ฐ์๊ธฐ ํ๋ฃจ์ ์์ฒ๊ฐ๊ฐ ํ๋ ค ๋ฌด์จ ์ผ์ธ๊ฐ ๋ดค๋๋ฐ, ํ์ง ์ ๋ช
์ ํ๋ฒ๊ฐ ์ถ์ฒํ ์์์ด ์ฌ๋ผ์๋๋ผ๋ฉฐ ํ์ฐฌ์ด๋ ๊ด๊ณ ๊ฐ ์๋์ด์ ๋ ๋๋๋ค๊ณ ๋งํ๋ค. ์ด์ ์ง๋ 2020๋
์ฒ์ ์ผ๋ณธ์ ์ง์ถํ ๋ผ์นด๋ ์ฌํด 1์ ๋ง ์ผ๋ณธ ์ ์ญ ์ฝ 350์ฌ๊ฐ ๋งค์ฅ์ ์
์ ํ๋ ์ฑ๊ณผ๋ฅผ ์ฌ๋ ธ๋ค. 2021๋
47์ต์์ ๋ถ๊ณผํ๋ ๋ผ์นด์ ๋งค์ถ๋ ์ง๋ํด 4๋ฐฐ๊ฐ ๋๊ฒ ์์นํด 200์ต์์ ์ก๋ฐํ๋ค. ์ผ๋ณธ ์์ฅ์์ ๋๊ฐ์ ๋ณด์ด๋ ๊ตญ๋ด ํ์ฅํ ๋ธ๋๋๋ค์ด ๋๋ฉด์ ์๋กญ๊ฒ ์ง์ถ์ ํ์งํ๊ฑฐ๋ ์ค๋นํ๊ณ ์๋ ์
์ฒด๋ค๋ ๋๊ณ ์๋ค. ๊ทธ๋์ ํ๊ตญ ํ์ฅํ์ ๊ฐ์ฅ ํฐ ์์ฅ์ด์๋ ์ค๊ตญ์ด ๊ฒฝ๊ธฐ ์นจ์ฒด ๋ฐ ์ ์น์ ์ด์ ๋ฑ์ผ๋ก ์ชผ๊ทธ๋ผ๋ค๊ณ ์๋ ์ํฉ์์ ์ผ๋ณธ์ด ์ด๋ฅผ ๋์ฒดํ ์๋ก์ด ์์ฅ์ผ๋ก ๋ถ์ํ ๊ฒ์ด๋ค. ์ผ๋ณธ ํ์ฅํ ํ๋งค ์ฑ๋๋ค๋ K๋ทฐํฐ ์ ์น์ ์ ๊ทน์ ์ด๋ค. ์ณ์ฝ์ค๋ฉ์ ๊ฒฝ์ฐ ๊ฑฐ์ ๋งค๋ฌ K๋ทฐํฐ ํ์
์ด ์ด๋ฆฌ๊ณ ์๋ ์์ค์ผ๋ก, ์ค๋ 5์์๋ ๋์ฟ์ ์์ K๋ทฐํฐ ํ์คํฐ๋ฒ๋ ์ด ๊ณํ์ด๋ค. ๋กํํธ์ ํ๋ผ์ ๋ฑ๋ K๋ทฐํฐ ์ ์น ๊ฒฝ์์ด ๋จ๊ฒ๋ค. CJ์ฌ๋ฆฌ๋ธ์ ๊ด๊ณ์๋ ํ๊ตญ ํ์ฅํ์ ๋ํ ๋ฐ์์ด ์ข๊ณ ํนํ ์ฌ๋ฆฌ๋ธ์์์ ์ธ๊ธฐ ์๋ ๋ธ๋๋์ ๋ํ ์์๊ฐ ๋๋ค ๋ณด๋ ํ๋ซํผ์์ ๋จผ์ ํ์
์์ฒญ์ด ์๋ค๋ฉฐ ์์ผ๋ก๋ ์ผ๋ณธ ์์ฅ ์ ํต์ ๋์ฑ ์ ๊ทน์ ์ผ๋ก ๋์๋ ค ํ๋ค๊ณ ์ ํ๋ค."
prompt = prompt_template.format(passage)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=512,
temperature=1,
top_p=0.95,
do_sample=True,
use_cache=False)
print(tokenizer.decode(outputs[0]))
- ์ค์ฌ์นด ๋ทฐํฐ์ต โ์ณ์ฝ์ค๋ฉโ์์๋ ํ๊ตญ์์ ๋ฉ์ดํฌ์
๋ธ๋๋์ธ โ๋ฐ์ด์คํ ๋ณดโ์ ํ์
์คํ ์ด๋ฅผ ์ด์ด ๊ณ ๊ฐ๋ค์ด ๊ฒฝํํด๋ณด๊ณ ์ ํ๋ฉฐ ์ธ๊ธฐ๋ฅผ ๋๊ณ ์๊ณ , ๋ํ ์ฃผ๋ณ์๋ ํ๊ตญ ๋ธ๋๋๋ค์ด ๋ง์ด ๋ฐฐ์น๋์ด ์์ด K๋ทฐํฐ๊ฐ ์ผ๋ณธ์์ ํ๋์ ์นดํ
๊ณ ๋ฆฌ๋ก ์๋ฆฌ์ก๊ณ ์๋ค๊ณ ๋ง์๋๋ฆด ์ ์์ต๋๋ค.
# example
prompt_template = "๋ค์ ๊ธ์ ์์ฝํ์ธ์.:{}\n์์ฝ:"
passage = "์ ์ ์์ ๋ณด์ฅ์ด์ฌํ๊ฐ 14์ผ(ํ์ง์๊ฐ) ์ด์ค๋ผ์์ ์์ฒญ์ผ๋ก ๊ธด๊ธํ์๋ฅผ ์์งํ๊ณ ์ด๋์ ๊ตฐ์ฌ ๊ณต๊ฒฉ์ ๋ํด ๋
ผ์ํ๋ค. ์ด๋๊ณผ ์ด์ค๋ผ์์ ์ด ์๋ฆฌ์์ ์น์ดํ ์ค์ ์ ๋ฒ์๊ณ , ํ์๊ตญ๋ค์ ํ์ ๋ฐฉ์ง๋ฅผ ์ํด ๋น์ฌ๊ตญ๋ค์ ์์ ๋ฅผ ์ด๊ตฌํ๋ค. ๊ฐ๋์ธ ๋ฑ์ ๋ฐ๋ฅด๋ฉด ์ด๋ ์๋ณด๋ฆฌ ํ์์์ ์ด๋๊ณผ ์ด์ค๋ผ์ ๋์ฌ๋ ์๋ก๋ฅผ ๊ฒจ๋ฅํด ์ค๋ ํํ์ ์ํ์ด๋ผ๊ณ ๊ฐํ๊ฒ ๋น๋ํ๋ค. ์๋ฏธ๋ฅด ์ฌ์์ด๋ ์ด๋ผ๋ฐ๋ ์ฃผ์ ์ ์ด๋ ๋์ฌ๋ ์ด๋ฒ ๊ณต๊ฒฉ๊ณผ ๊ด๋ จํด โ๊ตญ์ ๋ฒ์ ๋ฐ๋ฅธ ์์๊ถ์ ํ์ฌํ ์๋ฐ์ ์์๋ ์ํฉโ์ด๋ผ๋ฉด์ โ์ด๋์ ์ค๋์ง์ญ ๊ธด์ฅ์ ๊ณ ์กฐ์ํค๊ฑฐ๋ ์ ์์ ์ถ๊ตฌํ์ง ์๋๋ค๋ ์ผ๊ด๋ ์
์ฅ์ ๊ฐ์ง๊ณ ์๋คโ๊ณ ๋งํ๋ค. ์ด๋ฒ ๊ณต๊ฒฉ์ ์ง๋ 1์ผ ์ด์ค๋ผ์์ด ์ฃผ์๋ฆฌ์ ์ด๋ ์์ฌ๊ด์ ๊ณต๊ฒฉํ ๋ฐ ๋ํ ๋์์ด์๋ค๋ ์ ์ ๊ฐ์กฐํ ๊ฒ์ด๋ค. ์ด๋ผ๋ฐ๋ ๋์ฌ๋ โ์ด์ค๋ผ์ ์ ๊ถ์ ์ถ๊ฐ์ ์ธ ๊ตฐ์ฌ์ ๋๋ฐ์ ๋ํด ๊ฒฝ๊ณ ํ๊ณ ์ ํ๋คโ๋ฉฐ โ์ด๋์ ๊ตญ๋ฏผ๊ณผ ๊ตญ๊ฐ์๋ณด, ์ฃผ๊ถ, ์ํ ๋ฅผ ๋ฐฉ์ดํ๊ธฐ ์ํ ๋จํธํ ๊ฒฐ์๋ฅผ ๊ฐ์ง๊ณ ์์์ ๋จ์ธํ๋คโ๊ณ ๋งํ๋ค. ๊ธธ๋ผ๋ ์๋ฅด๋จ ์ฃผ์ ์ ์ด์ค๋ผ์ ๋์ฌ๋ โ์ด๋์ ๊ตฐ๋๋ ํ๋ง์ค์ ํค์ฆ๋ณผ๋ผ, ํํฐ, ํ๋ช
์๋น๋, ๊ทธ ์ธ ์ผ๋ง์ ์ธ ์งํ๋์คํธ(์ด์ฌ๋ ์ฑ์ ์ฃผ์์)๋ฅผ ํฌํจํ๋คโ๋ฉฐ โ์ด์ค๋ผ์์ ๋ฐฉ๊ณต์์คํ
์ด ์ฐ์ํ ๊ฒ์ผ๋ก ์ฆ๋ช
๋๋ค๊ณ ํด์ ์ด๋์ ์ํนํ ๊ณต๊ฒฉ์ด ๋ฐ๋๋ ๊ฒ์ ์๋๋ค. ์ด๋์ ๋๋ ๋๋ฆฌ์ ๋ค์ ์จ์ง ๋ง์์ผ ํ๋คโ๊ณ ๋งํ๋ค. ๊ทธ๋ฌ๋ฉด์ โ์๋ณด๋ฆฌ๋ ํ๋์ ๋์์ผ ํ๋คโ๋ฉฐ โ์ด๋์ ํ
๋ฌ ํ์๋ฅผ ๋น๋ํ๊ณ ์ค๋
๋ฐฑ ๋ฉ์ปค๋์ฆ(ํตํ์ ๋ฑ์ ์๋ฐํ์ ๋ ์ ์ฌ๋ฅผ ๋ถํํ๋ ๊ฒ)์ ์๋ํด ์ด๋ ํ๋ช
์๋น๋๋ฅผ ํ
๋ฌ๋จ์ฒด๋ก ์ง์ ํด์ผ ํ๋คโ๊ณ ์๋ณด๋ฆฌ ์ ์ฌ๋ฅผ ์ด๊ตฌํ๋ค. ๊ตญ์ ์ฌํ๋ ์ค๋์ง์ญ์ ํ์ ์ ์ฐ๋ คํ๋ฉด์ ์์ ๋ฅผ ์์ฒญํ๋ค. ์ํ ๋์ฐ ๊ตฌํ
ํ์ค ์ ์ ์ฌ๋ฌด์ด์ฅ์ ์ด๋ โ์ค๋ ์ฃผ๋ฏผ๋ค์ ํ๊ดด์ ์ธ ์ ๋ฉด์ ์ ์ค์ ์ํ์ ์ง๋ฉดํ๊ณ ์๋คโ๋ฉฐ โ์ง๊ธ์ ์ง์ ํ๊ณ ๊ธด์ฅ์ ์ํํ๋ฉด์ ์ต๋ํ ์์ ํด์ผ ํ๋ ์๊ธฐโ๋ผ๊ณ ๋งํ๋ค. ๋ก๋ฒํธ ์ฐ๋ ์ฃผ์ ์ ๋ฏธ๊ตญ ์ฐจ์๋์ฌ๋ โ์๋ณด๋ฆฌ๋ ๋ช
๋ฐฑํ ์ด๋์ ๊ณต๊ฒฉ ํ์๋ฅผ ๋น๋ํ๊ณ ์ด๋ ๋ฐ ์ด๋์ ํํธ๋์ ๋๋ฆฌ์๋ค์๊ฒ ๊ณต๊ฒฉ์ ๋ฉ์ถฐ์ผ ํ๋ค๊ณ ์ด๊ตฌํด์ผ ํ๋คโ๊ณ ๋งํ๋ค. ๋ฐ๋ฉด ์ด๋, ์๋ฆฌ์, ๋ฌ์์, ์ค๊ตญ ๋์ฌ๋ ์ด์ค๋ผ์์ ๋ฏธ์ฌ์ผยท๋๋ก ์๊ฒฉ์ ๋์ด ๋ฏธ๊ตญ ๋ฑ ๋๋งน๊ตญ์ ๋นํํ๋ค. ๋ ์ด์ค๋ผ์์ด ์๋ฆฌ์ ์ฃผ์ฌ ์ด๋ ์์ฌ๊ด์ ๊ณต๊ฒฉํ ๊ฒ์ ๋ํด์๋ ๋ฏธ๊ตญ ๋ฑ์ด ๋นํํ์ง ์๋๋ค๊ณ ๋ ์ง์ ํ๋ค. ์ด๋ ์๋ณด๋ฆฌ๋ ์ด๋์ ๊ณต๊ฒฉ์ ๊ทํํ๋ ๊ณต๋์ฑ๋ช
์ ๋ฐํํ๊ฑฐ๋ ์ ์ฌ๋ฅผ ๊ฐํ๋ ๋ฑ ์กฐ์น ์์ด ์ข
๋ฃ๋๋ค."
prompt = prompt_template.format(passage)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs,
max_new_tokens=512,
temperature=1,
top_p=0.95,
do_sample=True,
use_cache=False)
print(tokenizer.decode(outputs[0]))
- 14์ผ(ํ์ง์๊ฐ) ์ ์ ์์ ๋ณด์ฅ์ด์ฌํ๊ฐ ์ด์ค๋ผ์์ ์์ฒญ์ผ๋ก ๊ธด๊ธํ์๋ฅผ ์์งํ์ฌ ์ด๋๊ณผ ์ด์ค๋ผ์ ๋์ฌ๊ฐ ์๋ก๋ฅผ ๊ฒจ๋ฅํด ์ค๋ ํํ์ ์ํ์ด๋ผ๊ณ ๊ฐํ๊ฒ ๋น๋ํ๋ ๋
ผ์๋ฅผ ๋ฒ์์ผ๋, ๊ตญ์ ์ฌํ๋ ์ค๋์ง์ญ์ ํ์ ์ ์ฐ๋ คํ๋ฉฐ ๋น์ฌ๊ตญ๋ค์ ์์ ๋ฅผ ์ด๊ตฌํ์์ง๋ง ๊ฒฐ๊ตญ ์กฐ์น ์์ด ์ข
๋ฃ๋์์ต๋๋ค.
- Downloads last month
- 6
Inference API (serverless) does not yet support peft models for this pipeline type.
Model tree for brildev7/gemma-7b-polite-summarization-ko-sft-qlora
Base model
google/gemma-7b