**실험 개요**

본 실험은 한국어 영화 리뷰 데이터셋(NSMC)을 사용하여 meta-llama/Llama-2-7b-chat-hf 모델을 미세 튜닝하고, 한국 영화 리뷰의 긍정 또는 부정을 분류하는 모델을 학습하였습니다. 실험은 Hugging Face의 PEFT와 SFTTrainer를 사용하여 수행했으며, 평가는 정확도 및 혼돈 행렬을 포함한 다양한 지표를 통해 이루어졌습니다.

**실험 환경 설정**

모델: meta-llama/Llama-2-7b-chat-hf  
학습 데이터: NSMC (네이버 영화 리뷰 데이터셋)  
하이퍼파라미터 및 설정  
미니배치 크기: 1  
시퀀스 길이: 384  
학습률: 1e-4  
에폭 수: 1  

**정확도 향상을 위한 노력**

1. 훈련 데이터 확장
훈련 데이터의 개수를 2000개부터 시작했고 2000개씩 확장하여 학습시켰습니다.

2. 프롬프트 템플릿 변경
다양한 프롬프트 템플릿을 시도하여 어떤 형식이 모델의 성능을 향상시키는지 평가했습니다.

3. 훈련 총 스텝 수 변경
훈련 스텝이 높을수록 더 많은 데이터를 처리할 수 있습니다. 하지만 너무 높거나 훈련 데이터의 개수가 충분하지 않다면 오버피팅될 수 있기 때문에 훈련 데이터 개에 따른 훈련 총 스탭 수를 적절하게 설정해야 합니다. 따라서 데이터 양에 따라 적절하게 훈련 총 스탭 수를 변경하면서 모델의 성능을 향상시키기 위해 노력했습니다.

4. 드롭아웃 값 변경
오버피팅을 되지 않도록 드롭아웃의 값을 0.05에서 0.15로 변경했습니다.

정확도가 0.9 이상이 되도록 위의 4가지 방법을 조합하여 많은 실험을 해봤지만 정확도 값의 최대는 0.874였습니다. 

**분류 결과**

Confusion Matrix
|  | TP | TN |
|----------|----------|----------|
| PP | 445 | 63 |
| PN | 63 | 429 |

Classification Report
|  | precision | recall | f1-score | support |
|----------|----------|----------|----------|----------|
| Negative | 0.87 | 0.87 | 0.87 | 492 |
| Positive | 0.88 | 0.88 | 0.88 | 508 |
| accuracy |  |  | 0.87 | 1000 |
| macro avg | 0.87 | 0.87 | 0.87 | 1000 |
| weighted avg | 0.87 | 0.87 | 0.87 | 1000 |

**결과 분석**

정확도는 0.874로 모델이 1000개 테스트 데이터 중 874개에 대해 정확한 예측을 수행했다.
TP : 445, TN : 429, FP : 63, FN : 63의 결과가 나왔다.