weblab-GENIAC
/

Tanuki-8B-dpo-v1.0

@@ -12,16 +12,14 @@ tags:
 ## モデルについて
-Tanuki-8Bは、フルスクラッチでトークン事前学習された8Bパラメータの大規模言語モデルです。
-Tanuki-8B-dpo-v1.0は、Tanuki-8BにSFTおよびDPOを適用し作成された対話用モデルです。
 ## 量子化モデル
-- [AWQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-AWQ)
-- [GPTQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GPTQ-4bit)
-- [GPTQ 8bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GPTQ-8bit)
-- [GGUF量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GGUF)*
 *GGUF版は性能低下が発生している可能性があり、非推奨
 ## 使い方
@@ -35,7 +33,7 @@ streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
 messages = [
     {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
-    {"role": "user", "content": "AIによって私たちの暮らしはどのように変わりますか？"}
 ]
 input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
@@ -46,23 +44,45 @@ output_ids = model.generate(input_ids,
 ```
 ## プロンプト形式
-Tanuki-8B-dpo-v1.0は日本語版Alpacaのプロンプトフォーマットを利用します。
-```
-<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
-### 指示:
-AIによって私たちの暮らしはどのように変わりますか？
-### 応答:
-```
-なお、本モデルはデフォルトのシステムプロンプトである`以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。`以外を学習していないため、このシステムプロンプトの使用を推奨します。タスクの詳細はユーザープロンプトに記述してください。
-## ベンチマーク
-**Japanese MT-Bench**
-GPT-4による評価 (Nejumi Leaderboard Neo、gpt-4-0613、平均スコア算出においてスコア-1は除外)
 | | Tanuki-8B-dpo-v1.0 | Tanuki-8x8B-dpo-v1.0 |
 | ---- | ---- | ---- |
@@ -76,10 +96,5 @@ GPT-4による評価 (Nejumi Leaderboard Neo、gpt-4-0613、平均スコア算
 | stem	| 9.35	| 9.40 |
 | writing	| 9.05	| 8.85 |
-GPT-4oによる評価 (Nejumi Leaderboard 3)
-![image/png](https://cdn-uploads.huggingface.co/production/uploads/6348501e50fe0799927c3667/TMl4VIoTyUzzdbj5PdVEi.png)
-**人手評価**
-Chatbot Arena的なシステムを使った人手によるブラインドテストの結果
-![image/png](https://cdn-uploads.huggingface.co/production/uploads/6348501e50fe0799927c3667/RzPOQfETYD9_AFEjVkwCX.png)

 ## モデルについて
+Tanuki-8Bは、フルスクラッチで約1.3Tトークン事前学習を行った約8Bパラメータの大規模言語モデルです。
+Tanuki-8x8B-dpo-v1.0は、SFTおよびDPOにより対話用に調整されています。
+より詳細な情報については[ブログ記事](https://zenn.dev/matsuolab/articles/377f7ae8b1169e)を参照してください。
+[GENIAC 松尾研 LLM開発プロジェクト](https://weblab.t.u-tokyo.ac.jp/geniac_llm/)のもと、一般公募により集まった有志の参加者（企業所属、学生、研究者等）が開発を実施しました。
 ## 量子化モデル
+[AWQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-AWQ)  [GPTQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GPTQ-4bit)  [GPTQ 8bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GPTQ-8bit)  [GGUF量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GGUF)*
 *GGUF版は性能低下が発生している可能性があり、非推奨
 ## 使い方
 messages = [
     {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
+    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか？"}
 ]
 input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
 ```
 ## プロンプト形式
+Tanuki-8B-dpo-v1.0は日本語版Alpacaのプロンプト形式を利用します。
+- シングルターン
+  ```
+  <s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
+  ### 指示:
+  たぬきに純粋理性批判は理解できますか？
+  ### 応答:
+  ```
+- マルチターン
+  ```
+  <s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
+  ### 指示:
+  {1ターン目の入力}
+  ### 応答:
+  {1ターン目の応答}</s>
+  ### 指示:
+  {2ターン目の入力}
+  ### 応答:
+  ```
+なお、本モデルはデフォルトのシステムプロンプトである「以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。」以外を学習していないため、このシステムプロンプトの使用を推奨します。タスクの詳細はユーザープロンプトに記述してください。
+## ベンチマーク
+**人手評価**
+Chatbot Arenaを模したシステムを作成し、人手によるブラインドテストを実施しました。（詳細は[こちら](https://zenn.dev/matsuolab/articles/95fa297ef12a14)）
+評価結果（約2000件）を後日全て公開します。
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6348501e50fe0799927c3667/RzPOQfETYD9_AFEjVkwCX.png)
+**Japanese MT-Bench**
+GPT-4による評価 (gpt-4-0613、平均スコア算出においてスコア-1は除外)
 | | Tanuki-8B-dpo-v1.0 | Tanuki-8x8B-dpo-v1.0 |
 | ---- | ---- | ---- |
 | stem	| 9.35	| 9.40 |
 | writing	| 9.05	| 8.85 |
+## 開発メンバー
+畠山 歓、Rumi Nakagawa、takagi、Toshio Nishida、Hideaki Hayashi、p1atdev、Daichi Kohmoto、Nishijima、Chattso-GPT、西井康隆、Jie Zeng、加藤純、堀江吏将、Kazutaka Nishimae、Jinsei Shiraishi、川村 正春、山口 裕輝、Nishi、Esty、Minami Someya、林寛太 (Kanta Hayashi)、菊池満帆、岩田 兼太朗、、江國翔太、佐野敏幸、K. Nishizawa、Susumu Ota、Issei Fujimoto、永原恒治、hiroaki shioya、masaki okamura、y_morinaga、川村 正春、熊田匡仁、Mさん、asaoka_tadashi、Yuki Namiuchi、片上 舜、河越 淳、Issei Fujimoto、Yukie Kawano、Chihiro HIGUCHI、Ryota Mitsuhashi、Chihiro Arata、Atsushi Saito、Kunihiro Watanabe