Files changed (1) hide show
  1. README.md +25 -2
README.md CHANGED
@@ -1,6 +1,29 @@
1
  ---
2
  license: apache-2.0
3
  ---
4
- 8x8bの最終
5
 
6
- tanuki-8x8b-baseの古いcheckpoint( https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-checkpoint-for-vision )をllava化した
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
  ---
4
+ # Tanuki-8x8B-vision-exp
5
 
6
+ ## モデルについて
7
+ Tanuki-8x8B-vision-expは、LLaVA1.5に基づく視覚言語モデルです。言語モデルとして、[Tanuki-8x8B-dpo-v1.0](https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-dpo-v1.0)の学習途中のモデル(事後学習前)、画像エンコーダとして[google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384)を使用しています。
8
+ (計算リソースの観点で、学習を1epoch未満で打ち切ったことから、学習途中の実験的なモデルという意味で-expという名称を付けています)
9
+
10
+ ## 背景
11
+ - 近年、視覚言語モデル(VLM)が注目されている一方で、商用利用可能な日本語データセットは限られています。本プロジェクトでは、データの合成を活用してこの課題に取り組むとともに、80億パラメータ([Tanuki-8B-vision](https://huggingface.co/weblab-GENIAC/Tanuki-8B-vision))および500億パラメータ([Tanuki-8x8B-vision-exp](https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-vision-exp))のVLMを開発しました
12
+ - VLM開発は、[GENIAC 松尾研 LLM開発プロジェクト](https://weblab.t.u-tokyo.ac.jp/geniac_llm/)の主要な開発目標としてではなく、有志の参加者によって実験的に行われました
13
+
14
+ ## 使用したコード
15
+ ### 学習
16
+ https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP
17
+ ### データ合成
18
+ https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/create-data-for-vlm
19
+ ### 評価
20
+ https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/heron
21
+
22
+ ## 使い方
23
+ ### ローカル
24
+ https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.py
25
+
26
+ ## 評価
27
+ ### Heron VLM リーダーボード
28
+ GPT-4による評価 (gpt-4-turbo-2024-04-09)
29
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/627a044ccd5b87302d3cd79c/p-ds8XnScNk0nbtVuD38L.png)