internlm
/

internlm-xcomposer2d5-7b

@@ -2,11 +2,18 @@ import os
 import torch
 import numpy as np
 import torchvision
 from PIL import Image, ImageDraw, ImageFont
 from torchvision.transforms.functional import InterpolationMode
 import torchvision.transforms as transforms
 from decord import VideoReader
 def padding_336(b, pad=336):
     width, height = b.size
     tar = int(np.ceil(height / pad) * pad)
@@ -66,7 +73,7 @@ def Video_transform(img, hd_num=25):
     return img
-def frame2img(imgs, font_path):
     new_imgs = []
     for img in imgs:
         w, h = img.size
@@ -83,8 +90,6 @@ def frame2img(imgs, font_path):
     new_w = 0
     new_h = 0
     pad = 40
-    print (font_path)
-    font = ImageFont.truetype(os.path.join(font_path, "SimHei.ttf"), pad)
     if w > h:
         for im in imgs:
             w,h = im.size

 import torch
 import numpy as np
 import torchvision
+from urllib.request import urlopen
 from PIL import Image, ImageDraw, ImageFont
 from torchvision.transforms.functional import InterpolationMode
 import torchvision.transforms as transforms
 from decord import VideoReader
+def get_font():
+    truetype_url = 'https://cdn-lfs-us-1.huggingface.co/repos/19/7a/197a751ef710da1639736f1b5c9ebc26bd38d236aba7f10bcf8b553084c66907/336a838f4a78e150826be608dae69de59d50948c3d2b71760e096ae764154bdc?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27SimHei.ttf%3B+filename%3D%22SimHei.ttf%22%3B&response-content-type=font%2Fttf&Expires=1720275312&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcyMDI3NTMxMn19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmh1Z2dpbmdmYWNlLmNvL3JlcG9zLzE5LzdhLzE5N2E3NTFlZjcxMGRhMTYzOTczNmYxYjVjOWViYzI2YmQzOGQyMzZhYmE3ZjEwYmNmOGI1NTMwODRjNjY5MDcvMzM2YTgzOGY0YTc4ZTE1MDgyNmJlNjA4ZGFlNjlkZTU5ZDUwOTQ4YzNkMmI3MTc2MGUwOTZhZTc2NDE1NGJkYz9yZXNwb25zZS1jb250ZW50LWRpc3Bvc2l0aW9uPSomcmVzcG9uc2UtY29udGVudC10eXBlPSoifV19&Signature=aZAXME5llGK90xUsPHRuWouco5T92ngs63hhW0gIAWmrUup4Ed5y4lSqB5khoLCLlMHK5lC4QJ58JTFFnmVFgFsKA-XfggYJLXu-TIC6DnvQCLz4L6EvLwCR05jzWOWn3trDorazP%7Enb8nuYKPgwGkpsukvCcqpx5Y0%7EfA4XsUCmcaddmkhFkkS1Wp2QWDnJjFGkuRnm8fQLW%7EG3JCdd7EyBkr2uWG%7E3W7ff62l-f%7EQTvtXIpYTHF3SAeqbB-DYQMUIbQJTuSs0TiQPt3WYvchrbuKN0aqR5OLvDJI2Fl0omJCL-wESyj9L%7EC2sCyY2LCDoE8b6-omgbQal2KHv7cA__&Key-Pair-Id=K24J24Z295AEI9'
+    ff = urlopen(truetype_url)
+    font = ImageFont.truetype(ff, size=40)
+    return font
 def padding_336(b, pad=336):
     width, height = b.size
     tar = int(np.ceil(height / pad) * pad)
     return img
+def frame2img(imgs, font):
     new_imgs = []
     for img in imgs:
         w, h = img.size
     new_w = 0
     new_h = 0
     pad = 40
     if w > h:
         for im in imgs:
             w,h = im.size

modeling_internlm_xcomposer2.py CHANGED Viewed

@@ -45,7 +45,7 @@ import torchvision.transforms as transforms
 from torchvision.transforms.functional import InterpolationMode
 from .build_mlp import build_vision_projector, build_vision_tower
-from .ixc_utils import Image_transform, Video_transform, load_video, frame2img
 from .configuration_internlm_xcomposer2 import InternLMXcomposer2Config
 from .modeling_internlm2 import (InternLM2_INPUTS_DOCSTRING, InternLM2Model,
                                  InternLM2PreTrainedModel)
@@ -102,7 +102,7 @@ class InternLMXComposer2ForCausalLM(InternLM2PreTrainedModel):
             config.hidden_size, config.vocab_size, bias=False)
         self.tokenizer = None
         self.hd_num = 25
-        self._path = config._name_or_path
         self.max_length = config.max_length
         print(f'Set max length to {self.max_length}')
@@ -164,7 +164,7 @@ class InternLMXComposer2ForCausalLM(InternLM2PreTrainedModel):
                 image = Image_transform(image, hd_num = hd_num)
             elif ext.lower() in video_extensions:
                 image = load_video(image)
-                image = frame2img(image, self._path)
                 image = Video_transform(image, hd_num = hd_num)
             else:
                 print ('Unknow input format', image)

 from torchvision.transforms.functional import InterpolationMode
 from .build_mlp import build_vision_projector, build_vision_tower
+from .ixc_utils import Image_transform, Video_transform, load_video, frame2img, get_font
 from .configuration_internlm_xcomposer2 import InternLMXcomposer2Config
 from .modeling_internlm2 import (InternLM2_INPUTS_DOCSTRING, InternLM2Model,
                                  InternLM2PreTrainedModel)
             config.hidden_size, config.vocab_size, bias=False)
         self.tokenizer = None
         self.hd_num = 25
+        self.font = get_font()
         self.max_length = config.max_length
         print(f'Set max length to {self.max_length}')
                 image = Image_transform(image, hd_num = hd_num)
             elif ext.lower() in video_extensions:
                 image = load_video(image)
+                image = frame2img(image, self.font)
                 image = Video_transform(image, hd_num = hd_num)
             else:
                 print ('Unknow input format', image)