對tokenizer增加special tokens使其能被.apply_chat_template正確轉換
#34
by
p208p2002
- opened
作者您好,之前為chatglm3添加chat_template後發現,使用tokenizer.apply_chat_template
轉換成input_ids
時會因為tokenizer
不認識special token
而導致錯誤的轉換結果,因此提出此PR進行修正(儘管chat_template
是正確的)。
詳細比較與修改請參閱gist:
https://gist.github.com/p208p2002/adf1d4235b9567227d01315beb4b210e
此PR包含 :
- 對
tokenizer
增加四個special token ,使他們能夠被正確轉換。
tokenizer.add_tokens("<|user|>")
tokenizer.add_tokens("<|assistant|>")
tokenizer.add_tokens("[gMASK]")
tokenizer.add_tokens("sop")
- 移除
chat_template
額外空白
貢獻:
此PR能夠使 chatglm3 的 tokenizer 正確支援 tokenizer.apply_chat_template
方法。
p208p2002
changed pull request title from
Upload 3 files
to 對tokenizer增加special tokens使其能被.apply_chat_template正確轉換
p208p2002
changed pull request status to
closed