comet24082002
commited on
Commit
•
5e73d21
1
Parent(s):
615c4f3
Add new SentenceTransformer model.
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +978 -0
- config.json +28 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +55 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": true,
|
4 |
+
"pooling_mode_mean_tokens": false,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,978 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language: []
|
3 |
+
library_name: sentence-transformers
|
4 |
+
tags:
|
5 |
+
- sentence-transformers
|
6 |
+
- sentence-similarity
|
7 |
+
- feature-extraction
|
8 |
+
- generated_from_trainer
|
9 |
+
- dataset_size:10524
|
10 |
+
- loss:ContrastiveLoss
|
11 |
+
base_model: BAAI/bge-m3
|
12 |
+
datasets: []
|
13 |
+
widget:
|
14 |
+
- source_sentence: Thời hiệu xử phạt vi phạm hành chính đối với hành vi sử dụng lao
|
15 |
+
động 17 tuổi làm công việc pha chế đồ uống trong nhà hàng quá thời giờ làm việc
|
16 |
+
quy định là bao lâu?
|
17 |
+
sentences:
|
18 |
+
- '"Điều 62. Hết thời hạn đưa vào cơ sở cai nghiện bắt buộc
|
19 |
+
|
20 |
+
1. Chậm nhất là mười lăm ngày trước khi hết thời hạn đưa vào cơ sở cai nghiện
|
21 |
+
bắt buộc, Giám đốc cơ sở cai nghiện bắt buộc có trách nhiệm thông báo cho Tòa
|
22 |
+
án nhân dân cấp huyện nơi đã ra quyết định, Ủy ban nhân dân cấp xã nơi lập hồ
|
23 |
+
sơ, đại diện gia đình (bố, mẹ, vợ hoặc chồng, anh chị em ruột), người đại diện
|
24 |
+
theo pháp luật của người từ đủ 12 tuổi đến dưới 18 tuổi biết ngày người cai nghiện
|
25 |
+
hết thời hạn chấp hành biện pháp cai nghiện bắt buộc.
|
26 |
+
|
27 |
+
..
|
28 |
+
|
29 |
+
5. Trong thời hạn 05 ngày làm việc, kể từ ngày về địa phương, người đã chấp hành
|
30 |
+
xong quyết định phải trình báo Ủy ban nhân dân cấp xã và cơ quan Công an cùng
|
31 |
+
cấp nơi mình cư trú."'
|
32 |
+
- 'Cơ cấu tổ chức
|
33 |
+
|
34 |
+
...
|
35 |
+
|
36 |
+
b) Phó Giám đốc Trung tâm giúp Giám đốc theo dõi, chỉ đạo thực hiện một số mặt
|
37 |
+
công tác theo phân công của Giám đốc, chịu trách nhiệm trước Giám đốc và trước
|
38 |
+
pháp luật về nhiệm vụ được phân công.
|
39 |
+
|
40 |
+
2. Các phòng chuyên môn, nghiệp vụ:
|
41 |
+
|
42 |
+
a) Văn phòng;
|
43 |
+
|
44 |
+
b) Phòng Chuyển đổi số và Hợp tác quốc tế;
|
45 |
+
|
46 |
+
c) Phòng Quản trị hệ thống;
|
47 |
+
|
48 |
+
d) Phòng Công nghệ số;
|
49 |
+
|
50 |
+
đ) Phòng Quản lý Cổng thông tin điện tử;
|
51 |
+
|
52 |
+
e) Phòng Thống kê và Dự báo;
|
53 |
+
|
54 |
+
g) Phòng Thông tin và Thư viện.
|
55 |
+
|
56 |
+
Các phòng có Trưởng phòng và không quá 02 Phó Trưởng phòng được bổ nhiệm, miễn
|
57 |
+
nhiệm theo quy định của pháp luật.'
|
58 |
+
- '"- Văn bản đăng ký chuyển địa điểm tại cơ quan thuế nơi người nộp thuế chuyển
|
59 |
+
đến mẫu số 30/ĐK-TCT ban hành kèm theo Thông tư này.
|
60 |
+
|
61 |
+
- Bản sao Giấy phép thành lập và hoạt động, hoặc Giấy chứng nhận đăng ký hộ kinh
|
62 |
+
doanh hoặc Văn bản tương đương do cơ quan có thẩm quyền cấp trong trường hợp địa
|
63 |
+
chỉ trên các Giấy tờ này có thay đổi."'
|
64 |
+
- source_sentence: Các giao dịch điện tử nào được thực hiện thông qua Hệ thống ACTS?
|
65 |
+
sentences:
|
66 |
+
- '"Điều 26. Đơn phương chấm dứt thực hiện hợp đồng bảo hiểm
|
67 |
+
|
68 |
+
Doanh nghiệp bảo hiểm, chi nhánh doanh nghiệp bảo hiểm phi nhân thọ nước ngoài
|
69 |
+
hoặc bên mua bảo hiểm có quyền đơn phương chấm dứt thực hiện hợp đồng bảo hiểm
|
70 |
+
trong trường hợp sau đây:
|
71 |
+
|
72 |
+
1. Bên mua bảo hiểm không đóng phí bảo hiểm hoặc không đóng đủ phí bảo hiểm theo
|
73 |
+
thời hạn thỏa thuận hoặc sau thời gian gia hạn đóng phí;
|
74 |
+
|
75 |
+
2. Doanh nghiệp bảo hiểm, chi nhánh doanh nghiệp bảo hiểm phi nhân thọ nước ngoài,
|
76 |
+
bên mua bảo hiểm không chấp nhận yêu cầu về thay đổi mức độ rủi ro được bảo hiểm
|
77 |
+
quy định tại Điều 23 của Luật này;
|
78 |
+
|
79 |
+
3. Người được bảo hiểm không thực hiện các biện pháp bảo đảm an toàn cho đối tượng
|
80 |
+
bảo hiểm quy định tại khoản 3 Điều 55 của Luật này;
|
81 |
+
|
82 |
+
4. Bên mua bảo hiểm không đồng ý chuyển giao danh mục hợp đồng bảo hiểm quy định
|
83 |
+
tại khoản 4 Điều 92 của Luật này."'
|
84 |
+
- 'Các chế độ phụ cấp lương
|
85 |
+
|
86 |
+
1. Phụ cấp thâm niên vượt khung:
|
87 |
+
|
88 |
+
Áp dụng đối với các đối tượng xếp lương theo bảng 2, bảng 3, bảng 4 và bảng 7
|
89 |
+
quy định tại khoản 1 Điều 5 Nghị định này và bảng lương chuyên môn, nghiệp vụ
|
90 |
+
ngành Toà án, ngành Kiểm sát quy định tại Nghị quyết số 730/2004/NQ-UBTVQH11 ,
|
91 |
+
đã xếp bậc lương cuối cùng trong ngạch hoặc trong chức danh.
|
92 |
+
|
93 |
+
a) Mức phụ cấp như sau:
|
94 |
+
|
95 |
+
a1) Các đối tượng xếp lương theo các ngạch từ loại A0 đến loại A3 của bảng 2,
|
96 |
+
bảng 3, các chức danh xếp lương theo bảng 7 và các chức danh xếp lương theo bảng
|
97 |
+
lương chuyên môn, nghiệp vụ ngành Toà án, ngành Kiểm sát: Sau 3 năm (đủ 36 tháng)
|
98 |
+
đã xếp bậc lương cuối cùng trong ngạch hoặc trong chức danh thì được hưởng phụ
|
99 |
+
cấp thâm niên vượt khung bằng 5% mức lương của bậc lương cuối cùng trong ngạch
|
100 |
+
hoặc trong chức danh đó; từ năm thứ tư trở đi mỗi năm được tính thêm 1%.
|
101 |
+
|
102 |
+
....
|
103 |
+
|
104 |
+
b) Các đối tượng quy định tại điểm a (a1 và a2) khoản 1 Điều này, nếu không hoàn
|
105 |
+
thành nhiệm vụ được giao hàng năm hoặc bị kỷ luật một trong các hình thức khiển
|
106 |
+
trách, cảnh cáo, giáng chức hoặc cách chức thì cứ mỗi năm không hoàn thành nhiệm
|
107 |
+
vụ hoặc bị kỷ luật bị kéo dài thêm thời gian tính hưởng phụ cấp thâm niên vượt
|
108 |
+
khung so với thời gian quy định như sau:
|
109 |
+
|
110 |
+
- Trường hợp không hoàn thành nhiệm vụ hoặc bị kỷ luật hình thức khiển trách hoặc
|
111 |
+
cảnh cáo thì bị kéo dài thêm 06 (sáu) tháng so với thời gian quy định;
|
112 |
+
|
113 |
+
- Trường hợp bị kỷ luật giáng chức hoặc cách chức thì bị kéo dài thêm 12 tháng
|
114 |
+
(một năm) so với thời gian quy định.
|
115 |
+
|
116 |
+
c) Phụ cấp thâm niên vượt khung được dùng để tính đóng và hưởng chế độ bảo hiểm
|
117 |
+
xã hội.
|
118 |
+
|
119 |
+
...'
|
120 |
+
- 'Khả năng tiếp cận
|
121 |
+
|
122 |
+
...
|
123 |
+
|
124 |
+
2. Các quốc gia thành viên cũng tiến hành các biện pháp thích hợp để:
|
125 |
+
|
126 |
+
a. Phát triển, tăng cường và giám sát thi hành những tiêu chuẩn tối thiểu và định
|
127 |
+
hướng về khả năng tiếp cận của cơ sở vật chất và dịch vụ dành cho công chúng;
|
128 |
+
|
129 |
+
b. Bảo đảm rằng các cơ sở tư nhân cung cấp cơ sở vật chất và dịch vụ cho công
|
130 |
+
chúng cân nhắc mọi khía cạnh về khả năng tiếp cận đối với người khuyết tật;
|
131 |
+
|
132 |
+
c. Cung cấp đào tạo cho những người nắm giữ cổ phần về các vấn đề liên quan đến
|
133 |
+
khả năng tiếp cận mà người khuyết tật phải đối mặt;
|
134 |
+
|
135 |
+
d. Cung cấp dấu hiệu nổi Braille dưới dạng dễ đọc và dễ hiểu trong các tòa nhà
|
136 |
+
và các cơ sở vật chất khác dành cho công chúng;
|
137 |
+
|
138 |
+
e. Cung cấp các hình thức trợ giúp và người giúp đỡ tại chỗ, trong đó có hướng
|
139 |
+
dẫn, máy đọc và người phiên dịch ngôn ngữ ký hiệu chuyên nghiệp, để các tòa nhà
|
140 |
+
và cơ sở vật chất khác dành cho công chúng dễ tiếp cận hơn;
|
141 |
+
|
142 |
+
f. Tăng cường các hình thức trợ giúp thích hợp khác cho người khuyết tật để bảo
|
143 |
+
đảm đảm cho họ tiếp cận thông tin;
|
144 |
+
|
145 |
+
g. Khuyến khích người khuyết tật tiếp cận thông tin và công nghệ, hệ thống liên
|
146 |
+
lạc mới, trong đó có Internet;
|
147 |
+
|
148 |
+
h. Khuyến khích thiết kế, phát triển, sản xuất và phân phối thông tin, công nghệ
|
149 |
+
và hệ thống liên lạc dễ tiếp cận ngay từ giai đoạn đầu, nhờ đó các công nghệ và
|
150 |
+
hệ thống này sẽ dễ tiếp cận với chi phí tối thiểu.'
|
151 |
+
- source_sentence: Quy định về vi phạm chính sách dân số đối với Đảng viên tại Quy
|
152 |
+
định 69 như thế nào?
|
153 |
+
sentences:
|
154 |
+
- "\"Điều 11. Tạm hoãn, miễn thực hiện nghĩa vụ tham gia Dân quân tự vệ trong thời\
|
155 |
+
\ bình\n1. Công dân được tạm hoãn thực hiện nghĩa vụ tham gia Dân quân tự vệ trong\
|
156 |
+
\ trường hợp sau đây:\na) Phụ nữ mang thai hoặc nuôi con dưới 36 tháng tuổi; nam\
|
157 |
+
\ giới một mình nuôi con dưới 36 tháng tuổi;\nb) Không đủ sức khỏe thực hiện nhiệm\
|
158 |
+
\ vụ của Dân quân tự vệ;\nc) Có chồng hoặc vợ là sĩ quan, quân nhân chuyên nghiệp,\
|
159 |
+
\ công chức, viên chức, công nhân quốc phòng, hạ sĩ quan, binh sĩ đang phục vụ\
|
160 |
+
\ trong Quân đội nhân dân;\nd) Có chồng hoặc vợ là sĩ quan, hạ sĩ quan, chiến\
|
161 |
+
\ sĩ, công nhân công an đang phục vụ trong Công an nhân dân;\nđ) Có chồng hoặc\
|
162 |
+
\ vợ là cán bộ, công chức, viên chức, thanh niên xung phong được điều động đến\
|
163 |
+
\ công tác, làm việc ở vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn theo\
|
164 |
+
\ quy định của pháp luật;\ne) Lao động duy nhất trong hộ nghèo, hộ cận nghèo;\
|
165 |
+
\ người phải trực tiếp nuôi dưỡng thân nhân không còn khả năng lao động hoặc chưa\
|
166 |
+
\ đến tuổi lao động; người trong hộ gia đình bị thiệt hại nặng về người và tài\
|
167 |
+
\ sản do tai nạn, thiên tai, dịch bệnh nguy hiểm gây ra được Chủ tịch Ủy ban nhân\
|
168 |
+
\ dân cấp xã, Chủ tịch Ủy ban nhân dân cấp huyện nơi không có đơn vị hành chính\
|
169 |
+
\ cấp xã, người đứng đầu cơ quan, tổ chức nơi công dân cư trú hoặc làm việc xác\
|
170 |
+
\ nhận;\ng) Vợ hoặc chồng, một con của thương binh, bệnh binh, người bị nhiễm\
|
171 |
+
\ chất độc da cam suy giảm khả năng lao động từ 61% đến 80%;\nh) Người đang học\
|
172 |
+
\ tại trường của cơ quan nhà nước, tổ chức chính trị, tổ chức chính trị - xã hội,\
|
173 |
+
\ cơ sở giáo dục thuộc hệ thống giáo dục quốc dân; người đang lao động, học tập,\
|
174 |
+
\ làm việc ở nước ngoài.\n2. Công dân được miễn thực hiện nghĩa vụ tham gia Dân\
|
175 |
+
\ quân tự vệ trong trường hợp sau đây:\n a) Vợ hoặc chồng, con của liệt sĩ;\n\
|
176 |
+
b) Vợ hoặc chồng, con của thương binh, bệnh binh, người bị nhiễm chất độc da cam\
|
177 |
+
\ suy giảm khả năng lao động từ 81% trở lên;\nc) Quân nhân dự bị đã được sắp xếp\
|
178 |
+
\ vào đơn vị dự bị động viên;\nd) Người trực tiếp nuôi dưỡng, chăm sóc Bà mẹ Việt\
|
179 |
+
\ Nam anh hùng; người trực tiếp nuôi dưỡng người suy giảm khả năng lao động từ\
|
180 |
+
\ 81% trở lên;\nđ) Người làm công tác cơ yếu.\n3. Công dân thuộc diện tạm hoãn,\
|
181 |
+
\ miễn thực hiện nghĩa vụ tham gia Dân quân tự vệ quy định tại các điểm c, d,\
|
182 |
+
\ đ, e, g khoản 1 và các điểm a, b, d khoản 2 Điều này nếu tình nguyện thì được\
|
183 |
+
\ xem xét tuyển chọn vào Dân quân tự vệ.\n4. Chủ tịch Ủy ban nhân dân cấp xã,\
|
184 |
+
\ Chủ tịch Ủy ban nhân dân cấp huyện nơi không có đơn vị hành chính cấp xã, người\
|
185 |
+
\ đứng đầu cơ quan, tổ chức quyết định tạm hoãn, miễn thực hiện nghĩa vụ tham\
|
186 |
+
\ gia Dân quân tự vệ.\""
|
187 |
+
- 'Vi phạm quy định phòng, chống tham nhũng, tiêu cực
|
188 |
+
|
189 |
+
...
|
190 |
+
|
191 |
+
1. Đảng viên vi phạm một trong các trường hợp sau gây hậu quả ít nghiêm trọng
|
192 |
+
thì kỷ luật bằng hình thức khiển trách:
|
193 |
+
|
194 |
+
a) Lợi dụng chức vụ, quyền hạn để sử dụng tiền, tài sản của tổ chức, cá nhân do
|
195 |
+
mình trực tiếp quản lý trái quy định.
|
196 |
+
|
197 |
+
b) Không chỉ đạo, tổ chức kiểm tra, đôn đốc thực hiện quy định về kê khai, kiểm
|
198 |
+
soát tài sản, thu nhập thuộc trách nhiệm được giao hoặc thực hiện không đúng,
|
199 |
+
không đầy đủ quy định về kê khai, minh bạch tài sản, thu nhập, về giải trình biến
|
200 |
+
động tài sản và nguồn gốc của tài sản tăng thêm.
|
201 |
+
|
202 |
+
c) Buông lỏng lãnh đạo, quản lý để xảy ra tham nhũng, tiêu cực trong cơ quan,
|
203 |
+
đơn vị, tổ chức do mình trực tiếp phụ trách mà không chủ động xử lý.
|
204 |
+
|
205 |
+
d) Tổ chức giao lưu, du lịch, tặng quà để lợi dụng, mua chuộc người có trách nhiệm
|
206 |
+
ban hành quyết định không đúng quy định, nhằm trục lợi cho bản thân, gia đình
|
207 |
+
mình hoặc cơ quan, đơn vị, tổ chức, doanh nghiệp mà mình tham gia.
|
208 |
+
|
209 |
+
đ) Tổ chức giao lưu, liên hoan, gặp mặt để tặng, nhận quà với động cơ vụ lợi.
|
210 |
+
|
211 |
+
e) Quy hoạch, bổ nhiệm, điều động, luân chuyển, cho chuyển công tác đối với nhân
|
212 |
+
sự là đối tượng đang trong quá trình kiểm tra khi có dấu hiệu vi phạm, xem xét
|
213 |
+
xử lý kỷ luật, bị kiến nghị xử lý vi phạm theo kết luận kiểm tra, thanh tra, đang
|
214 |
+
điều tra hoặc giải quyết tố cáo.
|
215 |
+
|
216 |
+
...'
|
217 |
+
- '1. Trồng rừng, bảo vệ rừng, trồng cây dược liệu, cây lâm sản ngoài gỗ, sản xuất
|
218 |
+
nông nghiệp hữu cơ.
|
219 |
+
|
220 |
+
2. Đầu tư, phát triển vùng nguyên liệu tập trung cho công nghiệp chế biến. Xây
|
221 |
+
dựng cánh đồng lớn.
|
222 |
+
|
223 |
+
3. Chăn nuôi gia súc, gia cầm, thủy sản, hải sản tập trung.
|
224 |
+
|
225 |
+
4. Sản xuất, phát triển giống cây trồng, giống vật nuôi, giống cây lâm nghiệp,
|
226 |
+
giống thủy sản.
|
227 |
+
|
228 |
+
5. Ứng dụng công nghệ thông tin, công nghệ sinh học, công nghệ vật liệu mới, công
|
229 |
+
nghệ tự động hóa và các công nghệ cao được ưu tiên đầu tư phát triển trong sản
|
230 |
+
xuất nông nghiệp, lâm nghiệp, diêm nghiệp, thủy lợi, thủy sản.
|
231 |
+
|
232 |
+
6. Đánh bắt hải sản ở vùng biển xa bờ.
|
233 |
+
|
234 |
+
7. Sản xuất, tinh chế muối.
|
235 |
+
|
236 |
+
8. Sản xuất nguyên liệu và chế biến thức ăn gia súc, gia cầm, thủy sản, chế phẩm
|
237 |
+
sinh học.
|
238 |
+
|
239 |
+
9. Chế biến, bảo quản nông, lâm, thủy sản, dược liệu.
|
240 |
+
|
241 |
+
10. Sản xuất bột giấy, giấy, bìa, ván nhân tạo trực tiếp từ nguồn nguyên liệu
|
242 |
+
nông, lâm sản.
|
243 |
+
|
244 |
+
11. Sản xuất thuốc, nguyên liệu thuốc bảo vệ thực vật, thuốc thú y, sản phẩm xử
|
245 |
+
lý, cải tạo môi trường trong chăn nuôi, nuôi trồng thủy sản.
|
246 |
+
|
247 |
+
...'
|
248 |
+
- source_sentence: Chủ tịch Ủy ban nhân dân cấp xã được quyền xử phạt tổ chức tín
|
249 |
+
dụng áp dụng lãi suất huy động vốn cao hơn mức đã niêm yết không?
|
250 |
+
sentences:
|
251 |
+
- "Quyền hạn, trách nhiệm của Ngân hàng Nhà nước trong việc góp vốn, mua cổ phần\
|
252 |
+
\ bắt buộc\n1. Ngân hàng Nhà nước có quyền: \na) Yêu cầu tổ chức tín dụng được\
|
253 |
+
\ kiểm soát đặc biệt thuê tổ chức kiểm toán độc lập để đánh giá thực trạng tài\
|
254 |
+
\ chính, xác định giá trị doanh nghiệp, giá trị thực của vốn điều lệ và các quỹ\
|
255 |
+
\ dự trữ tại thời điểm kiểm soát đặc biệt hoặc một thời điểm phù hợp khác;\nb)\
|
256 |
+
\ Quyết định giá trị thực vốn điều lệ và các quỹ dự trữ của tổ chức tín dụng được\
|
257 |
+
\ kiểm soát đặc biệt căn cứ kết quả kiểm toán và xác định số vốn điều lệ cần bổ\
|
258 |
+
\ sung thông qua việc góp vốn, mua cổ phần để bảo đảm đáp ứng yêu cầu về vốn pháp\
|
259 |
+
\ định và các quy định về an toàn trong hoạt động ngân hàng;\nc) Yêu cầu triệu\
|
260 |
+
\ tập Đại hội đồng cổ đông, Hội đồng thành viên để thông báo công khai về kết\
|
261 |
+
\ quả kiểm toán độc lập, quyết định của Ngân hàng Nhà nước về thực trạng tài chính,\
|
262 |
+
\ giá trị thực của vốn điều lệ và các quỹ dự trữ, số vốn điều lệ cần được bổ sung\
|
263 |
+
\ và việc góp vốn, mua cổ phần bắt buộc của tổ chức tín dụng được chỉ định hoặc\
|
264 |
+
\ Ngân hàng Nhà nước;\nd) Yêu cầu cổ đông công khai việc sử dụng cổ phiếu; hạn\
|
265 |
+
\ chế chuyển nhượng, sử dụng cổ phiếu, phần vốn góp để bảo đảm cho các nghĩa vụ\
|
266 |
+
\ dân sự của cổ đông, thành viên góp vốn và các tổ chức, cá nhân có liên quan\
|
267 |
+
\ trong thời gian được kiểm soát đặc biệt và thực hiện cơ cấu lại;\nđ) Yêu cầu\
|
268 |
+
\ tổ chức tín dụng được kiểm soát đặc biệt phải chuyển nhượng vốn góp, vốn cổ\
|
269 |
+
\ phần; thành viên góp vốn, cổ đông lớn, cổ đông nắm quyền kiểm soát, chi phối\
|
270 |
+
\ tổ chức tín dụng được kiểm soát đặc biệt phải chuyển nhượng vốn góp, cổ phần\
|
271 |
+
\ cho Ngân hàng Nhà nước hoặc tổ chức tín dụng được chỉ định;\ne) Chỉ định tổ\
|
272 |
+
\ chức tín dụng khác góp vốn, mua cổ phần bắt buộc tổ chức tín dụng được kiểm\
|
273 |
+
\ soát đặc biệt theo quy định tại Khoản 1 Điều 4 Quyết định này; chỉ định và chấm\
|
274 |
+
\ dứt sự tham gia của tổ chức tham gia quản trị, điều hành trong trường hợp Ngân\
|
275 |
+
\ hàng Nhà nước trực tiếp tham gia góp vốn, mua cổ phần trong tổ chức tín dụng\
|
276 |
+
\ được kiểm soát đặc biệt;\ng) Quyết định việc chuyển nhượng vốn, cổ phần tại\
|
277 |
+
\ tổ chức tín dụng được tham gia góp vốn, mua cổ phần của tổ chức tín dụng được\
|
278 |
+
\ chỉ định hoặc của Ngân hàng Nhà nước sau khi tổ chức tín dụng được tham gia\
|
279 |
+
\ góp vốn, mua cổ phần đã trở lại hoạt động bình thường;\nh) Các quyền hạn khác\
|
280 |
+
\ theo quy định của pháp luật.\n…"
|
281 |
+
- "Phạm vi tài sản cố định tính hao mòn, khấu hao \n1. Tài sản cố định hiện có tại\
|
282 |
+
\ cơ quan, tổ chức, đơn vị và tài sản cố định do Nhà nước giao cho doanh nghiệp\
|
283 |
+
\ quản lý không tính thành phần vốn nhà nước tại doanh nghiệp đều phải tính hao\
|
284 |
+
\ mòn, trừ các trường hợp quy định tại các khoản 2, 3 và 4 Điều này. \n2. Các\
|
285 |
+
\ tài sản cố định tại đơn vị sự nghiệp công lập phải trích khấu hao gồm: \na)\
|
286 |
+
\ Tài sản cố định tại đơn vị sự nghiệp công lập tự bảo đảm chi thường xuyên và\
|
287 |
+
\ chi đầu tư. \nb) Tài sản cố định tại đơn vị sự nghiệp công lập thuộc đối tượng\
|
288 |
+
\ phải tính đủ khấu hao tài sản cố định vào giá dịch vụ theo quy định của pháp\
|
289 |
+
\ luật. \nc) Tài sản cố định tại đơn vị sự nghiệp công lập không thuộc phạm vi\
|
290 |
+
\ quy định tại điểm a, điểm b khoản này được sử dụng vào hoạt động kinh doanh,\
|
291 |
+
\ cho thuê, liên doanh, liên kết mà không hình thành pháp nhân mới theo quy định\
|
292 |
+
\ của pháp luật. \n3. Không phải tính hao mòn, khấu hao đối với: \na) Tài sản\
|
293 |
+
\ cố định là quyền sử dụng đất đối với các trường hợp phải xác định giá trị quyền\
|
294 |
+
\ sử dụng đất để tính vào giá trị tài sản quy định tại Điều 100 Nghị định số 151/2017/NĐ-CP.\
|
295 |
+
\ \nb) Tài sản cố định đặc thù quy định tại điểm c khoản 1 Điều 4 Thông tư này.\
|
296 |
+
\ \nc) Tài sản cố định đã tính đủ hao mòn hoặc đã khấu hao hết giả trị nhưng vẫn\
|
297 |
+
\ còn sử dụng được (bao gồm cả tải sản cố định đơn vị sự nghiệp công lập được\
|
298 |
+
\ nhận sau khi hết thời hạn liên doanh, liên kết). \nd) Các tài sản cố định chưa\
|
299 |
+
\ tính hết hao mòn hoặc chưa khấu hao hết giá trị nhưng đã hư hỏng không tiếp\
|
300 |
+
\ tục sử dụng được. \n4. Đối với tài sản cố định là thương hiệu của đơn vị sự\
|
301 |
+
\ nghiệp công lập sử dụng vào hoạt động liên doanh, liên kết thì giá trị thương\
|
302 |
+
\ hiệu của đơn vị sự nghiệp công lập để góp vốn liên doanh, liên kết được phân\
|
303 |
+
\ bổ vào chi phí liên doanh, liên kết hàng năm/tháng theo quy định tại khoản 3\
|
304 |
+
\ Điều 15 Thông tư này."
|
305 |
+
- 'Hình dáng, kích thước, nội dung, quy cách, ngôn ngữ khác và chất liệu thẻ Căn
|
306 |
+
cước công dân
|
307 |
+
|
308 |
+
..
|
309 |
+
|
310 |
+
2. Nội dung
|
311 |
+
|
312 |
+
a) Mặt trước thẻ Căn cước công dân gồm các thông tin sau:
|
313 |
+
|
314 |
+
- Bên trái, từ trên xuống: Hình Quốc huy nước Cộng hòa xã hội chủ nghĩa Việt Nam,
|
315 |
+
đường kính 12 mm; ảnh của người được cấp thẻ Căn cước công dân cỡ 20 x 30 mm;
|
316 |
+
Có giá trị đến/Date of expiry;
|
317 |
+
|
318 |
+
- Bên phải, từ trên xuống: CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM; Độc lập - Tự do
|
319 |
+
- Hạnh phúc; SOCIALIST REPUBLIC OF VIET NAM; Independence - Freedom - Happiness;
|
320 |
+
dòng chữ CĂN CƯỚC CÔNG DÂN/Citizen Identity Card; biểu tượng chíp; mã QR; Số/No;
|
321 |
+
Họ và tên/Full name; Ngày sinh/Date of birth; Giới tính/Sex; Quốc tịch/Nationality;
|
322 |
+
Quê quán/Place of origin; Nơi thường trú/Place of residence;
|
323 |
+
|
324 |
+
...
|
325 |
+
|
326 |
+
b) Mặt sau thẻ Căn cước công dân gồm các thông tin sau:
|
327 |
+
|
328 |
+
- Bên trái, từ trên xuống: Đặc điểm nhân dạng/Personal identification; Ngày, tháng,
|
329 |
+
năm/Date, month, year; CỤC TRƯỞNG CỤC CẢNH SÁT QUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ
|
330 |
+
HỘI/DIRECTOR GENERAL OF THE POLICE DEPARTMENT FOR ADMINISTRATIVE MANAGEMENT OF
|
331 |
+
SOCIAL ORDER; chữ ký, họ và tên của người có thẩm quyền cấp thẻ; dấu có hình Quốc
|
332 |
+
huy của cơ quan cấp thẻ Căn cước công dân; chíp điện tử.
|
333 |
+
|
334 |
+
- Bên phải, từ trên xuống: Có 2 ô: Vân tay ngón trỏ trái/Left index finger và
|
335 |
+
Vân tay ngón trỏ phải/Right index finger của người được cấp thẻ căn cước công
|
336 |
+
dân.
|
337 |
+
|
338 |
+
- Dòng MRZ.
|
339 |
+
|
340 |
+
...'
|
341 |
+
- source_sentence: Cục Xuất nhập khẩu thuộc phạm vi quản lý nhà nước của cơ quan nào?
|
342 |
+
sentences:
|
343 |
+
- 'Vị trí và chức năng
|
344 |
+
|
345 |
+
1. Cục Xuất nhập khẩu là tổ chức thuộc Bộ Công Thương, thực hiện chức năng tham
|
346 |
+
mưu, giúp Bộ trưởng Bộ Công Thương quản lý nhà nước và tổ chức thực thi pháp luật
|
347 |
+
trong lĩnh vực hoạt động xuất khẩu, nhập khẩu hàng hóa, xuất xứ hàng hóa, mua
|
348 |
+
bán hàng hóa quốc tế, đại lý mua, bán, gia công và quá cảnh hàng hóa với nước
|
349 |
+
ngoài, thuộc phạm vi quản lý nhà nước của Bộ Công Thương.
|
350 |
+
|
351 |
+
2. Cục Xuất nhập khẩu có tư cách pháp nhân, con dấu và tài khoản riêng theo quy
|
352 |
+
định của pháp luật; kinh phí hoạt động do ngân sách nhà nước cấp và từ các khoản
|
353 |
+
thu phí, lệ phí theo quy định của Nhà nước.
|
354 |
+
|
355 |
+
Cục Xuất nhập khẩu có tên giao dịch quốc tế bằng tiếng Anh: Agency of Foreign
|
356 |
+
Trade.
|
357 |
+
|
358 |
+
Tên viết tắt: AFT.
|
359 |
+
|
360 |
+
Trụ sở chính tại thành phố Hà Nội.'
|
361 |
+
- '"Điều 112. Nghỉ lễ, tết
|
362 |
+
|
363 |
+
1. Người lao động được nghỉ làm việc, hưởng nguyên lương trong những ngày lễ,
|
364 |
+
tết sau đây:
|
365 |
+
|
366 |
+
a) Tết Dương lịch: 01 ngày (ngày 01 tháng 01 dương lịch);
|
367 |
+
|
368 |
+
b) Tết Âm lịch: 05 ngày;
|
369 |
+
|
370 |
+
c) Ngày Chiến thắng: 01 ngày (ngày 30 tháng 4 dương lịch);
|
371 |
+
|
372 |
+
d) Ngày Quốc tế lao động: 01 ngày (ngày 01 tháng 5 dương lịch);
|
373 |
+
|
374 |
+
đ) Quốc khánh: 02 ngày (ngày 02 tháng 9 dương lịch và 01 ngày liền kề trước hoặc
|
375 |
+
sau);
|
376 |
+
|
377 |
+
e) Ngày Giỗ Tổ Hùng Vương: 01 ngày (ngày 10 tháng 3 âm lịch).
|
378 |
+
|
379 |
+
2. Lao động là người nước ngoài làm việc tại Việt Nam ngoài các ngày nghỉ theo
|
380 |
+
quy định tại khoản 1 Điều này còn được nghỉ thêm 01 ngày Tết cổ truyền dân tộc
|
381 |
+
và 01 ngày Quốc khánh của nước họ.
|
382 |
+
|
383 |
+
3. Hằng năm, căn cứ vào điều kiện thực tế, Thủ tướng Chính phủ quyết định cụ thể
|
384 |
+
ngày nghỉ quy định tại điểm b và điểm đ khoản 1 Điều này."'
|
385 |
+
- '"Điều 38. Yêu cầu đối với động vật, sản phẩm động vật trên cạn vận chuyển ra
|
386 |
+
khỏi địa bàn cấp tỉnh
|
387 |
+
|
388 |
+
1. Động vật, sản phẩm động vật có trong Danh mục động vật, sản phẩm động vật trên
|
389 |
+
cạn thuộc diện phải kiểm dịch khi vận chuyển ra khỏi địa bàn cấp tỉnh phải đáp
|
390 |
+
ứng các yêu cầu sau đây:
|
391 |
+
|
392 |
+
a) Có Giấy chứng nhận kiểm dịch động vật, sản phẩm động vật do cơ quan quản lý
|
393 |
+
chuyên ngành thú y nơi xuất phát cấp;
|
394 |
+
|
395 |
+
b) Động vật phải khỏe mạnh, sản phẩm động vật bảo đảm yêu cầu vệ sinh thú y;
|
396 |
+
|
397 |
+
c) Không làm lây lan dịch bệnh động vật, không gây hại đến sức khỏe con người.
|
398 |
+
|
399 |
+
2. Động vật, sản phẩm động vật được vận chuyển bằng phương tiện vận chuyển, vật
|
400 |
+
dụng chứa đựng bảo đảm yêu cầu vệ sinh thú y quy định tại Điều 70 của Luật này."'
|
401 |
+
pipeline_tag: sentence-similarity
|
402 |
+
---
|
403 |
+
|
404 |
+
# SentenceTransformer based on BAAI/bge-m3
|
405 |
+
|
406 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
407 |
+
|
408 |
+
## Model Details
|
409 |
+
|
410 |
+
### Model Description
|
411 |
+
- **Model Type:** Sentence Transformer
|
412 |
+
- **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision babcf60cae0a1f438d7ade582983d4ba462303c2 -->
|
413 |
+
- **Maximum Sequence Length:** 512 tokens
|
414 |
+
- **Output Dimensionality:** 1024 tokens
|
415 |
+
- **Similarity Function:** Cosine Similarity
|
416 |
+
<!-- - **Training Dataset:** Unknown -->
|
417 |
+
<!-- - **Language:** Unknown -->
|
418 |
+
<!-- - **License:** Unknown -->
|
419 |
+
|
420 |
+
### Model Sources
|
421 |
+
|
422 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
423 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
424 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
425 |
+
|
426 |
+
### Full Model Architecture
|
427 |
+
|
428 |
+
```
|
429 |
+
SentenceTransformer(
|
430 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
431 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
432 |
+
(2): Normalize()
|
433 |
+
)
|
434 |
+
```
|
435 |
+
|
436 |
+
## Usage
|
437 |
+
|
438 |
+
### Direct Usage (Sentence Transformers)
|
439 |
+
|
440 |
+
First install the Sentence Transformers library:
|
441 |
+
|
442 |
+
```bash
|
443 |
+
pip install -U sentence-transformers
|
444 |
+
```
|
445 |
+
|
446 |
+
Then you can load this model and run inference.
|
447 |
+
```python
|
448 |
+
from sentence_transformers import SentenceTransformer
|
449 |
+
|
450 |
+
# Download from the 🤗 Hub
|
451 |
+
model = SentenceTransformer("comet24082002/ft_bge_newLaw_ContrastiveLoss_V1_5epochs")
|
452 |
+
# Run inference
|
453 |
+
sentences = [
|
454 |
+
'Cục Xuất nhập khẩu thuộc phạm vi quản lý nhà nước của cơ quan nào?',
|
455 |
+
'Vị trí và chức năng\n1. Cục Xuất nhập khẩu là tổ chức thuộc Bộ Công Thương, thực hiện chức năng tham mưu, giúp Bộ trưởng Bộ Công Thương quản lý nhà nước và tổ chức thực thi pháp luật trong lĩnh vực hoạt động xuất khẩu, nhập khẩu hàng hóa, xuất xứ hàng hóa, mua bán hàng hóa quốc tế, đại lý mua, bán, gia công và quá cảnh hàng hóa với nước ngoài, thuộc phạm vi quản lý nhà nước của Bộ Công Thương.\n2. Cục Xuất nhập khẩu có tư cách pháp nhân, con dấu và tài khoản riêng theo quy định của pháp luật; kinh phí hoạt động do ngân sách nhà nước cấp và từ các khoản thu phí, lệ phí theo quy định của Nhà nước.\nCục Xuất nhập khẩu có tên giao dịch quốc tế bằng tiếng Anh: Agency of Foreign Trade.\nTên viết tắt: AFT.\nTrụ sở chính tại thành phố Hà Nội.',
|
456 |
+
'"Điều 112. Nghỉ lễ, tết\n1. Người lao động được nghỉ làm việc, hưởng nguyên lương trong những ngày lễ, tết sau đây:\na) Tết Dương lịch: 01 ngày (ngày 01 tháng 01 dương lịch);\nb) Tết Âm lịch: 05 ngày;\nc) Ngày Chiến thắng: 01 ngày (ngày 30 tháng 4 dương lịch);\nd) Ngày Quốc tế lao động: 01 ngày (ngày 01 tháng 5 dương lịch);\nđ) Quốc khánh: 02 ngày (ngày 02 tháng 9 dương lịch và 01 ngày liền kề trước hoặc sau);\ne) Ngày Giỗ Tổ Hùng Vương: 01 ngày (ngày 10 tháng 3 âm lịch).\n2. Lao động là người nước ngoài làm việc tại Việt Nam ngoài các ngày nghỉ theo quy định tại khoản 1 Điều này còn được nghỉ thêm 01 ngày Tết cổ truyền dân tộc và 01 ngày Quốc khánh của nước họ.\n3. Hằng năm, căn cứ vào điều kiện thực tế, Thủ tướng Chính phủ quyết định cụ thể ngày nghỉ quy định tại điểm b và điểm đ khoản 1 Điều này."',
|
457 |
+
]
|
458 |
+
embeddings = model.encode(sentences)
|
459 |
+
print(embeddings.shape)
|
460 |
+
# [3, 1024]
|
461 |
+
|
462 |
+
# Get the similarity scores for the embeddings
|
463 |
+
similarities = model.similarity(embeddings, embeddings)
|
464 |
+
print(similarities.shape)
|
465 |
+
# [3, 3]
|
466 |
+
```
|
467 |
+
|
468 |
+
<!--
|
469 |
+
### Direct Usage (Transformers)
|
470 |
+
|
471 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
472 |
+
|
473 |
+
</details>
|
474 |
+
-->
|
475 |
+
|
476 |
+
<!--
|
477 |
+
### Downstream Usage (Sentence Transformers)
|
478 |
+
|
479 |
+
You can finetune this model on your own dataset.
|
480 |
+
|
481 |
+
<details><summary>Click to expand</summary>
|
482 |
+
|
483 |
+
</details>
|
484 |
+
-->
|
485 |
+
|
486 |
+
<!--
|
487 |
+
### Out-of-Scope Use
|
488 |
+
|
489 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
490 |
+
-->
|
491 |
+
|
492 |
+
<!--
|
493 |
+
## Bias, Risks and Limitations
|
494 |
+
|
495 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
496 |
+
-->
|
497 |
+
|
498 |
+
<!--
|
499 |
+
### Recommendations
|
500 |
+
|
501 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
502 |
+
-->
|
503 |
+
|
504 |
+
## Training Details
|
505 |
+
|
506 |
+
### Training Dataset
|
507 |
+
|
508 |
+
#### Unnamed Dataset
|
509 |
+
|
510 |
+
|
511 |
+
* Size: 10,524 training samples
|
512 |
+
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
|
513 |
+
* Approximate statistics based on the first 1000 samples:
|
514 |
+
| | sentence1 | sentence2 | label |
|
515 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------|
|
516 |
+
| type | string | string | int |
|
517 |
+
| details | <ul><li>min: 8 tokens</li><li>mean: 24.48 tokens</li><li>max: 46 tokens</li></ul> | <ul><li>min: 32 tokens</li><li>mean: 283.82 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>0: ~50.00%</li><li>1: ~50.00%</li></ul> |
|
518 |
+
* Samples:
|
519 |
+
| sentence1 | sentence2 | label |
|
520 |
+
|:------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
|
521 |
+
| <code>Hồ sơ đề nghị xét cấp lại giấy phép lái xe quá hạn gồm những gì?</code> | <code>"Điều 36. Cấp lại giấy phép lái xe<br>1. Người có giấy phép lái xe quá thời hạn sử dụng<br>a) Từ 03 tháng đến dưới 01 năm, kể từ ngày hết hạn, phải sát hạch lại lý thuyết để cấp lại giấy phép lái xe;<br>b) Từ 01 năm trở lên, kể từ ngày hết hạn, phải sát hạch lại cả lý thuyết và thực hành để cấp lại giấy phép lái xe.<br>Hồ sơ dự sát hạch lại thực hiện theo quy định tại khoản 3 Điều 19 của Thông tư này.<br>2. Người có giấy phép lái xe bị mất, còn thời hạn sử dụng hoặc quá thời hạn sử dụng dưới 03 tháng, được xét cấp lại giấy phép lái xe.<br>Hồ sơ bao gồm:<br>a) Đơn đề nghị cấp lại giấy phép lái xe theo mẫu quy định tại Phụ lục 19 ban hành kèm theo Thông tư này;<br>b) Hồ sơ gốc phù hợp với giấy phép lái xe (nếu có);<br>c) Giấy khám sức khỏe của người lái xe do cơ sở y tế có thẩm quyền cấp theo quy định, trừ trường hợp cấp lại giấy phép lái xe không thời hạn các hạng A1, A2, A3;<br>d) Bản sao giấy chứng minh nhân dân hoặc thẻ căn cước công dân hoặc hộ chiếu còn thời hạn có ghi số giấy chứng minh nhân dân hoặc thẻ căn cước công dân (đối với người Việt Nam) hoặc hộ chiếu còn thời hạn sử dụng (đối với người nước ngoài, người Việt Nam định, cư ở nước ngoài).<br>Khi đến thực hiện thủ tục cấp lại giấy phép lái xe tại Tổng cục Đường bộ Việt Nam hoặc Sở Giao thông vận tải, người lái xe gửi 01 bộ hồ sơ, chụp ảnh trực tiếp và xuất trình, bản chính các hồ sơ nêu trên (trừ các bản chính đã gửi) để đối chiếu. Sau thời gian 02 tháng kể từ ngày nộp đủ hồ sơ, chụp ảnh và nộp lệ phí theo quy định, nếu không phát hiện giấy phép lái xe đang bị các cơ quan có thẩm quyền thu giữ, xử lý; có tên trong hồ sơ của cơ quan quản lý sát hạch, thì được cấp lại giấy phép lái xe.<br>3. Người có giấy phép lái xe bị mất, quá thời hạn sử dụng từ 03 tháng trở lên, có tên trong hồ sơ của cơ quan quản lý sát hạch, không thuộc trường hợp đang bị các cơ quan có thẩm quyền thu giữ, xử lý, sau 02 tháng kể từ ngày nộp đủ hồ sơ hợp lệ theo quy định, phải dự sát hạch lại các nội dung:<br>a) Quá hạn sử dụng từ 03 tháng đến dưới 01 năm, phải dự sát hạch lại lý thuyết;<br>b) Quá hạn sử dụng từ 01 năm trở lên, phải sát hạch lại cả lý thuyết và thực hành.<br>Hồ sơ dự sát hạch lại thực hiện theo quy định, tại khoản 4 Điều 19 của Thông tư này.<br>5. Ngày trúng tuyển ghi tại mặt sau giấy phép lái xe cấp lại (phục hồi), được tính theo ngày trúng tuyển của giấy phép lái xe cũ.<br>6. Thời gian cấp lại giấy phép lái xe thực hiện như đối với cấp mới.<br>7. Người dự sát hạch lại có nhu cầu ôn tập, đăng ký với các cơ sở đào tạo lái xe để được hướng dẫn ôn tập, phải nộp phí ôn tập theo quy định, không phải học lại theo chương trình đào tạo."</code> | <code>1</code> |
|
522 |
+
| <code>Việc nhận xét và đánh giá đối với công chức cấp Trung ương luân chuyển được thực hiện khi nào?</code> | <code>Cấp độ thành tích khen thưởng để xét nâng bậc lương trước thời hạn do lập thành tích xuất sắc:<br>1. Đối tượng quy định tại Khoản 1 Điều 1 Quy chế này được tặng thưởng một trong các hình thức dưới đây thì được xét nâng bậc lương trước thời hạn mười hai (12) tháng, gồm:<br>a) Huân chương, huy chương, Vinh dự nhà nước, giải thưởng Hồ Chí Minh, giải nhà nước theo quy định của Luật Thi đua khen thưởng.<br>b) Chiến sỹ thi đua toàn quốc.<br>c) Bằng khen của Thủ tướng Chính phủ.<br>d) Thẩm phán mẫu mực, Thẩm phán tiêu biểu, Thẩm phán giỏi.<br>đ) Chiến sĩ thi đua Tòa án nhân dân.<br>e) Chiến sĩ thi đua cấp tỉnh.<br>g) Được tặng 02 bằng khen trở lên của Chánh án Tòa án nhân dân tối cao hoặc 01 bằng khen của Chánh án Tòa án nhân dân tối cao và 01 bằng khen của Bộ trưởng các Bộ, Ban, ngành Trung ương, Chủ tịch UBND tỉnh, thành phố trực thuộc Trung ương (đối với 02 thành tích khác nhau).<br>2. Đối tượng quy định tại Khoản 1 Điều 1 Quy chế này được tặng thưởng một trong các hình thức dưới đây thì được xét nâng bậc lương trước thời hạn chín (09) tháng, gồm:<br>a) Bằng khen của Chánh án Tòa án nhân dân tối cao;<br>b) Bằng khen của Bộ, Ban, ngành Trung ương, Chủ tịch UBND tỉnh, thành phố trực thuộc Trung ương.<br>c) Ba (03) năm liên tiếp đạt danh hiệu Chiến sỹ thi đua cơ sở;<br>3. Đối tượng quy định tại Khoản 1 Điều 1 Quy chế này được tặng thưởng một trong các hình thức dưới đây thì được xét nâng bậc lương trước thời hạn sáu (06) tháng, gồm:<br>a) Hai (02) năm liên tiếp đạt danh hiệu chiến sỹ thi đua cơ sở;<br>b) Ba (03) năm liên tiếp được tặng giấy khen của Chánh án Tòa án nhân dân tối cao, Chánh án Tòa án nhân dân cấp cao, Chánh án Tòa án nhân dân cấp tỉnh.</code> | <code>0</code> |
|
523 |
+
| <code>Người thực tập nghiệp vụ đăng kiểm viên xe cơ giới phải đáp ứng các điều kiện gì?</code> | <code>"Điều 3. Thực tập nghiệp vụ đăng kiểm viên xe cơ giới<br>Người thực tập nghiệp vụ đăng kiểm viên xe cơ giới (sau đây gọi là đăng kiểm viên thực tập) đáp ứng các quy định tại điểm a và d khoản 1 Điều 14 của Nghị định số 139/2018/NĐ-CP được tập huấn lý thuyết nghiệp vụ và thực hành kiểm định xe cơ giới trong thời gian tối thiểu 12 tháng."</code> | <code>1</code> |
|
524 |
+
* Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
|
525 |
+
```json
|
526 |
+
{
|
527 |
+
"distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
|
528 |
+
"margin": 0.5,
|
529 |
+
"size_average": true
|
530 |
+
}
|
531 |
+
```
|
532 |
+
|
533 |
+
### Training Hyperparameters
|
534 |
+
#### Non-Default Hyperparameters
|
535 |
+
|
536 |
+
- `per_device_train_batch_size`: 4
|
537 |
+
- `learning_rate`: 2e-05
|
538 |
+
- `num_train_epochs`: 5
|
539 |
+
- `warmup_ratio`: 0.1
|
540 |
+
|
541 |
+
#### All Hyperparameters
|
542 |
+
<details><summary>Click to expand</summary>
|
543 |
+
|
544 |
+
- `overwrite_output_dir`: False
|
545 |
+
- `do_predict`: False
|
546 |
+
- `prediction_loss_only`: True
|
547 |
+
- `per_device_train_batch_size`: 4
|
548 |
+
- `per_device_eval_batch_size`: 8
|
549 |
+
- `per_gpu_train_batch_size`: None
|
550 |
+
- `per_gpu_eval_batch_size`: None
|
551 |
+
- `gradient_accumulation_steps`: 1
|
552 |
+
- `eval_accumulation_steps`: None
|
553 |
+
- `learning_rate`: 2e-05
|
554 |
+
- `weight_decay`: 0.0
|
555 |
+
- `adam_beta1`: 0.9
|
556 |
+
- `adam_beta2`: 0.999
|
557 |
+
- `adam_epsilon`: 1e-08
|
558 |
+
- `max_grad_norm`: 1.0
|
559 |
+
- `num_train_epochs`: 5
|
560 |
+
- `max_steps`: -1
|
561 |
+
- `lr_scheduler_type`: linear
|
562 |
+
- `lr_scheduler_kwargs`: {}
|
563 |
+
- `warmup_ratio`: 0.1
|
564 |
+
- `warmup_steps`: 0
|
565 |
+
- `log_level`: passive
|
566 |
+
- `log_level_replica`: warning
|
567 |
+
- `log_on_each_node`: True
|
568 |
+
- `logging_nan_inf_filter`: True
|
569 |
+
- `save_safetensors`: True
|
570 |
+
- `save_on_each_node`: False
|
571 |
+
- `save_only_model`: False
|
572 |
+
- `no_cuda`: False
|
573 |
+
- `use_cpu`: False
|
574 |
+
- `use_mps_device`: False
|
575 |
+
- `seed`: 42
|
576 |
+
- `data_seed`: None
|
577 |
+
- `jit_mode_eval`: False
|
578 |
+
- `use_ipex`: False
|
579 |
+
- `bf16`: False
|
580 |
+
- `fp16`: False
|
581 |
+
- `fp16_opt_level`: O1
|
582 |
+
- `half_precision_backend`: auto
|
583 |
+
- `bf16_full_eval`: False
|
584 |
+
- `fp16_full_eval`: False
|
585 |
+
- `tf32`: None
|
586 |
+
- `local_rank`: 0
|
587 |
+
- `ddp_backend`: None
|
588 |
+
- `tpu_num_cores`: None
|
589 |
+
- `tpu_metrics_debug`: False
|
590 |
+
- `debug`: []
|
591 |
+
- `dataloader_drop_last`: False
|
592 |
+
- `dataloader_num_workers`: 0
|
593 |
+
- `dataloader_prefetch_factor`: None
|
594 |
+
- `past_index`: -1
|
595 |
+
- `disable_tqdm`: False
|
596 |
+
- `remove_unused_columns`: True
|
597 |
+
- `label_names`: None
|
598 |
+
- `load_best_model_at_end`: False
|
599 |
+
- `ignore_data_skip`: False
|
600 |
+
- `fsdp`: []
|
601 |
+
- `fsdp_min_num_params`: 0
|
602 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
603 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
604 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
|
605 |
+
- `deepspeed`: None
|
606 |
+
- `label_smoothing_factor`: 0.0
|
607 |
+
- `optim`: adamw_torch
|
608 |
+
- `optim_args`: None
|
609 |
+
- `adafactor`: False
|
610 |
+
- `group_by_length`: False
|
611 |
+
- `length_column_name`: length
|
612 |
+
- `ddp_find_unused_parameters`: None
|
613 |
+
- `ddp_bucket_cap_mb`: None
|
614 |
+
- `ddp_broadcast_buffers`: False
|
615 |
+
- `dataloader_pin_memory`: True
|
616 |
+
- `dataloader_persistent_workers`: False
|
617 |
+
- `skip_memory_metrics`: True
|
618 |
+
- `use_legacy_prediction_loop`: False
|
619 |
+
- `push_to_hub`: False
|
620 |
+
- `resume_from_checkpoint`: None
|
621 |
+
- `hub_model_id`: None
|
622 |
+
- `hub_strategy`: every_save
|
623 |
+
- `hub_private_repo`: False
|
624 |
+
- `hub_always_push`: False
|
625 |
+
- `gradient_checkpointing`: False
|
626 |
+
- `gradient_checkpointing_kwargs`: None
|
627 |
+
- `include_inputs_for_metrics`: False
|
628 |
+
- `fp16_backend`: auto
|
629 |
+
- `push_to_hub_model_id`: None
|
630 |
+
- `push_to_hub_organization`: None
|
631 |
+
- `mp_parameters`:
|
632 |
+
- `auto_find_batch_size`: False
|
633 |
+
- `full_determinism`: False
|
634 |
+
- `torchdynamo`: None
|
635 |
+
- `ray_scope`: last
|
636 |
+
- `ddp_timeout`: 1800
|
637 |
+
- `torch_compile`: False
|
638 |
+
- `torch_compile_backend`: None
|
639 |
+
- `torch_compile_mode`: None
|
640 |
+
- `dispatch_batches`: None
|
641 |
+
- `split_batches`: None
|
642 |
+
- `include_tokens_per_second`: False
|
643 |
+
- `include_num_input_tokens_seen`: False
|
644 |
+
- `neftune_noise_alpha`: None
|
645 |
+
- `optim_target_modules`: None
|
646 |
+
- `batch_sampler`: batch_sampler
|
647 |
+
- `multi_dataset_batch_sampler`: proportional
|
648 |
+
|
649 |
+
</details>
|
650 |
+
|
651 |
+
### Training Logs
|
652 |
+
<details><summary>Click to expand</summary>
|
653 |
+
|
654 |
+
| Epoch | Step | Training Loss |
|
655 |
+
|:------:|:-----:|:-------------:|
|
656 |
+
| 0.0190 | 50 | 0.0301 |
|
657 |
+
| 0.0380 | 100 | 0.023 |
|
658 |
+
| 0.0570 | 150 | 0.0197 |
|
659 |
+
| 0.0760 | 200 | 0.0179 |
|
660 |
+
| 0.0950 | 250 | 0.0172 |
|
661 |
+
| 0.1140 | 300 | 0.0166 |
|
662 |
+
| 0.1330 | 350 | 0.0164 |
|
663 |
+
| 0.1520 | 400 | 0.014 |
|
664 |
+
| 0.1710 | 450 | 0.0143 |
|
665 |
+
| 0.1900 | 500 | 0.0139 |
|
666 |
+
| 0.2090 | 550 | 0.0129 |
|
667 |
+
| 0.2281 | 600 | 0.0158 |
|
668 |
+
| 0.2471 | 650 | 0.0131 |
|
669 |
+
| 0.2661 | 700 | 0.0138 |
|
670 |
+
| 0.2851 | 750 | 0.0135 |
|
671 |
+
| 0.3041 | 800 | 0.0125 |
|
672 |
+
| 0.3231 | 850 | 0.0137 |
|
673 |
+
| 0.3421 | 900 | 0.0152 |
|
674 |
+
| 0.3611 | 950 | 0.0137 |
|
675 |
+
| 0.3801 | 1000 | 0.0138 |
|
676 |
+
| 0.3991 | 1050 | 0.0137 |
|
677 |
+
| 0.4181 | 1100 | 0.0158 |
|
678 |
+
| 0.4371 | 1150 | 0.0115 |
|
679 |
+
| 0.4561 | 1200 | 0.0145 |
|
680 |
+
| 0.4751 | 1250 | 0.0147 |
|
681 |
+
| 0.4941 | 1300 | 0.0134 |
|
682 |
+
| 0.5131 | 1350 | 0.0138 |
|
683 |
+
| 0.5321 | 1400 | 0.0124 |
|
684 |
+
| 0.5511 | 1450 | 0.0134 |
|
685 |
+
| 0.5701 | 1500 | 0.012 |
|
686 |
+
| 0.5891 | 1550 | 0.0127 |
|
687 |
+
| 0.6081 | 1600 | 0.0143 |
|
688 |
+
| 0.6271 | 1650 | 0.0154 |
|
689 |
+
| 0.6461 | 1700 | 0.0121 |
|
690 |
+
| 0.6651 | 1750 | 0.0112 |
|
691 |
+
| 0.6842 | 1800 | 0.0143 |
|
692 |
+
| 0.7032 | 1850 | 0.0135 |
|
693 |
+
| 0.7222 | 1900 | 0.013 |
|
694 |
+
| 0.7412 | 1950 | 0.0124 |
|
695 |
+
| 0.7602 | 2000 | 0.0117 |
|
696 |
+
| 0.7792 | 2050 | 0.0121 |
|
697 |
+
| 0.7982 | 2100 | 0.0145 |
|
698 |
+
| 0.8172 | 2150 | 0.0125 |
|
699 |
+
| 0.8362 | 2200 | 0.0086 |
|
700 |
+
| 0.8552 | 2250 | 0.0132 |
|
701 |
+
| 0.8742 | 2300 | 0.0127 |
|
702 |
+
| 0.8932 | 2350 | 0.0135 |
|
703 |
+
| 0.9122 | 2400 | 0.0129 |
|
704 |
+
| 0.9312 | 2450 | 0.0121 |
|
705 |
+
| 0.9502 | 2500 | 0.0121 |
|
706 |
+
| 0.9692 | 2550 | 0.0125 |
|
707 |
+
| 0.9882 | 2600 | 0.0117 |
|
708 |
+
| 1.0072 | 2650 | 0.0119 |
|
709 |
+
| 1.0262 | 2700 | 0.0083 |
|
710 |
+
| 1.0452 | 2750 | 0.0071 |
|
711 |
+
| 1.0642 | 2800 | 0.0084 |
|
712 |
+
| 1.0832 | 2850 | 0.0083 |
|
713 |
+
| 1.1022 | 2900 | 0.0073 |
|
714 |
+
| 1.1212 | 2950 | 0.0081 |
|
715 |
+
| 1.1403 | 3000 | 0.0097 |
|
716 |
+
| 1.1593 | 3050 | 0.008 |
|
717 |
+
| 1.1783 | 3100 | 0.0081 |
|
718 |
+
| 1.1973 | 3150 | 0.0103 |
|
719 |
+
| 1.2163 | 3200 | 0.0079 |
|
720 |
+
| 1.2353 | 3250 | 0.0085 |
|
721 |
+
| 1.2543 | 3300 | 0.0083 |
|
722 |
+
| 1.2733 | 3350 | 0.008 |
|
723 |
+
| 1.2923 | 3400 | 0.0059 |
|
724 |
+
| 1.3113 | 3450 | 0.0078 |
|
725 |
+
| 1.3303 | 3500 | 0.0054 |
|
726 |
+
| 1.3493 | 3550 | 0.0083 |
|
727 |
+
| 1.3683 | 3600 | 0.0082 |
|
728 |
+
| 1.3873 | 3650 | 0.0088 |
|
729 |
+
| 1.4063 | 3700 | 0.0113 |
|
730 |
+
| 1.4253 | 3750 | 0.0067 |
|
731 |
+
| 1.4443 | 3800 | 0.0103 |
|
732 |
+
| 1.4633 | 3850 | 0.0094 |
|
733 |
+
| 1.4823 | 3900 | 0.0081 |
|
734 |
+
| 1.5013 | 3950 | 0.007 |
|
735 |
+
| 1.5203 | 4000 | 0.0076 |
|
736 |
+
| 1.5393 | 4050 | 0.0071 |
|
737 |
+
| 1.5583 | 4100 | 0.0085 |
|
738 |
+
| 1.5773 | 4150 | 0.0084 |
|
739 |
+
| 1.5964 | 4200 | 0.0078 |
|
740 |
+
| 1.6154 | 4250 | 0.0071 |
|
741 |
+
| 1.6344 | 4300 | 0.0072 |
|
742 |
+
| 1.6534 | 4350 | 0.0087 |
|
743 |
+
| 1.6724 | 4400 | 0.0066 |
|
744 |
+
| 1.6914 | 4450 | 0.0083 |
|
745 |
+
| 1.7104 | 4500 | 0.008 |
|
746 |
+
| 1.7294 | 4550 | 0.0072 |
|
747 |
+
| 1.7484 | 4600 | 0.0094 |
|
748 |
+
| 1.7674 | 4650 | 0.0087 |
|
749 |
+
| 1.7864 | 4700 | 0.0097 |
|
750 |
+
| 1.8054 | 4750 | 0.0101 |
|
751 |
+
| 1.8244 | 4800 | 0.0096 |
|
752 |
+
| 1.8434 | 4850 | 0.0074 |
|
753 |
+
| 1.8624 | 4900 | 0.0084 |
|
754 |
+
| 1.8814 | 4950 | 0.0072 |
|
755 |
+
| 1.9004 | 5000 | 0.0084 |
|
756 |
+
| 1.9194 | 5050 | 0.0096 |
|
757 |
+
| 1.9384 | 5100 | 0.0079 |
|
758 |
+
| 1.9574 | 5150 | 0.0091 |
|
759 |
+
| 1.9764 | 5200 | 0.0091 |
|
760 |
+
| 1.9954 | 5250 | 0.0085 |
|
761 |
+
| 2.0144 | 5300 | 0.0054 |
|
762 |
+
| 2.0334 | 5350 | 0.0038 |
|
763 |
+
| 2.0525 | 5400 | 0.0046 |
|
764 |
+
| 2.0715 | 5450 | 0.0046 |
|
765 |
+
| 2.0905 | 5500 | 0.0059 |
|
766 |
+
| 2.1095 | 5550 | 0.0043 |
|
767 |
+
| 2.1285 | 5600 | 0.0046 |
|
768 |
+
| 2.1475 | 5650 | 0.004 |
|
769 |
+
| 2.1665 | 5700 | 0.0034 |
|
770 |
+
| 2.1855 | 5750 | 0.0037 |
|
771 |
+
| 2.2045 | 5800 | 0.0032 |
|
772 |
+
| 2.2235 | 5850 | 0.0031 |
|
773 |
+
| 2.2425 | 5900 | 0.0038 |
|
774 |
+
| 2.2615 | 5950 | 0.0046 |
|
775 |
+
| 2.2805 | 6000 | 0.0035 |
|
776 |
+
| 2.2995 | 6050 | 0.0045 |
|
777 |
+
| 2.3185 | 6100 | 0.0044 |
|
778 |
+
| 2.3375 | 6150 | 0.0037 |
|
779 |
+
| 2.3565 | 6200 | 0.0046 |
|
780 |
+
| 2.3755 | 6250 | 0.0052 |
|
781 |
+
| 2.3945 | 6300 | 0.0037 |
|
782 |
+
| 2.4135 | 6350 | 0.004 |
|
783 |
+
| 2.4325 | 6400 | 0.0036 |
|
784 |
+
| 2.4515 | 6450 | 0.0036 |
|
785 |
+
| 2.4705 | 6500 | 0.0041 |
|
786 |
+
| 2.4895 | 6550 | 0.0049 |
|
787 |
+
| 2.5086 | 6600 | 0.0034 |
|
788 |
+
| 2.5276 | 6650 | 0.0056 |
|
789 |
+
| 2.5466 | 6700 | 0.0043 |
|
790 |
+
| 2.5656 | 6750 | 0.0043 |
|
791 |
+
| 2.5846 | 6800 | 0.0042 |
|
792 |
+
| 2.6036 | 6850 | 0.0044 |
|
793 |
+
| 2.6226 | 6900 | 0.0037 |
|
794 |
+
| 2.6416 | 6950 | 0.005 |
|
795 |
+
| 2.6606 | 7000 | 0.0041 |
|
796 |
+
| 2.6796 | 7050 | 0.0042 |
|
797 |
+
| 2.6986 | 7100 | 0.0035 |
|
798 |
+
| 2.7176 | 7150 | 0.0043 |
|
799 |
+
| 2.7366 | 7200 | 0.0046 |
|
800 |
+
| 2.7556 | 7250 | 0.005 |
|
801 |
+
| 2.7746 | 7300 | 0.0036 |
|
802 |
+
| 2.7936 | 7350 | 0.004 |
|
803 |
+
| 2.8126 | 7400 | 0.0048 |
|
804 |
+
| 2.8316 | 7450 | 0.0038 |
|
805 |
+
| 2.8506 | 7500 | 0.004 |
|
806 |
+
| 2.8696 | 7550 | 0.0045 |
|
807 |
+
| 2.8886 | 7600 | 0.0046 |
|
808 |
+
| 2.9076 | 7650 | 0.0044 |
|
809 |
+
| 2.9266 | 7700 | 0.005 |
|
810 |
+
| 2.9456 | 7750 | 0.0039 |
|
811 |
+
| 2.9647 | 7800 | 0.0048 |
|
812 |
+
| 2.9837 | 7850 | 0.0031 |
|
813 |
+
| 3.0027 | 7900 | 0.0044 |
|
814 |
+
| 3.0217 | 7950 | 0.0018 |
|
815 |
+
| 3.0407 | 8000 | 0.0017 |
|
816 |
+
| 3.0597 | 8050 | 0.0019 |
|
817 |
+
| 3.0787 | 8100 | 0.0019 |
|
818 |
+
| 3.0977 | 8150 | 0.0017 |
|
819 |
+
| 3.1167 | 8200 | 0.0021 |
|
820 |
+
| 3.1357 | 8250 | 0.0024 |
|
821 |
+
| 3.1547 | 8300 | 0.0025 |
|
822 |
+
| 3.1737 | 8350 | 0.002 |
|
823 |
+
| 3.1927 | 8400 | 0.0022 |
|
824 |
+
| 3.2117 | 8450 | 0.0021 |
|
825 |
+
| 3.2307 | 8500 | 0.0021 |
|
826 |
+
| 3.2497 | 8550 | 0.0017 |
|
827 |
+
| 3.2687 | 8600 | 0.0018 |
|
828 |
+
| 3.2877 | 8650 | 0.002 |
|
829 |
+
| 3.3067 | 8700 | 0.0021 |
|
830 |
+
| 3.3257 | 8750 | 0.0017 |
|
831 |
+
| 3.3447 | 8800 | 0.0022 |
|
832 |
+
| 3.3637 | 8850 | 0.0019 |
|
833 |
+
| 3.3827 | 8900 | 0.0018 |
|
834 |
+
| 3.4017 | 8950 | 0.0022 |
|
835 |
+
| 3.4208 | 9000 | 0.0022 |
|
836 |
+
| 3.4398 | 9050 | 0.0019 |
|
837 |
+
| 3.4588 | 9100 | 0.0023 |
|
838 |
+
| 3.4778 | 9150 | 0.0023 |
|
839 |
+
| 3.4968 | 9200 | 0.0018 |
|
840 |
+
| 3.5158 | 9250 | 0.002 |
|
841 |
+
| 3.5348 | 9300 | 0.0018 |
|
842 |
+
| 3.5538 | 9350 | 0.0022 |
|
843 |
+
| 3.5728 | 9400 | 0.0024 |
|
844 |
+
| 3.5918 | 9450 | 0.002 |
|
845 |
+
| 3.6108 | 9500 | 0.0021 |
|
846 |
+
| 3.6298 | 9550 | 0.002 |
|
847 |
+
| 3.6488 | 9600 | 0.0032 |
|
848 |
+
| 3.6678 | 9650 | 0.0021 |
|
849 |
+
| 3.6868 | 9700 | 0.002 |
|
850 |
+
| 3.7058 | 9750 | 0.002 |
|
851 |
+
| 3.7248 | 9800 | 0.0023 |
|
852 |
+
| 3.7438 | 9850 | 0.0021 |
|
853 |
+
| 3.7628 | 9900 | 0.0022 |
|
854 |
+
| 3.7818 | 9950 | 0.0016 |
|
855 |
+
| 3.8008 | 10000 | 0.0017 |
|
856 |
+
| 3.8198 | 10050 | 0.0015 |
|
857 |
+
| 3.8388 | 10100 | 0.0022 |
|
858 |
+
| 3.8578 | 10150 | 0.0018 |
|
859 |
+
| 3.8769 | 10200 | 0.0022 |
|
860 |
+
| 3.8959 | 10250 | 0.0027 |
|
861 |
+
| 3.9149 | 10300 | 0.0027 |
|
862 |
+
| 3.9339 | 10350 | 0.0018 |
|
863 |
+
| 3.9529 | 10400 | 0.0017 |
|
864 |
+
| 3.9719 | 10450 | 0.0016 |
|
865 |
+
| 3.9909 | 10500 | 0.0023 |
|
866 |
+
| 4.0099 | 10550 | 0.0015 |
|
867 |
+
| 4.0289 | 10600 | 0.0012 |
|
868 |
+
| 4.0479 | 10650 | 0.0012 |
|
869 |
+
| 4.0669 | 10700 | 0.0012 |
|
870 |
+
| 4.0859 | 10750 | 0.001 |
|
871 |
+
| 4.1049 | 10800 | 0.001 |
|
872 |
+
| 4.1239 | 10850 | 0.0011 |
|
873 |
+
| 4.1429 | 10900 | 0.0013 |
|
874 |
+
| 4.1619 | 10950 | 0.0011 |
|
875 |
+
| 4.1809 | 11000 | 0.0011 |
|
876 |
+
| 4.1999 | 11050 | 0.0011 |
|
877 |
+
| 4.2189 | 11100 | 0.0012 |
|
878 |
+
| 4.2379 | 11150 | 0.001 |
|
879 |
+
| 4.2569 | 11200 | 0.0014 |
|
880 |
+
| 4.2759 | 11250 | 0.0011 |
|
881 |
+
| 4.2949 | 11300 | 0.0009 |
|
882 |
+
| 4.3139 | 11350 | 0.0012 |
|
883 |
+
| 4.3330 | 11400 | 0.001 |
|
884 |
+
| 4.3520 | 11450 | 0.001 |
|
885 |
+
| 4.3710 | 11500 | 0.0011 |
|
886 |
+
| 4.3900 | 11550 | 0.001 |
|
887 |
+
| 4.4090 | 11600 | 0.0012 |
|
888 |
+
| 4.4280 | 11650 | 0.0014 |
|
889 |
+
| 4.4470 | 11700 | 0.0012 |
|
890 |
+
| 4.4660 | 11750 | 0.0011 |
|
891 |
+
| 4.4850 | 11800 | 0.0013 |
|
892 |
+
| 4.5040 | 11850 | 0.0014 |
|
893 |
+
| 4.5230 | 11900 | 0.0014 |
|
894 |
+
| 4.5420 | 11950 | 0.0013 |
|
895 |
+
| 4.5610 | 12000 | 0.0012 |
|
896 |
+
| 4.5800 | 12050 | 0.0011 |
|
897 |
+
| 4.5990 | 12100 | 0.0011 |
|
898 |
+
| 4.6180 | 12150 | 0.0011 |
|
899 |
+
| 4.6370 | 12200 | 0.0013 |
|
900 |
+
| 4.6560 | 12250 | 0.001 |
|
901 |
+
| 4.6750 | 12300 | 0.0009 |
|
902 |
+
| 4.6940 | 12350 | 0.001 |
|
903 |
+
| 4.7130 | 12400 | 0.0013 |
|
904 |
+
| 4.7320 | 12450 | 0.001 |
|
905 |
+
| 4.7510 | 12500 | 0.001 |
|
906 |
+
| 4.7700 | 12550 | 0.0009 |
|
907 |
+
| 4.7891 | 12600 | 0.001 |
|
908 |
+
| 4.8081 | 12650 | 0.0012 |
|
909 |
+
| 4.8271 | 12700 | 0.001 |
|
910 |
+
| 4.8461 | 12750 | 0.0015 |
|
911 |
+
| 4.8651 | 12800 | 0.0009 |
|
912 |
+
| 4.8841 | 12850 | 0.0011 |
|
913 |
+
| 4.9031 | 12900 | 0.0009 |
|
914 |
+
| 4.9221 | 12950 | 0.0013 |
|
915 |
+
| 4.9411 | 13000 | 0.0011 |
|
916 |
+
| 4.9601 | 13050 | 0.0013 |
|
917 |
+
| 4.9791 | 13100 | 0.001 |
|
918 |
+
| 4.9981 | 13150 | 0.001 |
|
919 |
+
|
920 |
+
</details>
|
921 |
+
|
922 |
+
### Framework Versions
|
923 |
+
- Python: 3.10.13
|
924 |
+
- Sentence Transformers: 3.0.1
|
925 |
+
- Transformers: 4.39.3
|
926 |
+
- PyTorch: 2.1.2
|
927 |
+
- Accelerate: 0.29.3
|
928 |
+
- Datasets: 2.18.0
|
929 |
+
- Tokenizers: 0.15.2
|
930 |
+
|
931 |
+
## Citation
|
932 |
+
|
933 |
+
### BibTeX
|
934 |
+
|
935 |
+
#### Sentence Transformers
|
936 |
+
```bibtex
|
937 |
+
@inproceedings{reimers-2019-sentence-bert,
|
938 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
939 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
940 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
941 |
+
month = "11",
|
942 |
+
year = "2019",
|
943 |
+
publisher = "Association for Computational Linguistics",
|
944 |
+
url = "https://arxiv.org/abs/1908.10084",
|
945 |
+
}
|
946 |
+
```
|
947 |
+
|
948 |
+
#### ContrastiveLoss
|
949 |
+
```bibtex
|
950 |
+
@inproceedings{hadsell2006dimensionality,
|
951 |
+
author={Hadsell, R. and Chopra, S. and LeCun, Y.},
|
952 |
+
booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
|
953 |
+
title={Dimensionality Reduction by Learning an Invariant Mapping},
|
954 |
+
year={2006},
|
955 |
+
volume={2},
|
956 |
+
number={},
|
957 |
+
pages={1735-1742},
|
958 |
+
doi={10.1109/CVPR.2006.100}
|
959 |
+
}
|
960 |
+
```
|
961 |
+
|
962 |
+
<!--
|
963 |
+
## Glossary
|
964 |
+
|
965 |
+
*Clearly define terms in order to be accessible across audiences.*
|
966 |
+
-->
|
967 |
+
|
968 |
+
<!--
|
969 |
+
## Model Card Authors
|
970 |
+
|
971 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
972 |
+
-->
|
973 |
+
|
974 |
+
<!--
|
975 |
+
## Model Card Contact
|
976 |
+
|
977 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
978 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "BAAI/bge-m3",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 8194,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.39.3",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 250002
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.39.3",
|
5 |
+
"pytorch": "2.1.2"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:084e683bc958fa72f06c2a11305b9424a5ed6f4f8000457668e1c34913fd4a96
|
3 |
+
size 2271064456
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
3 |
+
size 5069051
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:39feb9863a378165ab9c5c689047203d789422966c0c58721c5309fd039a8edc
|
3 |
+
size 17083074
|
tokenizer_config.json
ADDED
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"model_max_length": 512,
|
50 |
+
"pad_token": "<pad>",
|
51 |
+
"sep_token": "</s>",
|
52 |
+
"sp_model_kwargs": {},
|
53 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
54 |
+
"unk_token": "<unk>"
|
55 |
+
}
|