End of training

Browse files

Files changed (5) hide show

README.md +3 -1
all_results.json +11 -11
eval_results.json +6 -6
train_results.json +6 -6
trainer_state.json +650 -364

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ license: mit
 base_model: unicamp-dl/ptt5-base-portuguese-vocab
 tags:
 - generated_from_trainer
 model-index:
 - name: t5_base-qg-ap-test
   results: []
@@ -13,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # t5_base-qg-ap-test
-This model is a fine-tuned version of [unicamp-dl/ptt5-base-portuguese-vocab](https://huggingface.co/unicamp-dl/ptt5-base-portuguese-vocab) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0163

 base_model: unicamp-dl/ptt5-base-portuguese-vocab
 tags:
 - generated_from_trainer
+datasets:
+- tiagoblima/du-qg-squadv1_pt
 model-index:
 - name: t5_base-qg-ap-test
   results: []
 # t5_base-qg-ap-test
+This model is a fine-tuned version of [unicamp-dl/ptt5-base-portuguese-vocab](https://huggingface.co/unicamp-dl/ptt5-base-portuguese-vocab) on the tiagoblima/du-qg-squadv1_pt dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0163

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 5.0,
-    "eval_loss": 1.1012225151062012,
-    "eval_runtime": 102.3632,
-    "eval_samples": 3636,
-    "eval_samples_per_second": 35.521,
-    "eval_steps_per_second": 8.88,
-    "train_loss": 0.9537819692403964,
-    "train_runtime": 26215.2524,
-    "train_samples": 51704,
-    "train_samples_per_second": 9.861,
-    "train_steps_per_second": 0.308
 }

 {
+    "epoch": 100.0,
+    "eval_loss": 0.016336046159267426,
+    "eval_runtime": 0.2314,
+    "eval_samples": 8,
+    "eval_samples_per_second": 34.579,
+    "eval_steps_per_second": 4.322,
+    "train_loss": 1.40092041015625,
+    "train_runtime": 1064.353,
+    "train_samples": 8,
+    "train_samples_per_second": 0.752,
+    "train_steps_per_second": 0.094
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "eval_loss": 1.1012225151062012,
-    "eval_runtime": 102.3632,
-    "eval_samples": 3636,
-    "eval_samples_per_second": 35.521,
-    "eval_steps_per_second": 8.88
 }

 {
+    "epoch": 100.0,
+    "eval_loss": 0.016336046159267426,
+    "eval_runtime": 0.2314,
+    "eval_samples": 8,
+    "eval_samples_per_second": 34.579,
+    "eval_steps_per_second": 4.322
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "train_loss": 0.9537819692403964,
-    "train_runtime": 26215.2524,
-    "train_samples": 51704,
-    "train_samples_per_second": 9.861,
-    "train_steps_per_second": 0.308
 }

 {
+    "epoch": 100.0,
+    "train_loss": 1.40092041015625,
+    "train_runtime": 1064.353,
+    "train_samples": 8,
+    "train_samples_per_second": 0.752,
+    "train_steps_per_second": 0.094
 }

trainer_state.json CHANGED Viewed

@@ -1,548 +1,834 @@
 {
-  "best_metric": 1.1012225151062012,
-  "best_model_checkpoint": "/temp/t5_base-qg-ap-test/checkpoint-6464",
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 8080,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06,
-      "learning_rate": 9.876237623762377e-05,
-      "loss": 1.9841,
-      "step": 100
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 9.752475247524753e-05,
-      "loss": 1.2569,
-      "step": 200
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 9.628712871287129e-05,
-      "loss": 1.2054,
-      "step": 300
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 9.504950495049505e-05,
-      "loss": 1.1704,
-      "step": 400
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 9.381188118811881e-05,
-      "loss": 1.1504,
-      "step": 500
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 9.257425742574259e-05,
-      "loss": 1.14,
-      "step": 600
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 9.133663366336635e-05,
-      "loss": 1.1303,
-      "step": 700
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 9.009900990099011e-05,
-      "loss": 1.1022,
-      "step": 800
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 8.886138613861387e-05,
-      "loss": 1.0985,
-      "step": 900
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 8.762376237623763e-05,
-      "loss": 1.0944,
-      "step": 1000
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 8.638613861386139e-05,
-      "loss": 1.0762,
-      "step": 1100
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 8.514851485148515e-05,
-      "loss": 1.0784,
-      "step": 1200
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 8.391089108910891e-05,
-      "loss": 1.076,
-      "step": 1300
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 8.267326732673268e-05,
-      "loss": 1.0672,
-      "step": 1400
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 8.143564356435644e-05,
-      "loss": 1.0673,
-      "step": 1500
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 8.019801980198021e-05,
-      "loss": 1.0561,
-      "step": 1600
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 1.1370612382888794,
-      "eval_runtime": 102.4778,
-      "eval_samples_per_second": 35.481,
-      "eval_steps_per_second": 8.87,
-      "step": 1616
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 7.896039603960397e-05,
-      "loss": 0.989,
-      "step": 1700
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 7.772277227722773e-05,
-      "loss": 0.9881,
-      "step": 1800
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 7.64851485148515e-05,
-      "loss": 0.987,
-      "step": 1900
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 7.524752475247526e-05,
-      "loss": 0.9849,
-      "step": 2000
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 7.400990099009902e-05,
-      "loss": 0.9807,
-      "step": 2100
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 7.277227722772278e-05,
-      "loss": 0.9784,
-      "step": 2200
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 7.153465346534654e-05,
-      "loss": 0.9868,
-      "step": 2300
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 7.02970297029703e-05,
-      "loss": 0.9792,
-      "step": 2400
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 6.905940594059406e-05,
-      "loss": 0.988,
-      "step": 2500
     },
     {
-      "epoch": 1.61,
-      "learning_rate": 6.782178217821783e-05,
-      "loss": 0.9806,
-      "step": 2600
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 6.658415841584159e-05,
-      "loss": 0.9612,
-      "step": 2700
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 6.534653465346535e-05,
-      "loss": 0.9632,
-      "step": 2800
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 6.410891089108911e-05,
-      "loss": 0.9861,
-      "step": 2900
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 6.287128712871287e-05,
-      "loss": 0.968,
-      "step": 3000
     },
     {
-      "epoch": 1.92,
-      "learning_rate": 6.163366336633663e-05,
-      "loss": 0.9727,
-      "step": 3100
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 6.03960396039604e-05,
-      "loss": 0.9695,
-      "step": 3200
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 1.1089671850204468,
-      "eval_runtime": 102.4537,
-      "eval_samples_per_second": 35.489,
-      "eval_steps_per_second": 8.872,
-      "step": 3232
     },
     {
-      "epoch": 2.04,
-      "learning_rate": 5.915841584158416e-05,
-      "loss": 0.9333,
-      "step": 3300
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 5.792079207920792e-05,
-      "loss": 0.9114,
-      "step": 3400
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 5.668316831683168e-05,
-      "loss": 0.9173,
-      "step": 3500
     },
     {
-      "epoch": 2.23,
-      "learning_rate": 5.544554455445545e-05,
-      "loss": 0.9131,
-      "step": 3600
     },
     {
-      "epoch": 2.29,
-      "learning_rate": 5.420792079207921e-05,
-      "loss": 0.9064,
-      "step": 3700
     },
     {
-      "epoch": 2.35,
-      "learning_rate": 5.2970297029702974e-05,
-      "loss": 0.9113,
-      "step": 3800
     },
     {
-      "epoch": 2.41,
-      "learning_rate": 5.1732673267326735e-05,
-      "loss": 0.8984,
-      "step": 3900
     },
     {
-      "epoch": 2.48,
-      "learning_rate": 5.0495049504950497e-05,
-      "loss": 0.9149,
-      "step": 4000
     },
     {
-      "epoch": 2.54,
-      "learning_rate": 4.925742574257426e-05,
-      "loss": 0.9041,
-      "step": 4100
     },
     {
-      "epoch": 2.6,
-      "learning_rate": 4.801980198019802e-05,
-      "loss": 0.9137,
-      "step": 4200
     },
     {
-      "epoch": 2.66,
-      "learning_rate": 4.678217821782179e-05,
-      "loss": 0.9117,
-      "step": 4300
     },
     {
-      "epoch": 2.72,
-      "learning_rate": 4.554455445544555e-05,
-      "loss": 0.9024,
-      "step": 4400
     },
     {
-      "epoch": 2.78,
-      "learning_rate": 4.430693069306931e-05,
-      "loss": 0.914,
-      "step": 4500
     },
     {
-      "epoch": 2.85,
-      "learning_rate": 4.306930693069307e-05,
-      "loss": 0.9295,
-      "step": 4600
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 4.183168316831683e-05,
-      "loss": 0.9088,
-      "step": 4700
     },
     {
-      "epoch": 2.97,
-      "learning_rate": 4.05940594059406e-05,
-      "loss": 0.9111,
-      "step": 4800
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 1.101236343383789,
-      "eval_runtime": 102.4816,
-      "eval_samples_per_second": 35.48,
-      "eval_steps_per_second": 8.87,
-      "step": 4848
     },
     {
-      "epoch": 3.03,
-      "learning_rate": 3.935643564356436e-05,
-      "loss": 0.8905,
-      "step": 4900
     },
     {
-      "epoch": 3.09,
-      "learning_rate": 3.811881188118812e-05,
-      "loss": 0.8628,
-      "step": 5000
     },
     {
-      "epoch": 3.16,
-      "learning_rate": 3.6881188118811884e-05,
-      "loss": 0.8712,
-      "step": 5100
     },
     {
-      "epoch": 3.22,
-      "learning_rate": 3.5643564356435645e-05,
-      "loss": 0.8545,
-      "step": 5200
     },
     {
-      "epoch": 3.28,
-      "learning_rate": 3.440594059405941e-05,
-      "loss": 0.8793,
-      "step": 5300
     },
     {
-      "epoch": 3.34,
-      "learning_rate": 3.3168316831683175e-05,
-      "loss": 0.8677,
-      "step": 5400
     },
     {
-      "epoch": 3.4,
-      "learning_rate": 3.1930693069306936e-05,
-      "loss": 0.8716,
-      "step": 5500
     },
     {
-      "epoch": 3.47,
-      "learning_rate": 3.06930693069307e-05,
-      "loss": 0.8708,
-      "step": 5600
     },
     {
-      "epoch": 3.53,
-      "learning_rate": 2.9455445544554455e-05,
-      "loss": 0.8782,
-      "step": 5700
     },
     {
-      "epoch": 3.59,
-      "learning_rate": 2.8217821782178216e-05,
-      "loss": 0.8651,
-      "step": 5800
     },
     {
-      "epoch": 3.65,
-      "learning_rate": 2.6980198019801985e-05,
-      "loss": 0.8597,
-      "step": 5900
     },
     {
-      "epoch": 3.71,
-      "learning_rate": 2.5742574257425746e-05,
-      "loss": 0.8516,
-      "step": 6000
     },
     {
-      "epoch": 3.77,
-      "learning_rate": 2.4504950495049507e-05,
-      "loss": 0.8759,
-      "step": 6100
     },
     {
-      "epoch": 3.84,
-      "learning_rate": 2.326732673267327e-05,
-      "loss": 0.8631,
-      "step": 6200
     },
     {
-      "epoch": 3.9,
-      "learning_rate": 2.202970297029703e-05,
-      "loss": 0.8636,
-      "step": 6300
     },
     {
-      "epoch": 3.96,
-      "learning_rate": 2.079207920792079e-05,
-      "loss": 0.8691,
-      "step": 6400
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 1.1012225151062012,
-      "eval_runtime": 102.0015,
-      "eval_samples_per_second": 35.647,
-      "eval_steps_per_second": 8.912,
-      "step": 6464
     },
     {
-      "epoch": 4.02,
-      "learning_rate": 1.9554455445544556e-05,
-      "loss": 0.8573,
-      "step": 6500
     },
     {
-      "epoch": 4.08,
-      "learning_rate": 1.8316831683168317e-05,
-      "loss": 0.8536,
-      "step": 6600
     },
     {
-      "epoch": 4.15,
-      "learning_rate": 1.707920792079208e-05,
-      "loss": 0.8329,
-      "step": 6700
     },
     {
-      "epoch": 4.21,
-      "learning_rate": 1.5841584158415843e-05,
-      "loss": 0.8407,
-      "step": 6800
     },
     {
-      "epoch": 4.27,
-      "learning_rate": 1.4603960396039604e-05,
-      "loss": 0.8525,
-      "step": 6900
     },
     {
-      "epoch": 4.33,
-      "learning_rate": 1.3366336633663367e-05,
-      "loss": 0.8473,
-      "step": 7000
     },
     {
-      "epoch": 4.39,
-      "learning_rate": 1.2128712871287128e-05,
-      "loss": 0.825,
-      "step": 7100
     },
     {
-      "epoch": 4.46,
-      "learning_rate": 1.0891089108910891e-05,
-      "loss": 0.834,
-      "step": 7200
     },
     {
-      "epoch": 4.52,
-      "learning_rate": 9.653465346534654e-06,
-      "loss": 0.8397,
-      "step": 7300
     },
     {
-      "epoch": 4.58,
-      "learning_rate": 8.415841584158417e-06,
-      "loss": 0.8436,
-      "step": 7400
     },
     {
-      "epoch": 4.64,
-      "learning_rate": 7.178217821782178e-06,
-      "loss": 0.8353,
-      "step": 7500
     },
     {
-      "epoch": 4.7,
-      "learning_rate": 5.940594059405941e-06,
-      "loss": 0.8332,
-      "step": 7600
     },
     {
-      "epoch": 4.76,
-      "learning_rate": 4.702970297029704e-06,
-      "loss": 0.8402,
-      "step": 7700
     },
     {
-      "epoch": 4.83,
-      "learning_rate": 3.4653465346534657e-06,
-      "loss": 0.8526,
-      "step": 7800
     },
     {
-      "epoch": 4.89,
-      "learning_rate": 2.227722772277228e-06,
-      "loss": 0.827,
-      "step": 7900
     },
     {
-      "epoch": 4.95,
-      "learning_rate": 9.900990099009902e-07,
-      "loss": 0.8543,
-      "step": 8000
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 1.103607177734375,
-      "eval_runtime": 102.3147,
-      "eval_samples_per_second": 35.537,
-      "eval_steps_per_second": 8.884,
-      "step": 8080
     },
     {
-      "epoch": 5.0,
-      "step": 8080,
-      "total_flos": 1.574277938675712e+17,
-      "train_loss": 0.9537819692403964,
-      "train_runtime": 26215.2524,
-      "train_samples_per_second": 9.861,
-      "train_steps_per_second": 0.308
     }
   ],
   "logging_steps": 100,
-  "max_steps": 8080,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 1.574277938675712e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.016336046159267426,
+  "best_model_checkpoint": "/temp/t5_base-qg-ap-test/checkpoint-100",
+  "epoch": 100.0,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_loss": 12.805366516113281,
+      "eval_runtime": 0.2208,
+      "eval_samples_per_second": 36.238,
+      "eval_steps_per_second": 4.53,
+      "step": 1
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 10.788012504577637,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.954,
+      "eval_steps_per_second": 4.244,
+      "step": 2
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 8.873129844665527,
+      "eval_runtime": 0.2362,
+      "eval_samples_per_second": 33.872,
+      "eval_steps_per_second": 4.234,
+      "step": 3
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 7.4068284034729,
+      "eval_runtime": 0.2351,
+      "eval_samples_per_second": 34.03,
+      "eval_steps_per_second": 4.254,
+      "step": 4
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 6.458061218261719,
+      "eval_runtime": 0.2334,
+      "eval_samples_per_second": 34.275,
+      "eval_steps_per_second": 4.284,
+      "step": 5
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 5.647502422332764,
+      "eval_runtime": 0.2335,
+      "eval_samples_per_second": 34.259,
+      "eval_steps_per_second": 4.282,
+      "step": 6
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 4.959558486938477,
+      "eval_runtime": 0.2256,
+      "eval_samples_per_second": 35.464,
+      "eval_steps_per_second": 4.433,
+      "step": 7
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 4.50578498840332,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.916,
+      "eval_steps_per_second": 4.239,
+      "step": 8
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 4.076832294464111,
+      "eval_runtime": 0.2354,
+      "eval_samples_per_second": 33.984,
+      "eval_steps_per_second": 4.248,
+      "step": 9
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 3.704714059829712,
+      "eval_runtime": 0.2353,
+      "eval_samples_per_second": 33.999,
+      "eval_steps_per_second": 4.25,
+      "step": 10
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 3.4143009185791016,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.914,
+      "eval_steps_per_second": 4.239,
+      "step": 11
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 3.1360208988189697,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.913,
+      "eval_steps_per_second": 4.239,
+      "step": 12
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 2.8865740299224854,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.955,
+      "eval_steps_per_second": 4.244,
+      "step": 13
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 2.6324548721313477,
+      "eval_runtime": 0.234,
+      "eval_samples_per_second": 34.185,
+      "eval_steps_per_second": 4.273,
+      "step": 14
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 2.388902187347412,
+      "eval_runtime": 0.2365,
+      "eval_samples_per_second": 33.826,
+      "eval_steps_per_second": 4.228,
+      "step": 15
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 2.1914408206939697,
+      "eval_runtime": 0.2324,
+      "eval_samples_per_second": 34.427,
+      "eval_steps_per_second": 4.303,
+      "step": 16
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 2.0423526763916016,
+      "eval_runtime": 0.2363,
+      "eval_samples_per_second": 33.85,
+      "eval_steps_per_second": 4.231,
+      "step": 17
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 1.9110742807388306,
+      "eval_runtime": 0.2247,
+      "eval_samples_per_second": 35.611,
+      "eval_steps_per_second": 4.451,
+      "step": 18
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 1.7762634754180908,
+      "eval_runtime": 0.2365,
+      "eval_samples_per_second": 33.825,
+      "eval_steps_per_second": 4.228,
+      "step": 19
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 1.6505231857299805,
+      "eval_runtime": 0.2253,
+      "eval_samples_per_second": 35.504,
+      "eval_steps_per_second": 4.438,
+      "step": 20
     },
     {
+      "epoch": 21.0,
+      "eval_loss": 1.525721788406372,
+      "eval_runtime": 0.2362,
+      "eval_samples_per_second": 33.872,
+      "eval_steps_per_second": 4.234,
+      "step": 21
     },
     {
+      "epoch": 22.0,
+      "eval_loss": 1.4125868082046509,
+      "eval_runtime": 0.235,
+      "eval_samples_per_second": 34.046,
+      "eval_steps_per_second": 4.256,
+      "step": 22
     },
     {
+      "epoch": 23.0,
+      "eval_loss": 1.3109110593795776,
+      "eval_runtime": 0.2369,
+      "eval_samples_per_second": 33.769,
+      "eval_steps_per_second": 4.221,
+      "step": 23
     },
     {
+      "epoch": 24.0,
+      "eval_loss": 1.2188917398452759,
+      "eval_runtime": 0.2319,
+      "eval_samples_per_second": 34.5,
+      "eval_steps_per_second": 4.312,
+      "step": 24
     },
     {
+      "epoch": 25.0,
+      "eval_loss": 1.1338324546813965,
+      "eval_runtime": 0.2362,
+      "eval_samples_per_second": 33.873,
+      "eval_steps_per_second": 4.234,
+      "step": 25
     },
     {
+      "epoch": 26.0,
+      "eval_loss": 1.0485577583312988,
+      "eval_runtime": 0.2311,
+      "eval_samples_per_second": 34.62,
+      "eval_steps_per_second": 4.328,
+      "step": 26
     },
     {
+      "epoch": 27.0,
+      "eval_loss": 0.9640414118766785,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.914,
+      "eval_steps_per_second": 4.239,
+      "step": 27
     },
     {
+      "epoch": 28.0,
+      "eval_loss": 0.8827559947967529,
+      "eval_runtime": 0.2268,
+      "eval_samples_per_second": 35.271,
+      "eval_steps_per_second": 4.409,
+      "step": 28
     },
     {
+      "epoch": 29.0,
+      "eval_loss": 0.8060356378555298,
+      "eval_runtime": 0.2364,
+      "eval_samples_per_second": 33.848,
+      "eval_steps_per_second": 4.231,
+      "step": 29
     },
     {
+      "epoch": 30.0,
+      "eval_loss": 0.7329221367835999,
+      "eval_runtime": 0.2336,
+      "eval_samples_per_second": 34.244,
+      "eval_steps_per_second": 4.281,
+      "step": 30
     },
     {
+      "epoch": 31.0,
+      "eval_loss": 0.6638815402984619,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.912,
+      "eval_steps_per_second": 4.239,
+      "step": 31
     },
     {
+      "epoch": 32.0,
+      "eval_loss": 0.6010197997093201,
+      "eval_runtime": 0.235,
+      "eval_samples_per_second": 34.042,
+      "eval_steps_per_second": 4.255,
+      "step": 32
     },
     {
+      "epoch": 33.0,
+      "eval_loss": 0.5438850522041321,
+      "eval_runtime": 0.2331,
+      "eval_samples_per_second": 34.324,
+      "eval_steps_per_second": 4.29,
+      "step": 33
     },
     {
+      "epoch": 34.0,
+      "eval_loss": 0.4924549162387848,
+      "eval_runtime": 0.2353,
+      "eval_samples_per_second": 34.004,
+      "eval_steps_per_second": 4.25,
+      "step": 34
     },
     {
+      "epoch": 35.0,
+      "eval_loss": 0.4471151828765869,
+      "eval_runtime": 0.2413,
+      "eval_samples_per_second": 33.158,
+      "eval_steps_per_second": 4.145,
+      "step": 35
     },
     {
+      "epoch": 36.0,
+      "eval_loss": 0.4065961539745331,
+      "eval_runtime": 0.2355,
+      "eval_samples_per_second": 33.966,
+      "eval_steps_per_second": 4.246,
+      "step": 36
     },
     {
+      "epoch": 37.0,
+      "eval_loss": 0.3690074682235718,
+      "eval_runtime": 0.2363,
+      "eval_samples_per_second": 33.853,
+      "eval_steps_per_second": 4.232,
+      "step": 37
     },
     {
+      "epoch": 38.0,
+      "eval_loss": 0.3340989649295807,
+      "eval_runtime": 0.2363,
+      "eval_samples_per_second": 33.86,
+      "eval_steps_per_second": 4.232,
+      "step": 38
     },
     {
+      "epoch": 39.0,
+      "eval_loss": 0.3023061454296112,
+      "eval_runtime": 0.2338,
+      "eval_samples_per_second": 34.218,
+      "eval_steps_per_second": 4.277,
+      "step": 39
     },
     {
+      "epoch": 40.0,
+      "eval_loss": 0.27456292510032654,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.907,
+      "eval_steps_per_second": 4.238,
+      "step": 40
     },
     {
+      "epoch": 41.0,
+      "eval_loss": 0.24695347249507904,
+      "eval_runtime": 0.2296,
+      "eval_samples_per_second": 34.843,
+      "eval_steps_per_second": 4.355,
+      "step": 41
     },
     {
+      "epoch": 42.0,
+      "eval_loss": 0.220541313290596,
+      "eval_runtime": 0.2354,
+      "eval_samples_per_second": 33.99,
+      "eval_steps_per_second": 4.249,
+      "step": 42
     },
     {
+      "epoch": 43.0,
+      "eval_loss": 0.19677509367465973,
+      "eval_runtime": 0.2327,
+      "eval_samples_per_second": 34.379,
+      "eval_steps_per_second": 4.297,
+      "step": 43
     },
     {
+      "epoch": 44.0,
+      "eval_loss": 0.17713746428489685,
+      "eval_runtime": 0.2348,
+      "eval_samples_per_second": 34.066,
+      "eval_steps_per_second": 4.258,
+      "step": 44
     },
     {
+      "epoch": 45.0,
+      "eval_loss": 0.15933585166931152,
+      "eval_runtime": 0.2234,
+      "eval_samples_per_second": 35.814,
+      "eval_steps_per_second": 4.477,
+      "step": 45
     },
     {
+      "epoch": 46.0,
+      "eval_loss": 0.14242056012153625,
+      "eval_runtime": 0.2366,
+      "eval_samples_per_second": 33.807,
+      "eval_steps_per_second": 4.226,
+      "step": 46
     },
     {
+      "epoch": 47.0,
+      "eval_loss": 0.1287701427936554,
+      "eval_runtime": 0.2313,
+      "eval_samples_per_second": 34.594,
+      "eval_steps_per_second": 4.324,
+      "step": 47
     },
     {
+      "epoch": 48.0,
+      "eval_loss": 0.11695855855941772,
+      "eval_runtime": 0.2269,
+      "eval_samples_per_second": 35.251,
+      "eval_steps_per_second": 4.406,
+      "step": 48
     },
     {
+      "epoch": 49.0,
+      "eval_loss": 0.1070137694478035,
+      "eval_runtime": 0.2278,
+      "eval_samples_per_second": 35.111,
+      "eval_steps_per_second": 4.389,
+      "step": 49
     },
     {
+      "epoch": 50.0,
+      "eval_loss": 0.09962165355682373,
+      "eval_runtime": 0.2347,
+      "eval_samples_per_second": 34.085,
+      "eval_steps_per_second": 4.261,
+      "step": 50
     },
     {
+      "epoch": 51.0,
+      "eval_loss": 0.09394610673189163,
+      "eval_runtime": 0.2348,
+      "eval_samples_per_second": 34.077,
+      "eval_steps_per_second": 4.26,
+      "step": 51
     },
     {
+      "epoch": 52.0,
+      "eval_loss": 0.08877500891685486,
+      "eval_runtime": 0.2326,
+      "eval_samples_per_second": 34.394,
+      "eval_steps_per_second": 4.299,
+      "step": 52
     },
     {
+      "epoch": 53.0,
+      "eval_loss": 0.08450286090373993,
+      "eval_runtime": 0.2348,
+      "eval_samples_per_second": 34.07,
+      "eval_steps_per_second": 4.259,
+      "step": 53
     },
     {
+      "epoch": 54.0,
+      "eval_loss": 0.0817728266119957,
+      "eval_runtime": 0.2313,
+      "eval_samples_per_second": 34.588,
+      "eval_steps_per_second": 4.324,
+      "step": 54
     },
     {
+      "epoch": 55.0,
+      "eval_loss": 0.07895343005657196,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.915,
+      "eval_steps_per_second": 4.239,
+      "step": 55
     },
     {
+      "epoch": 56.0,
+      "eval_loss": 0.07630708068609238,
+      "eval_runtime": 0.2283,
+      "eval_samples_per_second": 35.038,
+      "eval_steps_per_second": 4.38,
+      "step": 56
     },
     {
+      "epoch": 57.0,
+      "eval_loss": 0.0731731578707695,
+      "eval_runtime": 0.2364,
+      "eval_samples_per_second": 33.835,
+      "eval_steps_per_second": 4.229,
+      "step": 57
     },
     {
+      "epoch": 58.0,
+      "eval_loss": 0.06972303986549377,
+      "eval_runtime": 0.2275,
+      "eval_samples_per_second": 35.171,
+      "eval_steps_per_second": 4.396,
+      "step": 58
     },
     {
+      "epoch": 59.0,
+      "eval_loss": 0.06655264645814896,
+      "eval_runtime": 0.2357,
+      "eval_samples_per_second": 33.941,
+      "eval_steps_per_second": 4.243,
+      "step": 59
     },
     {
+      "epoch": 60.0,
+      "eval_loss": 0.06421676278114319,
+      "eval_runtime": 0.2353,
+      "eval_samples_per_second": 34.001,
+      "eval_steps_per_second": 4.25,
+      "step": 60
     },
     {
+      "epoch": 61.0,
+      "eval_loss": 0.06110429763793945,
+      "eval_runtime": 0.2361,
+      "eval_samples_per_second": 33.886,
+      "eval_steps_per_second": 4.236,
+      "step": 61
     },
     {
+      "epoch": 62.0,
+      "eval_loss": 0.05834279954433441,
+      "eval_runtime": 0.2379,
+      "eval_samples_per_second": 33.624,
+      "eval_steps_per_second": 4.203,
+      "step": 62
     },
     {
+      "epoch": 63.0,
+      "eval_loss": 0.055961962789297104,
+      "eval_runtime": 0.2264,
+      "eval_samples_per_second": 35.335,
+      "eval_steps_per_second": 4.417,
+      "step": 63
     },
     {
+      "epoch": 64.0,
+      "eval_loss": 0.05323232710361481,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.916,
+      "eval_steps_per_second": 4.24,
+      "step": 64
     },
     {
+      "epoch": 65.0,
+      "eval_loss": 0.051185671240091324,
+      "eval_runtime": 0.2338,
+      "eval_samples_per_second": 34.213,
+      "eval_steps_per_second": 4.277,
+      "step": 65
     },
     {
+      "epoch": 66.0,
+      "eval_loss": 0.04865783825516701,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.928,
+      "eval_steps_per_second": 4.241,
+      "step": 66
     },
     {
+      "epoch": 67.0,
+      "eval_loss": 0.04639100283384323,
+      "eval_runtime": 0.2281,
+      "eval_samples_per_second": 35.066,
+      "eval_steps_per_second": 4.383,
+      "step": 67
     },
     {
+      "epoch": 68.0,
+      "eval_loss": 0.04309353977441788,
+      "eval_runtime": 0.2365,
+      "eval_samples_per_second": 33.827,
+      "eval_steps_per_second": 4.228,
+      "step": 68
     },
     {
+      "epoch": 69.0,
+      "eval_loss": 0.03992551565170288,
+      "eval_runtime": 0.2324,
+      "eval_samples_per_second": 34.422,
+      "eval_steps_per_second": 4.303,
+      "step": 69
     },
     {
+      "epoch": 70.0,
+      "eval_loss": 0.03812782093882561,
+      "eval_runtime": 0.2236,
+      "eval_samples_per_second": 35.783,
+      "eval_steps_per_second": 4.473,
+      "step": 70
     },
     {
+      "epoch": 71.0,
+      "eval_loss": 0.03636465594172478,
+      "eval_runtime": 0.2325,
+      "eval_samples_per_second": 34.401,
+      "eval_steps_per_second": 4.3,
+      "step": 71
     },
     {
+      "epoch": 72.0,
+      "eval_loss": 0.034834641963243484,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.926,
+      "eval_steps_per_second": 4.241,
+      "step": 72
     },
     {
+      "epoch": 73.0,
+      "eval_loss": 0.03329307958483696,
+      "eval_runtime": 0.2345,
+      "eval_samples_per_second": 34.111,
+      "eval_steps_per_second": 4.264,
+      "step": 73
     },
     {
+      "epoch": 74.0,
+      "eval_loss": 0.031552691012620926,
+      "eval_runtime": 0.2364,
+      "eval_samples_per_second": 33.845,
+      "eval_steps_per_second": 4.231,
+      "step": 74
     },
     {
+      "epoch": 75.0,
+      "eval_loss": 0.029882650822401047,
+      "eval_runtime": 0.2329,
+      "eval_samples_per_second": 34.351,
+      "eval_steps_per_second": 4.294,
+      "step": 75
     },
     {
+      "epoch": 76.0,
+      "eval_loss": 0.028516214340925217,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.907,
+      "eval_steps_per_second": 4.238,
+      "step": 76
     },
     {
+      "epoch": 77.0,
+      "eval_loss": 0.027370158582925797,
+      "eval_runtime": 0.2246,
+      "eval_samples_per_second": 35.624,
+      "eval_steps_per_second": 4.453,
+      "step": 77
     },
     {
+      "epoch": 78.0,
+      "eval_loss": 0.026426443830132484,
+      "eval_runtime": 0.2254,
+      "eval_samples_per_second": 35.492,
+      "eval_steps_per_second": 4.436,
+      "step": 78
     },
     {
+      "epoch": 79.0,
+      "eval_loss": 0.02534804865717888,
+      "eval_runtime": 0.2295,
+      "eval_samples_per_second": 34.856,
+      "eval_steps_per_second": 4.357,
+      "step": 79
     },
     {
+      "epoch": 80.0,
+      "eval_loss": 0.024182336404919624,
+      "eval_runtime": 0.2363,
+      "eval_samples_per_second": 33.856,
+      "eval_steps_per_second": 4.232,
+      "step": 80
     },
     {
+      "epoch": 81.0,
+      "eval_loss": 0.023593546822667122,
+      "eval_runtime": 0.2361,
+      "eval_samples_per_second": 33.881,
+      "eval_steps_per_second": 4.235,
+      "step": 81
     },
     {
+      "epoch": 82.0,
+      "eval_loss": 0.023052040487527847,
+      "eval_runtime": 0.2361,
+      "eval_samples_per_second": 33.879,
+      "eval_steps_per_second": 4.235,
+      "step": 82
     },
     {
+      "epoch": 83.0,
+      "eval_loss": 0.02290300466120243,
+      "eval_runtime": 0.2361,
+      "eval_samples_per_second": 33.884,
+      "eval_steps_per_second": 4.236,
+      "step": 83
     },
     {
+      "epoch": 84.0,
+      "eval_loss": 0.02261677198112011,
+      "eval_runtime": 0.2286,
+      "eval_samples_per_second": 35.002,
+      "eval_steps_per_second": 4.375,
+      "step": 84
     },
     {
+      "epoch": 85.0,
+      "eval_loss": 0.022289568558335304,
+      "eval_runtime": 0.2353,
+      "eval_samples_per_second": 34.003,
+      "eval_steps_per_second": 4.25,
+      "step": 85
     },
     {
+      "epoch": 86.0,
+      "eval_loss": 0.02184910513460636,
+      "eval_runtime": 0.2287,
+      "eval_samples_per_second": 34.986,
+      "eval_steps_per_second": 4.373,
+      "step": 86
+    },
+    {
+      "epoch": 87.0,
+      "eval_loss": 0.021228935569524765,
+      "eval_runtime": 0.2349,
+      "eval_samples_per_second": 34.051,
+      "eval_steps_per_second": 4.256,
+      "step": 87
+    },
+    {
+      "epoch": 88.0,
+      "eval_loss": 0.020517783239483833,
+      "eval_runtime": 0.2353,
+      "eval_samples_per_second": 34.002,
+      "eval_steps_per_second": 4.25,
+      "step": 88
+    },
+    {
+      "epoch": 89.0,
+      "eval_loss": 0.019832810387015343,
+      "eval_runtime": 0.2232,
+      "eval_samples_per_second": 35.839,
+      "eval_steps_per_second": 4.48,
+      "step": 89
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 0.0191506277769804,
+      "eval_runtime": 0.2312,
+      "eval_samples_per_second": 34.605,
+      "eval_steps_per_second": 4.326,
+      "step": 90
+    },
+    {
+      "epoch": 91.0,
+      "eval_loss": 0.018617864698171616,
+      "eval_runtime": 0.2243,
+      "eval_samples_per_second": 35.667,
+      "eval_steps_per_second": 4.458,
+      "step": 91
+    },
+    {
+      "epoch": 92.0,
+      "eval_loss": 0.01811818592250347,
+      "eval_runtime": 0.2348,
+      "eval_samples_per_second": 34.07,
+      "eval_steps_per_second": 4.259,
+      "step": 92
+    },
+    {
+      "epoch": 93.0,
+      "eval_loss": 0.01765601523220539,
+      "eval_runtime": 0.2363,
+      "eval_samples_per_second": 33.853,
+      "eval_steps_per_second": 4.232,
+      "step": 93
+    },
+    {
+      "epoch": 94.0,
+      "eval_loss": 0.017278417944908142,
+      "eval_runtime": 0.2264,
+      "eval_samples_per_second": 35.331,
+      "eval_steps_per_second": 4.416,
+      "step": 94
+    },
+    {
+      "epoch": 95.0,
+      "eval_loss": 0.016984442248940468,
+      "eval_runtime": 0.2349,
+      "eval_samples_per_second": 34.053,
+      "eval_steps_per_second": 4.257,
+      "step": 95
+    },
+    {
+      "epoch": 96.0,
+      "eval_loss": 0.01675889454782009,
+      "eval_runtime": 0.2343,
+      "eval_samples_per_second": 34.141,
+      "eval_steps_per_second": 4.268,
+      "step": 96
+    },
+    {
+      "epoch": 97.0,
+      "eval_loss": 0.016593070700764656,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.915,
+      "eval_steps_per_second": 4.239,
+      "step": 97
+    },
+    {
+      "epoch": 98.0,
+      "eval_loss": 0.016466278582811356,
+      "eval_runtime": 0.2296,
+      "eval_samples_per_second": 34.851,
+      "eval_steps_per_second": 4.356,
+      "step": 98
+    },
+    {
+      "epoch": 99.0,
+      "eval_loss": 0.016385838389396667,
+      "eval_runtime": 0.2364,
+      "eval_samples_per_second": 33.84,
+      "eval_steps_per_second": 4.23,
+      "step": 99
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 0.0,
+      "loss": 1.4009,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 0.016336046159267426,
+      "eval_runtime": 0.2203,
+      "eval_samples_per_second": 36.315,
+      "eval_steps_per_second": 4.539,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "step": 100,
+      "total_flos": 487166312448000.0,
+      "train_loss": 1.40092041015625,
+      "train_runtime": 1064.353,
+      "train_samples_per_second": 0.752,
+      "train_steps_per_second": 0.094
     }
   ],
   "logging_steps": 100,
+  "max_steps": 100,
+  "num_train_epochs": 100,
   "save_steps": 500,
+  "total_flos": 487166312448000.0,
   "trial_name": null,
   "trial_params": null
 }