{ "best_metric": 45.13758009800226, "best_model_checkpoint": "./train_tiny/checkpoint-9000", "epoch": 1.0, "eval_steps": 1000, "global_step": 10000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "learning_rate": 5.7e-08, "loss": 1.9075, "step": 20 }, { "epoch": 0.0, "learning_rate": 1.14e-07, "loss": 1.8558, "step": 40 }, { "epoch": 0.01, "learning_rate": 1.7400000000000002e-07, "loss": 1.8384, "step": 60 }, { "epoch": 0.01, "learning_rate": 2.34e-07, "loss": 1.8364, "step": 80 }, { "epoch": 0.01, "learning_rate": 2.94e-07, "loss": 1.7613, "step": 100 }, { "epoch": 0.01, "learning_rate": 3.5399999999999997e-07, "loss": 1.6615, "step": 120 }, { "epoch": 0.01, "learning_rate": 4.1400000000000003e-07, "loss": 1.5656, "step": 140 }, { "epoch": 0.02, "learning_rate": 4.7400000000000004e-07, "loss": 1.4969, "step": 160 }, { "epoch": 0.02, "learning_rate": 5.34e-07, "loss": 1.4269, "step": 180 }, { "epoch": 0.02, "learning_rate": 5.94e-07, "loss": 1.3895, "step": 200 }, { "epoch": 0.02, "learning_rate": 6.54e-07, "loss": 1.3895, "step": 220 }, { "epoch": 0.02, "learning_rate": 7.14e-07, "loss": 1.3804, "step": 240 }, { "epoch": 0.03, "learning_rate": 7.74e-07, "loss": 1.3164, "step": 260 }, { "epoch": 0.03, "learning_rate": 8.340000000000001e-07, "loss": 1.2644, "step": 280 }, { "epoch": 0.03, "learning_rate": 8.939999999999999e-07, "loss": 1.1866, "step": 300 }, { "epoch": 0.03, "learning_rate": 9.54e-07, "loss": 1.1636, "step": 320 }, { "epoch": 0.03, "learning_rate": 1.0140000000000002e-06, "loss": 1.1495, "step": 340 }, { "epoch": 0.04, "learning_rate": 1.074e-06, "loss": 1.1079, "step": 360 }, { "epoch": 0.04, "learning_rate": 1.134e-06, "loss": 1.197, "step": 380 }, { "epoch": 0.04, "learning_rate": 1.1940000000000001e-06, "loss": 1.1563, "step": 400 }, { "epoch": 0.04, "learning_rate": 1.254e-06, "loss": 1.1398, "step": 420 }, { "epoch": 0.04, "learning_rate": 1.314e-06, "loss": 1.0672, "step": 440 }, { "epoch": 0.05, "learning_rate": 1.374e-06, "loss": 1.094, "step": 460 }, { "epoch": 0.05, "learning_rate": 1.434e-06, "loss": 1.0882, "step": 480 }, { "epoch": 0.05, "learning_rate": 1.494e-06, "loss": 1.0768, "step": 500 }, { "epoch": 0.05, "learning_rate": 1.554e-06, "loss": 1.0472, "step": 520 }, { "epoch": 0.05, "learning_rate": 1.6140000000000001e-06, "loss": 1.0033, "step": 540 }, { "epoch": 0.06, "learning_rate": 1.6740000000000002e-06, "loss": 1.0171, "step": 560 }, { "epoch": 0.06, "learning_rate": 1.7339999999999998e-06, "loss": 1.0712, "step": 580 }, { "epoch": 0.06, "learning_rate": 1.7939999999999999e-06, "loss": 1.077, "step": 600 }, { "epoch": 0.06, "learning_rate": 1.854e-06, "loss": 1.1522, "step": 620 }, { "epoch": 0.06, "learning_rate": 1.9140000000000002e-06, "loss": 1.1632, "step": 640 }, { "epoch": 0.07, "learning_rate": 1.974e-06, "loss": 1.1827, "step": 660 }, { "epoch": 0.07, "learning_rate": 2.0340000000000003e-06, "loss": 1.1174, "step": 680 }, { "epoch": 0.07, "learning_rate": 2.0939999999999998e-06, "loss": 1.1389, "step": 700 }, { "epoch": 0.07, "learning_rate": 2.154e-06, "loss": 1.1435, "step": 720 }, { "epoch": 0.07, "learning_rate": 2.214e-06, "loss": 1.0826, "step": 740 }, { "epoch": 0.08, "learning_rate": 2.274e-06, "loss": 0.9585, "step": 760 }, { "epoch": 0.08, "learning_rate": 2.334e-06, "loss": 0.902, "step": 780 }, { "epoch": 0.08, "learning_rate": 2.3940000000000003e-06, "loss": 0.8642, "step": 800 }, { "epoch": 0.08, "learning_rate": 2.4539999999999997e-06, "loss": 0.8889, "step": 820 }, { "epoch": 0.08, "learning_rate": 2.514e-06, "loss": 0.8596, "step": 840 }, { "epoch": 0.09, "learning_rate": 2.574e-06, "loss": 0.8783, "step": 860 }, { "epoch": 0.09, "learning_rate": 2.634e-06, "loss": 0.89, "step": 880 }, { "epoch": 0.09, "learning_rate": 2.694e-06, "loss": 0.8521, "step": 900 }, { "epoch": 0.09, "learning_rate": 2.7540000000000002e-06, "loss": 0.9141, "step": 920 }, { "epoch": 0.09, "learning_rate": 2.814e-06, "loss": 0.8968, "step": 940 }, { "epoch": 0.1, "learning_rate": 2.874e-06, "loss": 1.0381, "step": 960 }, { "epoch": 0.1, "learning_rate": 2.934e-06, "loss": 1.0316, "step": 980 }, { "epoch": 0.1, "learning_rate": 2.994e-06, "loss": 0.9236, "step": 1000 }, { "epoch": 0.1, "eval_loss": 0.7782720923423767, "eval_runtime": 185.2151, "eval_samples_per_second": 9.2, "eval_steps_per_second": 2.3, "eval_wer": 58.51865812287976, "step": 1000 }, { "epoch": 0.1, "learning_rate": 2.994e-06, "loss": 0.8831, "step": 1020 }, { "epoch": 0.1, "learning_rate": 2.987333333333333e-06, "loss": 0.8494, "step": 1040 }, { "epoch": 0.11, "learning_rate": 2.9806666666666667e-06, "loss": 0.8607, "step": 1060 }, { "epoch": 0.11, "learning_rate": 2.974e-06, "loss": 0.8614, "step": 1080 }, { "epoch": 0.11, "learning_rate": 2.9673333333333334e-06, "loss": 0.8134, "step": 1100 }, { "epoch": 0.11, "learning_rate": 2.960666666666667e-06, "loss": 0.8702, "step": 1120 }, { "epoch": 0.11, "learning_rate": 2.954e-06, "loss": 1.0404, "step": 1140 }, { "epoch": 0.12, "learning_rate": 2.9473333333333335e-06, "loss": 0.9158, "step": 1160 }, { "epoch": 0.12, "learning_rate": 2.9406666666666667e-06, "loss": 0.8198, "step": 1180 }, { "epoch": 0.12, "learning_rate": 2.934e-06, "loss": 0.8156, "step": 1200 }, { "epoch": 0.12, "learning_rate": 2.9273333333333333e-06, "loss": 0.8236, "step": 1220 }, { "epoch": 0.12, "learning_rate": 2.9206666666666664e-06, "loss": 0.8131, "step": 1240 }, { "epoch": 0.13, "learning_rate": 2.9140000000000004e-06, "loss": 0.813, "step": 1260 }, { "epoch": 0.13, "learning_rate": 2.9073333333333335e-06, "loss": 0.7693, "step": 1280 }, { "epoch": 0.13, "learning_rate": 2.9006666666666666e-06, "loss": 0.7441, "step": 1300 }, { "epoch": 0.13, "learning_rate": 2.894e-06, "loss": 0.775, "step": 1320 }, { "epoch": 0.13, "learning_rate": 2.8873333333333333e-06, "loss": 0.754, "step": 1340 }, { "epoch": 0.14, "learning_rate": 2.880666666666667e-06, "loss": 0.7654, "step": 1360 }, { "epoch": 0.14, "learning_rate": 2.874e-06, "loss": 0.7651, "step": 1380 }, { "epoch": 0.14, "learning_rate": 2.867333333333333e-06, "loss": 0.7794, "step": 1400 }, { "epoch": 0.14, "learning_rate": 2.860666666666667e-06, "loss": 0.7959, "step": 1420 }, { "epoch": 0.14, "learning_rate": 2.854e-06, "loss": 0.7742, "step": 1440 }, { "epoch": 0.15, "learning_rate": 2.8473333333333337e-06, "loss": 0.762, "step": 1460 }, { "epoch": 0.15, "learning_rate": 2.8406666666666668e-06, "loss": 0.7752, "step": 1480 }, { "epoch": 0.15, "learning_rate": 2.834e-06, "loss": 0.7614, "step": 1500 }, { "epoch": 0.15, "learning_rate": 2.8273333333333334e-06, "loss": 0.7364, "step": 1520 }, { "epoch": 0.15, "learning_rate": 2.8206666666666665e-06, "loss": 0.6769, "step": 1540 }, { "epoch": 0.16, "learning_rate": 2.814e-06, "loss": 0.7257, "step": 1560 }, { "epoch": 0.16, "learning_rate": 2.8073333333333336e-06, "loss": 0.7503, "step": 1580 }, { "epoch": 0.16, "learning_rate": 2.8006666666666667e-06, "loss": 0.7323, "step": 1600 }, { "epoch": 0.16, "learning_rate": 2.7940000000000003e-06, "loss": 0.718, "step": 1620 }, { "epoch": 0.16, "learning_rate": 2.7873333333333334e-06, "loss": 0.6829, "step": 1640 }, { "epoch": 0.17, "learning_rate": 2.7806666666666665e-06, "loss": 0.7141, "step": 1660 }, { "epoch": 0.17, "learning_rate": 2.774e-06, "loss": 0.707, "step": 1680 }, { "epoch": 0.17, "learning_rate": 2.767333333333333e-06, "loss": 0.6997, "step": 1700 }, { "epoch": 0.17, "learning_rate": 2.7606666666666667e-06, "loss": 0.7501, "step": 1720 }, { "epoch": 0.17, "learning_rate": 2.7540000000000002e-06, "loss": 0.7129, "step": 1740 }, { "epoch": 0.18, "learning_rate": 2.7473333333333333e-06, "loss": 0.714, "step": 1760 }, { "epoch": 0.18, "learning_rate": 2.740666666666667e-06, "loss": 0.6917, "step": 1780 }, { "epoch": 0.18, "learning_rate": 2.734e-06, "loss": 0.6708, "step": 1800 }, { "epoch": 0.18, "learning_rate": 2.7273333333333335e-06, "loss": 0.7147, "step": 1820 }, { "epoch": 0.18, "learning_rate": 2.7206666666666667e-06, "loss": 0.6832, "step": 1840 }, { "epoch": 0.19, "learning_rate": 2.7139999999999998e-06, "loss": 0.7287, "step": 1860 }, { "epoch": 0.19, "learning_rate": 2.7073333333333337e-06, "loss": 0.8012, "step": 1880 }, { "epoch": 0.19, "learning_rate": 2.701e-06, "loss": 0.7916, "step": 1900 }, { "epoch": 0.19, "learning_rate": 2.694333333333333e-06, "loss": 0.7681, "step": 1920 }, { "epoch": 0.19, "learning_rate": 2.6876666666666667e-06, "loss": 0.7414, "step": 1940 }, { "epoch": 0.2, "learning_rate": 2.6810000000000003e-06, "loss": 0.6934, "step": 1960 }, { "epoch": 0.2, "learning_rate": 2.6743333333333334e-06, "loss": 0.7328, "step": 1980 }, { "epoch": 0.2, "learning_rate": 2.667666666666667e-06, "loss": 0.727, "step": 2000 }, { "epoch": 0.2, "eval_loss": 0.6638157963752747, "eval_runtime": 157.0673, "eval_samples_per_second": 10.849, "eval_steps_per_second": 2.712, "eval_wer": 53.10968714662646, "step": 2000 }, { "epoch": 0.2, "learning_rate": 2.661e-06, "loss": 0.6806, "step": 2020 }, { "epoch": 0.2, "learning_rate": 2.6543333333333336e-06, "loss": 0.6875, "step": 2040 }, { "epoch": 0.21, "learning_rate": 2.6476666666666667e-06, "loss": 0.6824, "step": 2060 }, { "epoch": 0.21, "learning_rate": 2.6409999999999998e-06, "loss": 0.7, "step": 2080 }, { "epoch": 0.21, "learning_rate": 2.6343333333333333e-06, "loss": 0.7003, "step": 2100 }, { "epoch": 0.21, "learning_rate": 2.627666666666667e-06, "loss": 0.6757, "step": 2120 }, { "epoch": 0.21, "learning_rate": 2.621e-06, "loss": 0.7325, "step": 2140 }, { "epoch": 0.22, "learning_rate": 2.6143333333333335e-06, "loss": 0.7248, "step": 2160 }, { "epoch": 0.22, "learning_rate": 2.6076666666666666e-06, "loss": 0.664, "step": 2180 }, { "epoch": 0.22, "learning_rate": 2.601e-06, "loss": 0.6706, "step": 2200 }, { "epoch": 0.22, "learning_rate": 2.5943333333333333e-06, "loss": 0.68, "step": 2220 }, { "epoch": 0.22, "learning_rate": 2.587666666666667e-06, "loss": 0.6848, "step": 2240 }, { "epoch": 0.23, "learning_rate": 2.581e-06, "loss": 0.6982, "step": 2260 }, { "epoch": 0.23, "learning_rate": 2.5743333333333335e-06, "loss": 0.6397, "step": 2280 }, { "epoch": 0.23, "learning_rate": 2.567666666666667e-06, "loss": 0.5994, "step": 2300 }, { "epoch": 0.23, "learning_rate": 2.561e-06, "loss": 0.6576, "step": 2320 }, { "epoch": 0.23, "learning_rate": 2.5543333333333332e-06, "loss": 0.6132, "step": 2340 }, { "epoch": 0.24, "learning_rate": 2.5476666666666668e-06, "loss": 0.65, "step": 2360 }, { "epoch": 0.24, "learning_rate": 2.541e-06, "loss": 0.6465, "step": 2380 }, { "epoch": 0.24, "learning_rate": 2.5343333333333334e-06, "loss": 0.6591, "step": 2400 }, { "epoch": 0.24, "learning_rate": 2.5276666666666665e-06, "loss": 0.6443, "step": 2420 }, { "epoch": 0.24, "learning_rate": 2.521e-06, "loss": 0.6556, "step": 2440 }, { "epoch": 0.25, "learning_rate": 2.5143333333333336e-06, "loss": 0.6399, "step": 2460 }, { "epoch": 0.25, "learning_rate": 2.5076666666666667e-06, "loss": 0.6536, "step": 2480 }, { "epoch": 0.25, "learning_rate": 2.501e-06, "loss": 0.6466, "step": 2500 }, { "epoch": 0.25, "learning_rate": 2.4943333333333334e-06, "loss": 0.6466, "step": 2520 }, { "epoch": 0.25, "learning_rate": 2.4876666666666665e-06, "loss": 0.6217, "step": 2540 }, { "epoch": 0.26, "learning_rate": 2.481e-06, "loss": 0.8104, "step": 2560 }, { "epoch": 0.26, "learning_rate": 2.4743333333333336e-06, "loss": 0.7522, "step": 2580 }, { "epoch": 0.26, "learning_rate": 2.4676666666666667e-06, "loss": 0.6958, "step": 2600 }, { "epoch": 0.26, "learning_rate": 2.4610000000000002e-06, "loss": 0.6162, "step": 2620 }, { "epoch": 0.26, "learning_rate": 2.4543333333333334e-06, "loss": 0.6098, "step": 2640 }, { "epoch": 0.27, "learning_rate": 2.447666666666667e-06, "loss": 0.6092, "step": 2660 }, { "epoch": 0.27, "learning_rate": 2.441e-06, "loss": 0.6019, "step": 2680 }, { "epoch": 0.27, "learning_rate": 2.434333333333333e-06, "loss": 0.6401, "step": 2700 }, { "epoch": 0.27, "learning_rate": 2.4276666666666667e-06, "loss": 0.6346, "step": 2720 }, { "epoch": 0.27, "learning_rate": 2.421e-06, "loss": 0.7002, "step": 2740 }, { "epoch": 0.28, "learning_rate": 2.4143333333333333e-06, "loss": 0.6535, "step": 2760 }, { "epoch": 0.28, "learning_rate": 2.407666666666667e-06, "loss": 0.5825, "step": 2780 }, { "epoch": 0.28, "learning_rate": 2.401e-06, "loss": 0.5789, "step": 2800 }, { "epoch": 0.28, "learning_rate": 2.3943333333333335e-06, "loss": 0.5719, "step": 2820 }, { "epoch": 0.28, "learning_rate": 2.3876666666666666e-06, "loss": 0.5513, "step": 2840 }, { "epoch": 0.29, "learning_rate": 2.381e-06, "loss": 0.5658, "step": 2860 }, { "epoch": 0.29, "learning_rate": 2.3743333333333333e-06, "loss": 0.6177, "step": 2880 }, { "epoch": 0.29, "learning_rate": 2.367666666666667e-06, "loss": 0.5841, "step": 2900 }, { "epoch": 0.29, "learning_rate": 2.3610000000000003e-06, "loss": 0.6084, "step": 2920 }, { "epoch": 0.29, "learning_rate": 2.3543333333333335e-06, "loss": 0.6069, "step": 2940 }, { "epoch": 0.3, "learning_rate": 2.3476666666666666e-06, "loss": 0.6325, "step": 2960 }, { "epoch": 0.3, "learning_rate": 2.341e-06, "loss": 0.6532, "step": 2980 }, { "epoch": 0.3, "learning_rate": 2.3343333333333332e-06, "loss": 0.6867, "step": 3000 }, { "epoch": 0.3, "eval_loss": 0.6112821102142334, "eval_runtime": 163.3512, "eval_samples_per_second": 10.432, "eval_steps_per_second": 2.608, "eval_wer": 50.263852242744065, "step": 3000 }, { "epoch": 0.3, "learning_rate": 2.3276666666666668e-06, "loss": 0.6422, "step": 3020 }, { "epoch": 0.3, "learning_rate": 2.321e-06, "loss": 0.6254, "step": 3040 }, { "epoch": 0.31, "learning_rate": 2.3143333333333334e-06, "loss": 0.6156, "step": 3060 }, { "epoch": 0.31, "learning_rate": 2.307666666666667e-06, "loss": 0.6372, "step": 3080 }, { "epoch": 0.31, "learning_rate": 2.301e-06, "loss": 0.612, "step": 3100 }, { "epoch": 0.31, "learning_rate": 2.294333333333333e-06, "loss": 0.6353, "step": 3120 }, { "epoch": 0.31, "learning_rate": 2.2876666666666667e-06, "loss": 0.6359, "step": 3140 }, { "epoch": 0.32, "learning_rate": 2.281e-06, "loss": 0.6238, "step": 3160 }, { "epoch": 0.32, "learning_rate": 2.2743333333333334e-06, "loss": 0.5941, "step": 3180 }, { "epoch": 0.32, "learning_rate": 2.267666666666667e-06, "loss": 0.6262, "step": 3200 }, { "epoch": 0.32, "learning_rate": 2.261e-06, "loss": 0.6254, "step": 3220 }, { "epoch": 0.32, "learning_rate": 2.2543333333333336e-06, "loss": 0.6304, "step": 3240 }, { "epoch": 0.33, "learning_rate": 2.2476666666666667e-06, "loss": 0.599, "step": 3260 }, { "epoch": 0.33, "learning_rate": 2.2410000000000002e-06, "loss": 0.5904, "step": 3280 }, { "epoch": 0.33, "learning_rate": 2.2343333333333333e-06, "loss": 0.6069, "step": 3300 }, { "epoch": 0.33, "learning_rate": 2.2276666666666665e-06, "loss": 0.6871, "step": 3320 }, { "epoch": 0.33, "learning_rate": 2.221e-06, "loss": 0.7191, "step": 3340 }, { "epoch": 0.34, "learning_rate": 2.2143333333333335e-06, "loss": 0.6708, "step": 3360 }, { "epoch": 0.34, "learning_rate": 2.2076666666666666e-06, "loss": 0.653, "step": 3380 }, { "epoch": 0.34, "learning_rate": 2.201e-06, "loss": 0.7607, "step": 3400 }, { "epoch": 0.34, "learning_rate": 2.1943333333333333e-06, "loss": 0.7201, "step": 3420 }, { "epoch": 0.34, "learning_rate": 2.187666666666667e-06, "loss": 0.7343, "step": 3440 }, { "epoch": 0.35, "learning_rate": 2.181e-06, "loss": 0.6897, "step": 3460 }, { "epoch": 0.35, "learning_rate": 2.1743333333333335e-06, "loss": 0.6637, "step": 3480 }, { "epoch": 0.35, "learning_rate": 2.1676666666666666e-06, "loss": 0.6337, "step": 3500 }, { "epoch": 0.35, "learning_rate": 2.161e-06, "loss": 0.6297, "step": 3520 }, { "epoch": 0.35, "learning_rate": 2.1543333333333337e-06, "loss": 0.6233, "step": 3540 }, { "epoch": 0.36, "learning_rate": 2.147666666666667e-06, "loss": 0.6507, "step": 3560 }, { "epoch": 0.36, "learning_rate": 2.141e-06, "loss": 0.6654, "step": 3580 }, { "epoch": 0.36, "learning_rate": 2.1343333333333335e-06, "loss": 0.6145, "step": 3600 }, { "epoch": 0.36, "learning_rate": 2.1276666666666666e-06, "loss": 0.6131, "step": 3620 }, { "epoch": 0.36, "learning_rate": 2.121e-06, "loss": 0.6365, "step": 3640 }, { "epoch": 0.37, "learning_rate": 2.1143333333333332e-06, "loss": 0.6078, "step": 3660 }, { "epoch": 0.37, "learning_rate": 2.1076666666666668e-06, "loss": 0.6451, "step": 3680 }, { "epoch": 0.37, "learning_rate": 2.1010000000000003e-06, "loss": 0.5961, "step": 3700 }, { "epoch": 0.37, "learning_rate": 2.0943333333333334e-06, "loss": 0.6163, "step": 3720 }, { "epoch": 0.37, "learning_rate": 2.0876666666666665e-06, "loss": 0.6195, "step": 3740 }, { "epoch": 0.38, "learning_rate": 2.081e-06, "loss": 0.594, "step": 3760 }, { "epoch": 0.38, "learning_rate": 2.074333333333333e-06, "loss": 0.5759, "step": 3780 }, { "epoch": 0.38, "learning_rate": 2.0676666666666667e-06, "loss": 0.5779, "step": 3800 }, { "epoch": 0.38, "learning_rate": 2.0610000000000003e-06, "loss": 0.5663, "step": 3820 }, { "epoch": 0.38, "learning_rate": 2.0543333333333334e-06, "loss": 0.5562, "step": 3840 }, { "epoch": 0.39, "learning_rate": 2.047666666666667e-06, "loss": 0.5879, "step": 3860 }, { "epoch": 0.39, "learning_rate": 2.041e-06, "loss": 0.6018, "step": 3880 }, { "epoch": 0.39, "learning_rate": 2.0343333333333336e-06, "loss": 0.6118, "step": 3900 }, { "epoch": 0.39, "learning_rate": 2.0276666666666667e-06, "loss": 0.6048, "step": 3920 }, { "epoch": 0.39, "learning_rate": 2.021e-06, "loss": 0.6116, "step": 3940 }, { "epoch": 0.4, "learning_rate": 2.014666666666667e-06, "loss": 0.6354, "step": 3960 }, { "epoch": 0.4, "learning_rate": 2.008e-06, "loss": 0.6962, "step": 3980 }, { "epoch": 0.4, "learning_rate": 2.001333333333333e-06, "loss": 0.8348, "step": 4000 }, { "epoch": 0.4, "eval_loss": 0.5882023572921753, "eval_runtime": 156.5837, "eval_samples_per_second": 10.882, "eval_steps_per_second": 2.721, "eval_wer": 48.266113833396155, "step": 4000 }, { "epoch": 0.4, "learning_rate": 1.9946666666666667e-06, "loss": 0.634, "step": 4020 }, { "epoch": 0.4, "learning_rate": 1.988e-06, "loss": 0.6357, "step": 4040 }, { "epoch": 0.41, "learning_rate": 1.9813333333333334e-06, "loss": 0.5517, "step": 4060 }, { "epoch": 0.41, "learning_rate": 1.974666666666667e-06, "loss": 0.5548, "step": 4080 }, { "epoch": 0.41, "learning_rate": 1.968e-06, "loss": 0.5386, "step": 4100 }, { "epoch": 0.41, "learning_rate": 1.9613333333333336e-06, "loss": 0.5469, "step": 4120 }, { "epoch": 0.41, "learning_rate": 1.9546666666666667e-06, "loss": 0.5438, "step": 4140 }, { "epoch": 0.42, "learning_rate": 1.948e-06, "loss": 0.525, "step": 4160 }, { "epoch": 0.42, "learning_rate": 1.9413333333333334e-06, "loss": 0.5229, "step": 4180 }, { "epoch": 0.42, "learning_rate": 1.9346666666666665e-06, "loss": 0.5462, "step": 4200 }, { "epoch": 0.42, "learning_rate": 1.928e-06, "loss": 0.5339, "step": 4220 }, { "epoch": 0.42, "learning_rate": 1.9213333333333335e-06, "loss": 0.4816, "step": 4240 }, { "epoch": 0.43, "learning_rate": 1.9146666666666667e-06, "loss": 0.5189, "step": 4260 }, { "epoch": 0.43, "learning_rate": 1.908e-06, "loss": 0.4821, "step": 4280 }, { "epoch": 0.43, "learning_rate": 1.9013333333333333e-06, "loss": 0.5134, "step": 4300 }, { "epoch": 0.43, "learning_rate": 1.8946666666666666e-06, "loss": 0.5507, "step": 4320 }, { "epoch": 0.43, "learning_rate": 1.888e-06, "loss": 0.5501, "step": 4340 }, { "epoch": 0.44, "learning_rate": 1.8813333333333333e-06, "loss": 0.5447, "step": 4360 }, { "epoch": 0.44, "learning_rate": 1.8746666666666668e-06, "loss": 0.5483, "step": 4380 }, { "epoch": 0.44, "learning_rate": 1.8680000000000002e-06, "loss": 0.5305, "step": 4400 }, { "epoch": 0.44, "learning_rate": 1.8613333333333335e-06, "loss": 0.5601, "step": 4420 }, { "epoch": 0.44, "learning_rate": 1.8546666666666668e-06, "loss": 0.5631, "step": 4440 }, { "epoch": 0.45, "learning_rate": 1.848e-06, "loss": 0.5441, "step": 4460 }, { "epoch": 0.45, "learning_rate": 1.8413333333333333e-06, "loss": 0.5391, "step": 4480 }, { "epoch": 0.45, "learning_rate": 1.8346666666666666e-06, "loss": 0.5665, "step": 4500 }, { "epoch": 0.45, "learning_rate": 1.828e-06, "loss": 0.5293, "step": 4520 }, { "epoch": 0.45, "learning_rate": 1.8213333333333334e-06, "loss": 0.5493, "step": 4540 }, { "epoch": 0.46, "learning_rate": 1.8146666666666668e-06, "loss": 0.5508, "step": 4560 }, { "epoch": 0.46, "learning_rate": 1.808e-06, "loss": 0.5797, "step": 4580 }, { "epoch": 0.46, "learning_rate": 1.8013333333333334e-06, "loss": 0.5465, "step": 4600 }, { "epoch": 0.46, "learning_rate": 1.7946666666666667e-06, "loss": 0.553, "step": 4620 }, { "epoch": 0.46, "learning_rate": 1.7879999999999999e-06, "loss": 0.6009, "step": 4640 }, { "epoch": 0.47, "learning_rate": 1.7813333333333332e-06, "loss": 0.6936, "step": 4660 }, { "epoch": 0.47, "learning_rate": 1.7746666666666665e-06, "loss": 0.5712, "step": 4680 }, { "epoch": 0.47, "learning_rate": 1.7680000000000003e-06, "loss": 0.526, "step": 4700 }, { "epoch": 0.47, "learning_rate": 1.7613333333333334e-06, "loss": 0.5487, "step": 4720 }, { "epoch": 0.47, "learning_rate": 1.7546666666666667e-06, "loss": 0.5357, "step": 4740 }, { "epoch": 0.48, "learning_rate": 1.748e-06, "loss": 0.5369, "step": 4760 }, { "epoch": 0.48, "learning_rate": 1.7413333333333334e-06, "loss": 0.5081, "step": 4780 }, { "epoch": 0.48, "learning_rate": 1.7346666666666667e-06, "loss": 0.4885, "step": 4800 }, { "epoch": 0.48, "learning_rate": 1.728e-06, "loss": 0.4885, "step": 4820 }, { "epoch": 0.48, "learning_rate": 1.7213333333333336e-06, "loss": 0.5065, "step": 4840 }, { "epoch": 0.49, "learning_rate": 1.7146666666666669e-06, "loss": 0.4996, "step": 4860 }, { "epoch": 0.49, "learning_rate": 1.7080000000000002e-06, "loss": 0.4944, "step": 4880 }, { "epoch": 0.49, "learning_rate": 1.7013333333333333e-06, "loss": 0.5157, "step": 4900 }, { "epoch": 0.49, "learning_rate": 1.6946666666666666e-06, "loss": 0.5329, "step": 4920 }, { "epoch": 0.49, "learning_rate": 1.688e-06, "loss": 0.4899, "step": 4940 }, { "epoch": 0.5, "learning_rate": 1.6813333333333333e-06, "loss": 0.4896, "step": 4960 }, { "epoch": 0.5, "learning_rate": 1.6746666666666666e-06, "loss": 0.4918, "step": 4980 }, { "epoch": 0.5, "learning_rate": 1.6680000000000002e-06, "loss": 0.5165, "step": 5000 }, { "epoch": 0.5, "eval_loss": 0.5678868293762207, "eval_runtime": 168.4091, "eval_samples_per_second": 10.118, "eval_steps_per_second": 2.53, "eval_wer": 47.12589521296645, "step": 5000 }, { "epoch": 0.5, "learning_rate": 1.6613333333333335e-06, "loss": 0.4918, "step": 5020 }, { "epoch": 0.5, "learning_rate": 1.6546666666666668e-06, "loss": 0.5009, "step": 5040 }, { "epoch": 0.51, "learning_rate": 1.6480000000000001e-06, "loss": 0.497, "step": 5060 }, { "epoch": 0.51, "learning_rate": 1.6413333333333333e-06, "loss": 0.4891, "step": 5080 }, { "epoch": 0.51, "learning_rate": 1.6346666666666666e-06, "loss": 0.481, "step": 5100 }, { "epoch": 0.51, "learning_rate": 1.628e-06, "loss": 0.4913, "step": 5120 }, { "epoch": 0.51, "learning_rate": 1.6213333333333332e-06, "loss": 0.5002, "step": 5140 }, { "epoch": 0.52, "learning_rate": 1.6146666666666668e-06, "loss": 0.5062, "step": 5160 }, { "epoch": 0.52, "learning_rate": 1.608e-06, "loss": 0.5279, "step": 5180 }, { "epoch": 0.52, "learning_rate": 1.6013333333333334e-06, "loss": 0.5468, "step": 5200 }, { "epoch": 0.52, "learning_rate": 1.5946666666666668e-06, "loss": 0.5535, "step": 5220 }, { "epoch": 0.52, "learning_rate": 1.588e-06, "loss": 0.5807, "step": 5240 }, { "epoch": 0.53, "learning_rate": 1.5813333333333332e-06, "loss": 0.5614, "step": 5260 }, { "epoch": 0.53, "learning_rate": 1.5746666666666665e-06, "loss": 0.5631, "step": 5280 }, { "epoch": 0.53, "learning_rate": 1.5679999999999999e-06, "loss": 0.5374, "step": 5300 }, { "epoch": 0.53, "learning_rate": 1.5613333333333336e-06, "loss": 0.5463, "step": 5320 }, { "epoch": 0.53, "learning_rate": 1.5546666666666667e-06, "loss": 0.5288, "step": 5340 }, { "epoch": 0.54, "learning_rate": 1.548e-06, "loss": 0.5557, "step": 5360 }, { "epoch": 0.54, "learning_rate": 1.5413333333333334e-06, "loss": 0.5312, "step": 5380 }, { "epoch": 0.54, "learning_rate": 1.5346666666666667e-06, "loss": 0.5832, "step": 5400 }, { "epoch": 0.54, "learning_rate": 1.528e-06, "loss": 0.784, "step": 5420 }, { "epoch": 0.54, "learning_rate": 1.5213333333333331e-06, "loss": 0.6672, "step": 5440 }, { "epoch": 0.55, "learning_rate": 1.5146666666666669e-06, "loss": 0.6467, "step": 5460 }, { "epoch": 0.55, "learning_rate": 1.5080000000000002e-06, "loss": 0.5852, "step": 5480 }, { "epoch": 0.55, "learning_rate": 1.5013333333333335e-06, "loss": 0.5558, "step": 5500 }, { "epoch": 0.55, "learning_rate": 1.4946666666666667e-06, "loss": 0.5401, "step": 5520 }, { "epoch": 0.55, "learning_rate": 1.488e-06, "loss": 0.5378, "step": 5540 }, { "epoch": 0.56, "learning_rate": 1.4813333333333333e-06, "loss": 0.5254, "step": 5560 }, { "epoch": 0.56, "learning_rate": 1.4746666666666668e-06, "loss": 0.5271, "step": 5580 }, { "epoch": 0.56, "learning_rate": 1.468e-06, "loss": 0.4734, "step": 5600 }, { "epoch": 0.56, "learning_rate": 1.4613333333333333e-06, "loss": 0.4918, "step": 5620 }, { "epoch": 0.56, "learning_rate": 1.4546666666666666e-06, "loss": 0.4904, "step": 5640 }, { "epoch": 0.57, "learning_rate": 1.4480000000000002e-06, "loss": 0.5141, "step": 5660 }, { "epoch": 0.57, "learning_rate": 1.4413333333333335e-06, "loss": 0.497, "step": 5680 }, { "epoch": 0.57, "learning_rate": 1.4346666666666666e-06, "loss": 0.4625, "step": 5700 }, { "epoch": 0.57, "learning_rate": 1.428e-06, "loss": 0.501, "step": 5720 }, { "epoch": 0.57, "learning_rate": 1.4213333333333335e-06, "loss": 0.4949, "step": 5740 }, { "epoch": 0.58, "learning_rate": 1.4146666666666668e-06, "loss": 0.5413, "step": 5760 }, { "epoch": 0.58, "learning_rate": 1.4080000000000001e-06, "loss": 0.489, "step": 5780 }, { "epoch": 0.58, "learning_rate": 1.4013333333333332e-06, "loss": 0.5004, "step": 5800 }, { "epoch": 0.58, "learning_rate": 1.3946666666666668e-06, "loss": 0.5023, "step": 5820 }, { "epoch": 0.58, "learning_rate": 1.388e-06, "loss": 0.5009, "step": 5840 }, { "epoch": 0.59, "learning_rate": 1.3813333333333334e-06, "loss": 0.5355, "step": 5860 }, { "epoch": 0.59, "learning_rate": 1.3746666666666665e-06, "loss": 0.5311, "step": 5880 }, { "epoch": 0.59, "learning_rate": 1.368e-06, "loss": 0.5289, "step": 5900 }, { "epoch": 0.59, "learning_rate": 1.3613333333333334e-06, "loss": 0.5606, "step": 5920 }, { "epoch": 0.59, "learning_rate": 1.3546666666666667e-06, "loss": 0.5622, "step": 5940 }, { "epoch": 0.6, "learning_rate": 1.348e-06, "loss": 0.5251, "step": 5960 }, { "epoch": 0.6, "learning_rate": 1.3413333333333334e-06, "loss": 0.5488, "step": 5980 }, { "epoch": 0.6, "learning_rate": 1.3346666666666667e-06, "loss": 0.5509, "step": 6000 }, { "epoch": 0.6, "eval_loss": 0.5540242791175842, "eval_runtime": 193.6595, "eval_samples_per_second": 8.799, "eval_steps_per_second": 2.2, "eval_wer": 46.635883905013195, "step": 6000 }, { "epoch": 0.6, "learning_rate": 1.328e-06, "loss": 0.534, "step": 6020 }, { "epoch": 0.6, "learning_rate": 1.3213333333333334e-06, "loss": 0.5442, "step": 6040 }, { "epoch": 0.61, "learning_rate": 1.3146666666666667e-06, "loss": 0.5173, "step": 6060 }, { "epoch": 0.61, "learning_rate": 1.308e-06, "loss": 0.5189, "step": 6080 }, { "epoch": 0.61, "learning_rate": 1.3013333333333333e-06, "loss": 0.478, "step": 6100 }, { "epoch": 0.61, "learning_rate": 1.2946666666666669e-06, "loss": 0.4792, "step": 6120 }, { "epoch": 0.61, "learning_rate": 1.288e-06, "loss": 0.4819, "step": 6140 }, { "epoch": 0.62, "learning_rate": 1.2813333333333333e-06, "loss": 0.5197, "step": 6160 }, { "epoch": 0.62, "learning_rate": 1.2746666666666666e-06, "loss": 0.5083, "step": 6180 }, { "epoch": 0.62, "learning_rate": 1.2680000000000002e-06, "loss": 0.471, "step": 6200 }, { "epoch": 0.62, "learning_rate": 1.2613333333333333e-06, "loss": 0.4484, "step": 6220 }, { "epoch": 0.62, "learning_rate": 1.2546666666666666e-06, "loss": 0.476, "step": 6240 }, { "epoch": 0.63, "learning_rate": 1.248e-06, "loss": 0.5409, "step": 6260 }, { "epoch": 0.63, "learning_rate": 1.2413333333333335e-06, "loss": 0.5207, "step": 6280 }, { "epoch": 0.63, "learning_rate": 1.235e-06, "loss": 0.4868, "step": 6300 }, { "epoch": 0.63, "learning_rate": 1.2283333333333334e-06, "loss": 0.4775, "step": 6320 }, { "epoch": 0.63, "learning_rate": 1.2216666666666667e-06, "loss": 0.4226, "step": 6340 }, { "epoch": 0.64, "learning_rate": 1.215e-06, "loss": 0.4473, "step": 6360 }, { "epoch": 0.64, "learning_rate": 1.2083333333333333e-06, "loss": 0.4664, "step": 6380 }, { "epoch": 0.64, "learning_rate": 1.2016666666666667e-06, "loss": 0.4907, "step": 6400 }, { "epoch": 0.64, "learning_rate": 1.195e-06, "loss": 0.4796, "step": 6420 }, { "epoch": 0.64, "learning_rate": 1.1883333333333335e-06, "loss": 0.5054, "step": 6440 }, { "epoch": 0.65, "learning_rate": 1.1816666666666666e-06, "loss": 0.5067, "step": 6460 }, { "epoch": 0.65, "learning_rate": 1.175e-06, "loss": 0.5001, "step": 6480 }, { "epoch": 0.65, "learning_rate": 1.1683333333333333e-06, "loss": 0.494, "step": 6500 }, { "epoch": 0.65, "learning_rate": 1.1616666666666668e-06, "loss": 0.49, "step": 6520 }, { "epoch": 0.65, "learning_rate": 1.155e-06, "loss": 0.4836, "step": 6540 }, { "epoch": 0.66, "learning_rate": 1.1483333333333333e-06, "loss": 0.5371, "step": 6560 }, { "epoch": 0.66, "learning_rate": 1.1416666666666666e-06, "loss": 0.5191, "step": 6580 }, { "epoch": 0.66, "learning_rate": 1.1350000000000001e-06, "loss": 0.4891, "step": 6600 }, { "epoch": 0.66, "learning_rate": 1.1283333333333335e-06, "loss": 0.5411, "step": 6620 }, { "epoch": 0.66, "learning_rate": 1.1216666666666666e-06, "loss": 0.5087, "step": 6640 }, { "epoch": 0.67, "learning_rate": 1.115e-06, "loss": 0.5058, "step": 6660 }, { "epoch": 0.67, "learning_rate": 1.1083333333333335e-06, "loss": 0.4949, "step": 6680 }, { "epoch": 0.67, "learning_rate": 1.1016666666666668e-06, "loss": 0.4545, "step": 6700 }, { "epoch": 0.67, "learning_rate": 1.095e-06, "loss": 0.4843, "step": 6720 }, { "epoch": 0.67, "learning_rate": 1.0883333333333332e-06, "loss": 0.5011, "step": 6740 }, { "epoch": 0.68, "learning_rate": 1.0816666666666668e-06, "loss": 0.5175, "step": 6760 }, { "epoch": 0.68, "learning_rate": 1.075e-06, "loss": 0.471, "step": 6780 }, { "epoch": 0.68, "learning_rate": 1.0683333333333334e-06, "loss": 0.4954, "step": 6800 }, { "epoch": 0.68, "learning_rate": 1.0616666666666665e-06, "loss": 0.5265, "step": 6820 }, { "epoch": 0.68, "learning_rate": 1.055e-06, "loss": 0.6448, "step": 6840 }, { "epoch": 0.69, "learning_rate": 1.0483333333333334e-06, "loss": 0.6528, "step": 6860 }, { "epoch": 0.69, "learning_rate": 1.0416666666666667e-06, "loss": 0.5433, "step": 6880 }, { "epoch": 0.69, "learning_rate": 1.035e-06, "loss": 0.5221, "step": 6900 }, { "epoch": 0.69, "learning_rate": 1.0283333333333334e-06, "loss": 0.4917, "step": 6920 }, { "epoch": 0.69, "learning_rate": 1.0216666666666667e-06, "loss": 0.4763, "step": 6940 }, { "epoch": 0.7, "learning_rate": 1.015e-06, "loss": 0.4742, "step": 6960 }, { "epoch": 0.7, "learning_rate": 1.0083333333333333e-06, "loss": 0.4843, "step": 6980 }, { "epoch": 0.7, "learning_rate": 1.0016666666666667e-06, "loss": 0.639, "step": 7000 }, { "epoch": 0.7, "eval_loss": 0.5465730428695679, "eval_runtime": 184.6693, "eval_samples_per_second": 9.227, "eval_steps_per_second": 2.307, "eval_wer": 46.522804372408594, "step": 7000 }, { "epoch": 0.7, "learning_rate": 9.95e-07, "loss": 0.671, "step": 7020 }, { "epoch": 0.7, "learning_rate": 9.883333333333333e-07, "loss": 0.7193, "step": 7040 }, { "epoch": 0.71, "learning_rate": 9.816666666666669e-07, "loss": 0.6248, "step": 7060 }, { "epoch": 0.71, "learning_rate": 9.75e-07, "loss": 0.5835, "step": 7080 }, { "epoch": 0.71, "learning_rate": 9.683333333333333e-07, "loss": 0.4436, "step": 7100 }, { "epoch": 0.71, "learning_rate": 9.616666666666666e-07, "loss": 0.4706, "step": 7120 }, { "epoch": 0.71, "learning_rate": 9.550000000000002e-07, "loss": 0.4877, "step": 7140 }, { "epoch": 0.72, "learning_rate": 9.483333333333334e-07, "loss": 0.4845, "step": 7160 }, { "epoch": 0.72, "learning_rate": 9.416666666666667e-07, "loss": 0.4832, "step": 7180 }, { "epoch": 0.72, "learning_rate": 9.349999999999999e-07, "loss": 0.4894, "step": 7200 }, { "epoch": 0.72, "learning_rate": 9.283333333333334e-07, "loss": 0.4906, "step": 7220 }, { "epoch": 0.72, "learning_rate": 9.216666666666667e-07, "loss": 0.5027, "step": 7240 }, { "epoch": 0.73, "learning_rate": 9.15e-07, "loss": 0.4841, "step": 7260 }, { "epoch": 0.73, "learning_rate": 9.083333333333332e-07, "loss": 0.5063, "step": 7280 }, { "epoch": 0.73, "learning_rate": 9.016666666666668e-07, "loss": 0.4494, "step": 7300 }, { "epoch": 0.73, "learning_rate": 8.95e-07, "loss": 0.4772, "step": 7320 }, { "epoch": 0.73, "learning_rate": 8.883333333333333e-07, "loss": 0.4748, "step": 7340 }, { "epoch": 0.74, "learning_rate": 8.816666666666667e-07, "loss": 0.4528, "step": 7360 }, { "epoch": 0.74, "learning_rate": 8.750000000000001e-07, "loss": 0.4528, "step": 7380 }, { "epoch": 0.74, "learning_rate": 8.683333333333334e-07, "loss": 0.4744, "step": 7400 }, { "epoch": 0.74, "learning_rate": 8.616666666666666e-07, "loss": 0.4533, "step": 7420 }, { "epoch": 0.74, "learning_rate": 8.55e-07, "loss": 0.4364, "step": 7440 }, { "epoch": 0.75, "learning_rate": 8.483333333333334e-07, "loss": 0.4581, "step": 7460 }, { "epoch": 0.75, "learning_rate": 8.416666666666667e-07, "loss": 0.4684, "step": 7480 }, { "epoch": 0.75, "learning_rate": 8.349999999999999e-07, "loss": 0.428, "step": 7500 }, { "epoch": 0.75, "learning_rate": 8.283333333333333e-07, "loss": 0.4446, "step": 7520 }, { "epoch": 0.75, "learning_rate": 8.216666666666667e-07, "loss": 0.4699, "step": 7540 }, { "epoch": 0.76, "learning_rate": 8.15e-07, "loss": 0.4705, "step": 7560 }, { "epoch": 0.76, "learning_rate": 8.083333333333334e-07, "loss": 0.4557, "step": 7580 }, { "epoch": 0.76, "learning_rate": 8.016666666666668e-07, "loss": 0.4295, "step": 7600 }, { "epoch": 0.76, "learning_rate": 7.95e-07, "loss": 0.4569, "step": 7620 }, { "epoch": 0.76, "learning_rate": 7.883333333333333e-07, "loss": 0.4745, "step": 7640 }, { "epoch": 0.77, "learning_rate": 7.816666666666667e-07, "loss": 0.4673, "step": 7660 }, { "epoch": 0.77, "learning_rate": 7.750000000000001e-07, "loss": 0.4439, "step": 7680 }, { "epoch": 0.77, "learning_rate": 7.683333333333334e-07, "loss": 0.4628, "step": 7700 }, { "epoch": 0.77, "learning_rate": 7.616666666666666e-07, "loss": 0.473, "step": 7720 }, { "epoch": 0.77, "learning_rate": 7.55e-07, "loss": 0.5062, "step": 7740 }, { "epoch": 0.78, "learning_rate": 7.483333333333333e-07, "loss": 0.4851, "step": 7760 }, { "epoch": 0.78, "learning_rate": 7.416666666666667e-07, "loss": 0.4854, "step": 7780 }, { "epoch": 0.78, "learning_rate": 7.350000000000001e-07, "loss": 0.4674, "step": 7800 }, { "epoch": 0.78, "learning_rate": 7.283333333333334e-07, "loss": 0.479, "step": 7820 }, { "epoch": 0.78, "learning_rate": 7.216666666666667e-07, "loss": 0.4833, "step": 7840 }, { "epoch": 0.79, "learning_rate": 7.15e-07, "loss": 0.4692, "step": 7860 }, { "epoch": 0.79, "learning_rate": 7.083333333333334e-07, "loss": 0.4847, "step": 7880 }, { "epoch": 0.79, "learning_rate": 7.016666666666667e-07, "loss": 0.4567, "step": 7900 }, { "epoch": 0.79, "learning_rate": 6.95e-07, "loss": 0.479, "step": 7920 }, { "epoch": 0.79, "learning_rate": 6.883333333333333e-07, "loss": 0.4799, "step": 7940 }, { "epoch": 0.8, "learning_rate": 6.816666666666667e-07, "loss": 0.5019, "step": 7960 }, { "epoch": 0.8, "learning_rate": 6.75e-07, "loss": 0.4945, "step": 7980 }, { "epoch": 0.8, "learning_rate": 6.683333333333333e-07, "loss": 0.4715, "step": 8000 }, { "epoch": 0.8, "eval_loss": 0.5399571657180786, "eval_runtime": 201.8152, "eval_samples_per_second": 8.443, "eval_steps_per_second": 2.111, "eval_wer": 45.97625329815303, "step": 8000 }, { "epoch": 0.8, "learning_rate": 6.616666666666666e-07, "loss": 0.4748, "step": 8020 }, { "epoch": 0.8, "learning_rate": 6.55e-07, "loss": 0.4139, "step": 8040 }, { "epoch": 0.81, "learning_rate": 6.483333333333334e-07, "loss": 0.4679, "step": 8060 }, { "epoch": 0.81, "learning_rate": 6.416666666666666e-07, "loss": 0.4664, "step": 8080 }, { "epoch": 0.81, "learning_rate": 6.350000000000001e-07, "loss": 0.4665, "step": 8100 }, { "epoch": 0.81, "learning_rate": 6.283333333333333e-07, "loss": 0.4329, "step": 8120 }, { "epoch": 0.81, "learning_rate": 6.216666666666667e-07, "loss": 0.4849, "step": 8140 }, { "epoch": 0.82, "learning_rate": 6.149999999999999e-07, "loss": 0.5039, "step": 8160 }, { "epoch": 0.82, "learning_rate": 6.083333333333334e-07, "loss": 0.5774, "step": 8180 }, { "epoch": 0.82, "learning_rate": 6.016666666666667e-07, "loss": 0.5455, "step": 8200 }, { "epoch": 0.82, "learning_rate": 5.95e-07, "loss": 0.4991, "step": 8220 }, { "epoch": 0.82, "learning_rate": 5.883333333333333e-07, "loss": 0.5494, "step": 8240 }, { "epoch": 0.83, "learning_rate": 5.816666666666667e-07, "loss": 0.5764, "step": 8260 }, { "epoch": 0.83, "learning_rate": 5.750000000000001e-07, "loss": 0.7026, "step": 8280 }, { "epoch": 0.83, "learning_rate": 5.683333333333333e-07, "loss": 0.5481, "step": 8300 }, { "epoch": 0.83, "learning_rate": 5.62e-07, "loss": 0.5459, "step": 8320 }, { "epoch": 0.83, "learning_rate": 5.553333333333334e-07, "loss": 0.4905, "step": 8340 }, { "epoch": 0.84, "learning_rate": 5.486666666666666e-07, "loss": 0.4974, "step": 8360 }, { "epoch": 0.84, "learning_rate": 5.420000000000001e-07, "loss": 0.5031, "step": 8380 }, { "epoch": 0.84, "learning_rate": 5.353333333333333e-07, "loss": 0.5234, "step": 8400 }, { "epoch": 0.84, "learning_rate": 5.286666666666667e-07, "loss": 0.4842, "step": 8420 }, { "epoch": 0.84, "learning_rate": 5.219999999999999e-07, "loss": 0.51, "step": 8440 }, { "epoch": 0.85, "learning_rate": 5.153333333333334e-07, "loss": 0.5323, "step": 8460 }, { "epoch": 0.85, "learning_rate": 5.086666666666666e-07, "loss": 0.4834, "step": 8480 }, { "epoch": 0.85, "learning_rate": 5.02e-07, "loss": 0.4922, "step": 8500 }, { "epoch": 0.85, "learning_rate": 4.953333333333333e-07, "loss": 0.4556, "step": 8520 }, { "epoch": 0.85, "learning_rate": 4.886666666666667e-07, "loss": 0.4336, "step": 8540 }, { "epoch": 0.86, "learning_rate": 4.82e-07, "loss": 0.4501, "step": 8560 }, { "epoch": 0.86, "learning_rate": 4.7533333333333333e-07, "loss": 0.4219, "step": 8580 }, { "epoch": 0.86, "learning_rate": 4.686666666666667e-07, "loss": 0.4579, "step": 8600 }, { "epoch": 0.86, "learning_rate": 4.62e-07, "loss": 0.4559, "step": 8620 }, { "epoch": 0.86, "learning_rate": 4.5533333333333336e-07, "loss": 0.4812, "step": 8640 }, { "epoch": 0.87, "learning_rate": 4.486666666666667e-07, "loss": 0.4573, "step": 8660 }, { "epoch": 0.87, "learning_rate": 4.4200000000000007e-07, "loss": 0.4312, "step": 8680 }, { "epoch": 0.87, "learning_rate": 4.3533333333333334e-07, "loss": 0.4404, "step": 8700 }, { "epoch": 0.87, "learning_rate": 4.286666666666667e-07, "loss": 0.4544, "step": 8720 }, { "epoch": 0.87, "learning_rate": 4.22e-07, "loss": 0.4558, "step": 8740 }, { "epoch": 0.88, "learning_rate": 4.1533333333333337e-07, "loss": 0.4257, "step": 8760 }, { "epoch": 0.88, "learning_rate": 4.0866666666666665e-07, "loss": 0.4546, "step": 8780 }, { "epoch": 0.88, "learning_rate": 4.02e-07, "loss": 0.4551, "step": 8800 }, { "epoch": 0.88, "learning_rate": 3.953333333333333e-07, "loss": 0.4758, "step": 8820 }, { "epoch": 0.88, "learning_rate": 3.886666666666667e-07, "loss": 0.46, "step": 8840 }, { "epoch": 0.89, "learning_rate": 3.82e-07, "loss": 0.4566, "step": 8860 }, { "epoch": 0.89, "learning_rate": 3.753333333333334e-07, "loss": 0.4704, "step": 8880 }, { "epoch": 0.89, "learning_rate": 3.686666666666667e-07, "loss": 0.4816, "step": 8900 }, { "epoch": 0.89, "learning_rate": 3.6200000000000004e-07, "loss": 0.4467, "step": 8920 }, { "epoch": 0.89, "learning_rate": 3.5533333333333337e-07, "loss": 0.4433, "step": 8940 }, { "epoch": 0.9, "learning_rate": 3.486666666666667e-07, "loss": 0.4498, "step": 8960 }, { "epoch": 0.9, "learning_rate": 3.42e-07, "loss": 0.4631, "step": 8980 }, { "epoch": 0.9, "learning_rate": 3.3533333333333334e-07, "loss": 0.6306, "step": 9000 }, { "epoch": 0.9, "eval_loss": 0.5363436937332153, "eval_runtime": 181.4289, "eval_samples_per_second": 9.392, "eval_steps_per_second": 2.348, "eval_wer": 45.13758009800226, "step": 9000 }, { "epoch": 0.9, "learning_rate": 3.2866666666666667e-07, "loss": 0.5251, "step": 9020 }, { "epoch": 0.9, "learning_rate": 3.22e-07, "loss": 0.4195, "step": 9040 }, { "epoch": 0.91, "learning_rate": 3.153333333333333e-07, "loss": 0.4216, "step": 9060 }, { "epoch": 0.91, "learning_rate": 3.086666666666667e-07, "loss": 0.4159, "step": 9080 }, { "epoch": 0.91, "learning_rate": 3.0200000000000003e-07, "loss": 0.438, "step": 9100 }, { "epoch": 0.91, "learning_rate": 2.9533333333333336e-07, "loss": 0.4584, "step": 9120 }, { "epoch": 0.91, "learning_rate": 2.886666666666667e-07, "loss": 0.4792, "step": 9140 }, { "epoch": 0.92, "learning_rate": 2.82e-07, "loss": 0.4992, "step": 9160 }, { "epoch": 0.92, "learning_rate": 2.7533333333333334e-07, "loss": 0.4667, "step": 9180 }, { "epoch": 0.92, "learning_rate": 2.6866666666666666e-07, "loss": 0.4392, "step": 9200 }, { "epoch": 0.92, "learning_rate": 2.62e-07, "loss": 0.4245, "step": 9220 }, { "epoch": 0.92, "learning_rate": 2.553333333333333e-07, "loss": 0.4018, "step": 9240 }, { "epoch": 0.93, "learning_rate": 2.4866666666666664e-07, "loss": 0.3882, "step": 9260 }, { "epoch": 0.93, "learning_rate": 2.42e-07, "loss": 0.4237, "step": 9280 }, { "epoch": 0.93, "learning_rate": 2.3533333333333332e-07, "loss": 0.4274, "step": 9300 }, { "epoch": 0.93, "learning_rate": 2.2866666666666665e-07, "loss": 0.4026, "step": 9320 }, { "epoch": 0.93, "learning_rate": 2.22e-07, "loss": 0.4335, "step": 9340 }, { "epoch": 0.94, "learning_rate": 2.1533333333333333e-07, "loss": 0.4454, "step": 9360 }, { "epoch": 0.94, "learning_rate": 2.0866666666666666e-07, "loss": 0.4164, "step": 9380 }, { "epoch": 0.94, "learning_rate": 2.0199999999999998e-07, "loss": 0.4424, "step": 9400 }, { "epoch": 0.94, "learning_rate": 1.953333333333333e-07, "loss": 0.4319, "step": 9420 }, { "epoch": 0.94, "learning_rate": 1.8866666666666666e-07, "loss": 0.3881, "step": 9440 }, { "epoch": 0.95, "learning_rate": 1.8200000000000002e-07, "loss": 0.3968, "step": 9460 }, { "epoch": 0.95, "learning_rate": 1.7533333333333334e-07, "loss": 0.455, "step": 9480 }, { "epoch": 0.95, "learning_rate": 1.6866666666666667e-07, "loss": 0.4302, "step": 9500 }, { "epoch": 0.95, "learning_rate": 1.62e-07, "loss": 0.4379, "step": 9520 }, { "epoch": 0.95, "learning_rate": 1.5533333333333332e-07, "loss": 0.4588, "step": 9540 }, { "epoch": 0.96, "learning_rate": 1.4866666666666667e-07, "loss": 0.4494, "step": 9560 }, { "epoch": 0.96, "learning_rate": 1.42e-07, "loss": 0.4753, "step": 9580 }, { "epoch": 0.96, "learning_rate": 1.3533333333333333e-07, "loss": 0.4655, "step": 9600 }, { "epoch": 0.96, "learning_rate": 1.2866666666666665e-07, "loss": 0.4432, "step": 9620 }, { "epoch": 0.96, "learning_rate": 1.2199999999999998e-07, "loss": 0.5067, "step": 9640 }, { "epoch": 0.97, "learning_rate": 1.1533333333333335e-07, "loss": 0.452, "step": 9660 }, { "epoch": 0.97, "learning_rate": 1.0866666666666667e-07, "loss": 0.4983, "step": 9680 }, { "epoch": 0.97, "learning_rate": 1.0200000000000001e-07, "loss": 0.6322, "step": 9700 }, { "epoch": 0.97, "learning_rate": 9.533333333333334e-08, "loss": 0.5663, "step": 9720 }, { "epoch": 0.97, "learning_rate": 8.866666666666668e-08, "loss": 0.4518, "step": 9740 }, { "epoch": 0.98, "learning_rate": 8.2e-08, "loss": 0.4905, "step": 9760 }, { "epoch": 0.98, "learning_rate": 7.533333333333333e-08, "loss": 0.5047, "step": 9780 }, { "epoch": 0.98, "learning_rate": 6.866666666666667e-08, "loss": 0.4762, "step": 9800 }, { "epoch": 0.98, "learning_rate": 6.2e-08, "loss": 0.5051, "step": 9820 }, { "epoch": 0.98, "learning_rate": 5.533333333333333e-08, "loss": 0.4928, "step": 9840 }, { "epoch": 0.99, "learning_rate": 4.8666666666666666e-08, "loss": 0.4808, "step": 9860 }, { "epoch": 0.99, "learning_rate": 4.2e-08, "loss": 0.4881, "step": 9880 }, { "epoch": 0.99, "learning_rate": 3.533333333333333e-08, "loss": 0.4734, "step": 9900 }, { "epoch": 0.99, "learning_rate": 2.8666666666666665e-08, "loss": 0.4575, "step": 9920 }, { "epoch": 0.99, "learning_rate": 2.2000000000000002e-08, "loss": 0.4361, "step": 9940 }, { "epoch": 1.0, "learning_rate": 1.5333333333333335e-08, "loss": 0.4472, "step": 9960 }, { "epoch": 1.0, "learning_rate": 8.666666666666667e-09, "loss": 0.4473, "step": 9980 }, { "epoch": 1.0, "learning_rate": 2e-09, "loss": 0.4598, "step": 10000 }, { "epoch": 1.0, "eval_loss": 0.5351520776748657, "eval_runtime": 178.1485, "eval_samples_per_second": 9.565, "eval_steps_per_second": 2.391, "eval_wer": 45.47681869581606, "step": 10000 }, { "epoch": 1.0, "step": 10000, "total_flos": 7.8780432384e+18, "train_loss": 0.5063519451618195, "train_runtime": 21802.337, "train_samples_per_second": 14.677, "train_steps_per_second": 0.459 } ], "logging_steps": 20, "max_steps": 10000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 1000, "total_flos": 7.8780432384e+18, "train_batch_size": 32, "trial_name": null, "trial_params": null }