Upload config for debug

Files changed (3) hide show

output/config/debug/model.yaml ADDED Viewed

+mode: train
+num_emotion: 5
+conformer:
+  encoder_dim: 256
+  decoder_dim: 256
+  num_encode_layers: 4
+  num_decode_layers: 6
+  num_attention_heads: 2
+  feed_forward_expansion_factor: 4
+  conv_expansion_factor: 2
+  feed_forward_dropout_p: 0.2
+  attention_dropout_p: 0.2
+  conv_dropout_p: 0.2
+  conv_kernel_size: 7
+  half_step_residual: true
+reference_encoder:
+  encoder_dim: 128
+  dropout: 0.2
+variance_predictor:
+  filter_size: 256
+  kernel_size: 3
+  dropout: 0.5
+variance_embedding:
+  pitch_quantization: "linear"
+  energy_quantization: "linear"
+  n_bins: 256
+max_seq_len: 1000
+vocoder:
+  model: "HiFi-GAN"
+  speaker: "tth"

output/config/debug/preprocess.yaml ADDED Viewed

+dataset: "vlsp2023emo"
+path:
+  corpus_path:  "./data/pretrained_tts_dataset/tuyendv.dict"
+  lexicon_path: "../datasets/ess-vlsp2023-lexicon/lexicon.dict" # "data/lexicon"
+  raw_path: "./data/pretrained_tts_dataset_raw"
+  preprocessed_path: "../datasets/ess-vlsp2023-emo-processed-phoneme-level" # "processed_vlsp_data_phoneme_level"
+emotion2id:
+  neutral: 0
+  happy: 1
+  sad: 2
+  angry: 3
+  surprise: 4
+id2emotion:
+  0: neutral
+  1: happy
+  2: sad
+  3: angry
+  4: surprise
+smoothing_label: 0.1
+preprocessing:
+  val_size: 512
+  text:
+    text_cleaners: []
+    language: "en"
+  audio:
+    sampling_rate: 22050
+    max_wav_value: 32768.0
+  stft:
+    filter_length: 1024
+    hop_length: 256
+    win_length: 1024
+  mel:
+    n_mel_channels: 80
+    mel_fmin: 0
+    mel_fmax: 8000
+# phoneme_level
+  pitch:
+    feature: "phoneme_level"
+    normalization: True
+  energy:
+    feature: "phoneme_level"
+    normalization: True

output/config/debug/train.yaml ADDED Viewed

+path:
+  ckpt_path: "../output/ckpt/vlsp2023emo"
+  log_path: "../output/log/vlsp2023emo"
+  result_path: "../output/result/vlsp2023emo"
+hf:
+  use_hf: True
+  hf_repo: "hahunavth/abc"
+  restore_from_hf: True
+  push_to_hf: True
+optimizer:
+  batch_size: 48  # 64
+  betas: [0.9, 0.98]
+  eps: 0.000000001
+  weight_decay: 0.0
+  grad_clip_thresh: 1.0
+  grad_acc_step: 1
+  warm_up_step: 2000
+  anneal_steps: [300000, 400000, 500000]
+  anneal_rate: 0.3
+step:
+  total_step: 400000
+  log_step: 1000
+  synth_step: 5000
+  val_step: 1000
+  save_step: 2000