metadata

license: cc-by-4.0
language:
  - is
datasets:
  - language-and-voice-lab/samromur_asr
  - language-and-voice-lab/samromur_children
  - language-and-voice-lab/malromur_asr
  - language-and-voice-lab/althingi_asr
tags:
  - audio
  - automatic-speech-recognition
  - icelandic
  - whisper
  - whisper-large
  - iceland
  - reykjavik
  - samromur
  - faster-whisper

whisper-large-icelandic-30k-steps-1000h-ct2

This is a faster-whisper version of language-and-voice-lab/whisper-large-icelandic-30k-steps-1000h.

The model was created like described in faster-whisper:

ct2-transformers-converter --model language-and-voice-lab/whisper-large-icelandic-30k-steps-1000h \
    --output_dir whisper-large-icelandic-30k-steps-1000h-ct2 \
    --quantization float16

Usage

from faster_whisper import WhisperModel

model_size = "whisper-large-icelandic-30k-steps-1000h-ct2"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

BibTeX entry and citation info

When publishing results based on these models please refer to:

@misc{gunnarsson2023whisperlarge30kicelandicct2,
    title={Acoustic Model in Icelandic: whisper-large-icelandic-30k-steps-1000h-ct2.}, 
    author={Gunnarsson, Thorsteinn Dadi and Hernandez Mena, Carlos Daniel},
    url={https://huggingface.co/language-and-voice-lab/whisper-large-icelandic-30k-steps-1000h-ct2},
    year={2023}
}