Spaces:

Vikhrmodels
/

salt

Running

App Files Files Community

apsys commited on Sep 10

Commit

14e7fb1

•

1 Parent(s): a80906b

Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

.ipynb_checkpoints/main-checkpoint.py +186 -0
.ipynb_checkpoints/requirements-checkpoint.txt +251 -0
audiotokenizer/SpeechTokenizer.pt +3 -0
audiotokenizer/speechtokenizer_hubert_avg_config.json +48 -0
main.py +186 -0
requirements.txt +251 -0

.ipynb_checkpoints/main-checkpoint.py ADDED Viewed

	@@ -0,0 +1,186 @@

+import gradio as gr
+import torch
+import torchaudio
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from speechtokenizer import SpeechTokenizer
+from audiotools import AudioSignal
+import bitsandbytes as bnb  # Import bitsandbytes for INT8 quantization
+import numpy as np
+from uuid import uuid4
+# Load the necessary models and tokenizers
+model_path = "Vikhrmodels/llama_asr_tts_24000"
+tokenizer = AutoTokenizer.from_pretrained(model_path, cache_dir=".")
+# Специальные токены
+start_audio_token = "<soa>"
+end_audio_token = "<eoa>"
+end_sequence_token = "<eos>"
+# Константы
+n_codebooks = 3
+max_seq_length = 1024
+top_k = 20
+from safetensors.torch import load_file
+def convert_to_16_bit_wav(data):
+    # Based on: https://docs.scipy.org/doc/scipy/reference/generated/scipy.io.wavfile.write.html
+    # breakpoint()
+    if data.dtype == np.float32:
+        # warnings.warn(
+        #     "Audio data is not in 16-bit integer format."
+        #     "Trying to convert to 16-bit int format."
+        # )
+        data = data / np.abs(data).max()
+        data = data * 32767
+        data = data.astype(np.int16)
+    elif data.dtype == np.int32:
+        # warnings.warn(
+        #     "Audio data is not in 16-bit integer format."
+        #     "Trying to convert to 16-bit int format."
+        # )
+        data = data / 65538
+        data = data.astype(np.int16)
+    elif data.dtype == np.int16:
+        pass
+    elif data.dtype == np.uint8:
+        # warnings.warn(
+        #     "Audio data is not in 16-bit integer format."
+        #     "Trying to convert to 16-bit int format."
+        # )
+        data = data * 257 - 32768
+        data = data.astype(np.int16)
+    else:
+        raise ValueError("Audio data cannot be converted to " "16-bit int format.")
+    return data
+# Load the model with INT8 quantization
+model = AutoModelForCausalLM.from_pretrained(
+    model_path,
+    cache_dir=".",
+    load_in_8bit=True,  # Enable loading in INT8
+    device_map="auto"  # Automatically map model to available devices
+)
+# Configurations for Speech Tokenizer
+config_path = "audiotokenizer/speechtokenizer_hubert_avg_config.json"
+ckpt_path = "audiotokenizer/SpeechTokenizer.pt"
+quantizer = SpeechTokenizer.load_from_checkpoint(config_path, ckpt_path)
+quantizer.eval()
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# Перемещение всех слоев квантизатора на устройство и их заморозка
+def freeze_entire_model(model):
+    for n, p in model.named_parameters():
+        p.requires_grad = False
+    return model
+for n, child in quantizer.named_children():
+    child.to(device)
+    child = freeze_entire_model(child)
+# Функция для создания токенов заполнения для аудио
+def get_audio_padding_tokens(quantizer):
+    audio = torch.zeros((1, 1, 1)).to(device)
+    codes = quantizer.encode(audio)
+    del audio
+    torch.cuda.empty_cache()
+    return {"audio_tokens": codes.squeeze(1)}
+# Функция для декодирования аудио из токенов
+def decode_audio(tokens, quantizer, pad_tokens, n_original_tokens):
+    start = torch.nonzero(tokens == tokenizer(start_audio_token)["input_ids"][-1])
+    end = torch.nonzero(tokens == tokenizer(end_audio_token)["input_ids"][-1])
+    start = start[0, -1] + 1 if len(start) else 0
+    end = end[0, -1] if len(end) else tokens.shape[-1]
+    audio_tokens = tokens[start:end] % n_original_tokens
+    reminder = audio_tokens.shape[-1] % n_codebooks
+    if reminder:
+        audio_tokens = torch.cat([audio_tokens, pad_tokens[reminder:n_codebooks]], dim=0)
+    transposed = audio_tokens.view(-1, n_codebooks).t()
+    codes = transposed.view(n_codebooks, 1, -1).to(device)
+    audio = quantizer.decode(codes).squeeze(0)
+    torch.cuda.empty_cache()
+    xp = str(uuid4())+'.wav'
+    AudioSignal(audio.detach().cpu().numpy(),quantizer.sample_rate).write(xp)
+    return xp
+# Пример использования
+# Функция инференса для текста на входе и аудио на выходе
+def infer_text_to_audio(text, model, tokenizer, quantizer, max_seq_length=1024, top_k=20):
+    text_tokenized = tokenizer(text, return_tensors="pt")
+    text_input_tokens = text_tokenized["input_ids"].to(device)
+    soa = tokenizer(start_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    eoa = tokenizer(end_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    text_tokens = torch.cat([text_input_tokens, soa], dim=1)
+    attention_mask = torch.ones(text_tokens.size(), device=device)
+    output_audio_tokens = model.generate(text_tokens, attention_mask=attention_mask, max_new_tokens=max_seq_length, top_k=top_k, do_sample=True)
+    padding_tokens = get_audio_padding_tokens(quantizer)["audio_tokens"].to(device)
+    audio_signal = decode_audio(output_audio_tokens[0], quantizer, padding_tokens.t()[0], len(tokenizer) - 1024)
+    return audio_signal
+# Функция инференса для аудио на входе и текста на выходе
+def infer_audio_to_text(audio_path, model, tokenizer, quantizer, max_seq_length=1024, top_k=20):
+    audio_data, sample_rate = torchaudio.load(audio_path)
+    audio = audio_data.view(1, 1, -1).float().to(device)
+    codes = quantizer.encode(audio)
+    n_codebooks_a = 1
+    raw_audio_tokens = codes[:, :n_codebooks_a] + len(tokenizer) - 1024
+    soa = tokenizer(start_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    eoa = tokenizer(end_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    audio_tokens = torch.cat([soa, raw_audio_tokens.view(1, -1), eoa], dim=1)
+    attention_mask = torch.ones(audio_tokens.size(), device=device)
+    output_text_tokens = model.generate(audio_tokens, attention_mask=attention_mask, max_new_tokens=max_seq_length, top_k=top_k, do_sample=True)
+    output_text_tokens = output_text_tokens.cpu()[0]
+    output_text_tokens = output_text_tokens[output_text_tokens < tokenizer(start_audio_token)["input_ids"][-1]]
+    decoded_text = tokenizer.decode(output_text_tokens, skip_special_tokens=True)
+    return decoded_text
+# Functions for inference
+def infer_text_to_audio_gr(text):
+    audio_signal = infer_text_to_audio(text.strip().upper(), model, tokenizer, quantizer)
+    return audio_signal
+def infer_audio_to_text_gr(audio_path):
+    generated_text = infer_audio_to_text(audio_path, model, tokenizer, quantizer)
+    return generated_text
+# Gradio Interface
+text_to_audio_interface = gr.Interface(
+    fn=infer_text_to_audio_gr,
+    inputs=gr.Textbox(label="Input Text"),
+    outputs=gr.Audio(label="Аудио Ответ"),
+    title="T2S",
+    description="Модель в режиме ответа в аудио",
+    allow_flagging='never',
+)
+audio_to_text_interface = gr.Interface(
+    fn=infer_audio_to_text_gr,
+    inputs=gr.Audio(type="filepath", label="Input Audio"),
+    outputs=gr.Textbox(label="Текстовый ответ"),
+    title="S2T",
+    description="Модель в режиме ответа в тексте",
+    allow_flagging='never'
+)
+# Launch Gradio App
+demo = gr.TabbedInterface([text_to_audio_interface, audio_to_text_interface], ["Текст - Аудио", "Аудио - Текст"])
+demo.launch(share=True)

.ipynb_checkpoints/requirements-checkpoint.txt ADDED Viewed

	@@ -0,0 +1,251 @@

+absl-py==2.1.0
+accelerate==0.34.2
+aiofiles==23.2.1
+aiohappyeyeballs==2.4.0
+aiohttp==3.10.5
+aiosignal==1.3.1
+annotated-types==0.7.0
+antlr4-python3-runtime==4.9.3
+anyio==4.0.0
+argbind==0.3.9
+argon2-cffi==23.1.0
+argon2-cffi-bindings==21.2.0
+arrow==1.3.0
+asttokens==2.4.1
+async-lru==2.0.4
+async-timeout==4.0.3
+attrs==23.1.0
+audioread==3.0.1
+autobahn==21.11.1
+Automat==20.2.0
+Babel==2.13.1
+base58==1.0.3
+bcrypt==3.2.0
+beartype==0.18.5
+beautifulsoup4==4.12.2
+bitsandbytes==0.43.3
+bleach==6.1.0
+blinker==1.4
+cachetools==5.5.0
+cbor==1.0.0
+certifi==2022.12.7
+cffi==1.16.0
+charset-normalizer==2.1.1
+click==8.1.7
+colorama==0.4.4
+comm==0.2.0
+constantly==15.1.0
+contourpy==1.3.0
+cryptography==3.4.8
+cycler==0.12.1
+Cython==0.29.28
+datasets==2.21.0
+dbus-python==1.2.18
+debugpy==1.8.0
+decorator==5.1.1
+defusedxml==0.7.1
+descript-audiotools @ git+https://github.com/descriptinc/audiotools@7776c296c711db90176a63ff808c26e0ee087263
+dill==0.3.8
+distro==1.7.0
+docstring_parser==0.16
+ecdsa==0.18.0b1
+einops==0.8.0
+entrypoints==0.4
+exceptiongroup==1.1.3
+executing==2.0.1
+fastapi==0.112.4
+fastjsonschema==2.18.1
+ffmpy==0.4.0
+filelock==3.9.0
+fire==0.6.0
+flatbuffers===1.12.1-git20200711.33e2d80-dfsg1-0.6
+flatten-dict==0.4.2
+fonttools==4.53.1
+fqdn==1.5.1
+frozenlist==1.4.1
+fsspec==2024.6.1
+future==1.0.0
+GeoIP==1.3.2
+gradio==4.43.0
+gradio_client==1.3.0
+grpcio==1.66.1
+h11==0.14.0
+hkdf==0.0.3
+httpcore==1.0.5
+httplib2==0.20.2
+httpx==0.27.2
+huggingface-hub==0.24.6
+humanize==0.0.0
+hyperlink==21.0.0
+idna==3.4
+importlib-metadata==4.6.4
+importlib_resources==6.4.5
+incremental==21.3.0
+iotop==0.6
+ipykernel==6.26.0
+ipython==8.17.2
+ipython-genutils==0.2.0
+ipywidgets==8.1.1
+isoduration==20.11.0
+jedi==0.19.1
+jeepney==0.7.1
+Jinja2==3.1.2
+joblib==1.4.2
+json5==0.9.14
+jsonpointer==2.4
+jsonschema==4.19.2
+jsonschema-specifications==2023.7.1
+keyring==23.5.0
+kiwisolver==1.4.7
+launchpadlib==1.10.16
+lazr.restfulclient==0.14.4
+lazr.uri==1.0.6
+lazy_loader==0.4
+librosa==0.10.2.post1
+lion-pytorch==0.2.2
+Markdown==3.7
+markdown-it-py==3.0.0
+markdown2==2.5.0
+MarkupSafe==2.1.2
+matplotlib==3.5.0
+matplotlib-inline==0.1.6
+mdurl==0.1.2
+mistune==3.0.2
+mnemonic==0.19
+more-itertools==8.10.0
+mpmath==1.3.0
+msgpack==1.0.8
+multidict==6.0.5
+multiprocess==0.70.16
+nbclassic==1.0.0
+nbclient==0.9.0
+nbconvert==7.11.0
+nbformat==5.9.2
+nest-asyncio==1.5.8
+networkx==3.0
+notebook==6.5.5
+notebook_shim==0.2.3
+numba==0.60.0
+numpy==1.24.1
+nvidia-ml-py==12.535.161
+nvitop==1.3.2
+oauthlib==3.2.0
+omegaconf==2.3.0
+orjson==3.10.7
+overrides==7.4.0
+packaging==23.2
+pandas==2.2.2
+pandocfilters==1.5.0
+parso==0.8.3
+passlib==1.7.4
+pexpect==4.8.0
+Pillow==9.3.0
+platformdirs==3.11.0
+ply==3.11
+pooch==1.8.2
+prometheus-client==0.18.0
+prompt-toolkit==3.0.39
+protobuf==3.19.6
+psutil==5.9.6
+ptyprocess==0.7.0
+pure-eval==0.2.2
+py-ubjson==0.16.1
+pyarrow==17.0.0
+pyasn1==0.4.8
+pyasn1-modules==0.2.1
+pycparser==2.21
+pydantic==2.9.1
+pydantic_core==2.23.3
+pydub==0.25.1
+Pygments==2.16.1
+PyGObject==3.42.1
+PyHamcrest==2.0.2
+PyJWT==2.3.0
+pyloudnorm==0.1.1
+PyNaCl==1.5.0
+pyOpenSSL==21.0.0
+pyparsing==2.4.7
+pypng==0.0.20
+PyQRCode==1.2.1
+pystoi==0.4.1
+python-apt==2.4.0+ubuntu2
+python-dateutil==2.8.2
+python-json-logger==2.0.7
+python-multipart==0.0.9
+python-snappy==0.5.3
+PyTrie==0.4.0
+pytz==2024.1
+PyYAML==6.0.1
+pyzmq==24.0.1
+randomname==0.2.1
+referencing==0.30.2
+regex==2024.7.24
+requests==2.32.3
+rfc3339-validator==0.1.4
+rfc3986-validator==0.1.1
+rich==13.8.0
+rpds-py==0.12.0
+ruff==0.6.4
+safetensors==0.4.4
+scikit-learn==1.5.1
+scipy==1.14.1
+SecretStorage==3.3.1
+semantic-version==2.10.0
+Send2Trash==1.8.2
+service-identity==18.1.0
+setuptools-scm==8.1.0
+shellingham==1.5.4
+six==1.16.0
+sniffio==1.3.0
+sortedcontainers==2.1.0
+soundfile==0.12.1
+soupsieve==2.5
+soxr==0.5.0.post1
+spake2==0.8
+speechtokenizer==1.0.1
+stack-data==0.6.3
+starlette==0.38.5
+sympy==1.12
+tensorboard==2.17.1
+tensorboard-data-server==0.7.2
+termcolor==2.4.0
+terminado==0.17.1
+threadpoolctl==3.5.0
+tinycss2==1.2.1
+tokenizers==0.19.1
+tomli==2.0.1
+tomlkit==0.12.0
+torch==2.1.0+cu118
+torch-stoi==0.2.1
+torchaudio==2.1.0+cu118
+torchvision==0.16.0+cu118
+tornado==6.3.3
+tqdm==4.66.5
+traitlets==5.13.0
+transformers==4.44.2
+triton==2.1.0
+Twisted==22.1.0
+txaio==21.2.1
+txtorcon==20.0.0
+typer==0.12.5
+types-python-dateutil==2.8.19.14
+typing_extensions==4.12.2
+tzdata==2024.1
+u-msgpack-python==2.3.0
+ujson==5.1.0
+uri-template==1.3.0
+urllib3==2.2.2
+uvicorn==0.30.6
+wadllib==1.3.6
+wcwidth==0.2.9
+webcolors==1.13
+webencodings==0.5.1
+websocket-client==1.6.4
+websockets==12.0
+Werkzeug==3.0.4
+widgetsnbextension==4.0.9
+wsaccel==0.6.3
+xxhash==3.5.0
+yarl==1.9.8
+zipp==1.0.0
+zope.interface==5.4.0

audiotokenizer/SpeechTokenizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d04593b6c9a4b475f91ca481141a6ef5b23e6ac112f347dd2b2717f193c1c728
+size 481906997

audiotokenizer/speechtokenizer_hubert_avg_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+    "resblock": "1",
+    "num_gpus": 3,
+    "batch_size": 60,
+    "learning_rate": 0.0001,
+    "adam_b1": 0.5,
+    "adam_b2": 0.9,
+    "lr_decay": 0.98,
+    "seed": 1234,
+    "lambda_distill": 0.15,
+    "n_filters": 64,
+    "strides": [8,5,4,2],
+    "dimension": 1024,
+    "semantic_dimension": 768,
+    "bidirectional": true,
+    "dilation_base": 2,
+    "residual_kernel_size": 3,
+    "n_residual_layers": 1,
+    "lstm_layers": 2,
+    "activation": "ELU",
+    "segment_size": 48000,
+    "num_mels": 80,
+    "num_freq": 1025,
+    "n_fft": 1024,
+    "hop_size": 240,
+    "win_size": 1024,
+    "sampling_rate": 16000,
+    "sample_rate": 16000,
+    "codebook_size": 1024,
+    "n_q": 8,
+    "fmin": 0,
+    "fmax": 8000,
+    "fmax_for_loss": null,
+    "num_workers": 12,
+    "dist_config": {
+        "dist_backend": "nccl",
+        "dist_url": "tcp://localhost:54322",
+        "world_size": 1
+    }
+}

main.py ADDED Viewed

	@@ -0,0 +1,186 @@

+import gradio as gr
+import torch
+import torchaudio
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from speechtokenizer import SpeechTokenizer
+from audiotools import AudioSignal
+import bitsandbytes as bnb  # Import bitsandbytes for INT8 quantization
+import numpy as np
+from uuid import uuid4
+# Load the necessary models and tokenizers
+model_path = "Vikhrmodels/llama_asr_tts_24000"
+tokenizer = AutoTokenizer.from_pretrained(model_path, cache_dir=".")
+# Специальные токены
+start_audio_token = "<soa>"
+end_audio_token = "<eoa>"
+end_sequence_token = "<eos>"
+# Константы
+n_codebooks = 3
+max_seq_length = 1024
+top_k = 20
+from safetensors.torch import load_file
+def convert_to_16_bit_wav(data):
+    # Based on: https://docs.scipy.org/doc/scipy/reference/generated/scipy.io.wavfile.write.html
+    # breakpoint()
+    if data.dtype == np.float32:
+        # warnings.warn(
+        #     "Audio data is not in 16-bit integer format."
+        #     "Trying to convert to 16-bit int format."
+        # )
+        data = data / np.abs(data).max()
+        data = data * 32767
+        data = data.astype(np.int16)
+    elif data.dtype == np.int32:
+        # warnings.warn(
+        #     "Audio data is not in 16-bit integer format."
+        #     "Trying to convert to 16-bit int format."
+        # )
+        data = data / 65538
+        data = data.astype(np.int16)
+    elif data.dtype == np.int16:
+        pass
+    elif data.dtype == np.uint8:
+        # warnings.warn(
+        #     "Audio data is not in 16-bit integer format."
+        #     "Trying to convert to 16-bit int format."
+        # )
+        data = data * 257 - 32768
+        data = data.astype(np.int16)
+    else:
+        raise ValueError("Audio data cannot be converted to " "16-bit int format.")
+    return data
+# Load the model with INT8 quantization
+model = AutoModelForCausalLM.from_pretrained(
+    model_path,
+    cache_dir=".",
+    load_in_8bit=True,  # Enable loading in INT8
+    device_map="auto"  # Automatically map model to available devices
+)
+# Configurations for Speech Tokenizer
+config_path = "audiotokenizer/speechtokenizer_hubert_avg_config.json"
+ckpt_path = "audiotokenizer/SpeechTokenizer.pt"
+quantizer = SpeechTokenizer.load_from_checkpoint(config_path, ckpt_path)
+quantizer.eval()
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# Перемещение всех слоев квантизатора на устройство и их заморозка
+def freeze_entire_model(model):
+    for n, p in model.named_parameters():
+        p.requires_grad = False
+    return model
+for n, child in quantizer.named_children():
+    child.to(device)
+    child = freeze_entire_model(child)
+# Функция для создания токенов заполнения для аудио
+def get_audio_padding_tokens(quantizer):
+    audio = torch.zeros((1, 1, 1)).to(device)
+    codes = quantizer.encode(audio)
+    del audio
+    torch.cuda.empty_cache()
+    return {"audio_tokens": codes.squeeze(1)}
+# Функция для декодирования аудио из токенов
+def decode_audio(tokens, quantizer, pad_tokens, n_original_tokens):
+    start = torch.nonzero(tokens == tokenizer(start_audio_token)["input_ids"][-1])
+    end = torch.nonzero(tokens == tokenizer(end_audio_token)["input_ids"][-1])
+    start = start[0, -1] + 1 if len(start) else 0
+    end = end[0, -1] if len(end) else tokens.shape[-1]
+    audio_tokens = tokens[start:end] % n_original_tokens
+    reminder = audio_tokens.shape[-1] % n_codebooks
+    if reminder:
+        audio_tokens = torch.cat([audio_tokens, pad_tokens[reminder:n_codebooks]], dim=0)
+    transposed = audio_tokens.view(-1, n_codebooks).t()
+    codes = transposed.view(n_codebooks, 1, -1).to(device)
+    audio = quantizer.decode(codes).squeeze(0)
+    torch.cuda.empty_cache()
+    xp = str(uuid4())+'.wav'
+    AudioSignal(audio.detach().cpu().numpy(),quantizer.sample_rate).write(xp)
+    return xp
+# Пример использования
+# Функция инференса для текста на входе и аудио на выходе
+def infer_text_to_audio(text, model, tokenizer, quantizer, max_seq_length=1024, top_k=20):
+    text_tokenized = tokenizer(text, return_tensors="pt")
+    text_input_tokens = text_tokenized["input_ids"].to(device)
+    soa = tokenizer(start_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    eoa = tokenizer(end_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    text_tokens = torch.cat([text_input_tokens, soa], dim=1)
+    attention_mask = torch.ones(text_tokens.size(), device=device)
+    output_audio_tokens = model.generate(text_tokens, attention_mask=attention_mask, max_new_tokens=max_seq_length, top_k=top_k, do_sample=True)
+    padding_tokens = get_audio_padding_tokens(quantizer)["audio_tokens"].to(device)
+    audio_signal = decode_audio(output_audio_tokens[0], quantizer, padding_tokens.t()[0], len(tokenizer) - 1024)
+    return audio_signal
+# Функция инференса для аудио на входе и текста на выходе
+def infer_audio_to_text(audio_path, model, tokenizer, quantizer, max_seq_length=1024, top_k=20):
+    audio_data, sample_rate = torchaudio.load(audio_path)
+    audio = audio_data.view(1, 1, -1).float().to(device)
+    codes = quantizer.encode(audio)
+    n_codebooks_a = 1
+    raw_audio_tokens = codes[:, :n_codebooks_a] + len(tokenizer) - 1024
+    soa = tokenizer(start_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    eoa = tokenizer(end_audio_token, return_tensors="pt")["input_ids"][:, -1:].to(device)
+    audio_tokens = torch.cat([soa, raw_audio_tokens.view(1, -1), eoa], dim=1)
+    attention_mask = torch.ones(audio_tokens.size(), device=device)
+    output_text_tokens = model.generate(audio_tokens, attention_mask=attention_mask, max_new_tokens=max_seq_length, top_k=top_k, do_sample=True)
+    output_text_tokens = output_text_tokens.cpu()[0]
+    output_text_tokens = output_text_tokens[output_text_tokens < tokenizer(start_audio_token)["input_ids"][-1]]
+    decoded_text = tokenizer.decode(output_text_tokens, skip_special_tokens=True)
+    return decoded_text
+# Functions for inference
+def infer_text_to_audio_gr(text):
+    audio_signal = infer_text_to_audio(text.strip().upper(), model, tokenizer, quantizer)
+    return audio_signal
+def infer_audio_to_text_gr(audio_path):
+    generated_text = infer_audio_to_text(audio_path, model, tokenizer, quantizer)
+    return generated_text
+# Gradio Interface
+text_to_audio_interface = gr.Interface(
+    fn=infer_text_to_audio_gr,
+    inputs=gr.Textbox(label="Input Text"),
+    outputs=gr.Audio(label="Аудио Ответ"),
+    title="T2S",
+    description="Модель в режиме ответа в аудио",
+    allow_flagging='never',
+)
+audio_to_text_interface = gr.Interface(
+    fn=infer_audio_to_text_gr,
+    inputs=gr.Audio(type="filepath", label="Input Audio"),
+    outputs=gr.Textbox(label="Текстовый ответ"),
+    title="S2T",
+    description="Модель в режиме ответа в тексте",
+    allow_flagging='never'
+)
+# Launch Gradio App
+demo = gr.TabbedInterface([text_to_audio_interface, audio_to_text_interface], ["Текст - Аудио", "Аудио - Текст"])
+demo.launch(share=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,251 @@

+absl-py==2.1.0
+accelerate==0.34.2
+aiofiles==23.2.1
+aiohappyeyeballs==2.4.0
+aiohttp==3.10.5
+aiosignal==1.3.1
+annotated-types==0.7.0
+antlr4-python3-runtime==4.9.3
+anyio==4.0.0
+argbind==0.3.9
+argon2-cffi==23.1.0
+argon2-cffi-bindings==21.2.0
+arrow==1.3.0
+asttokens==2.4.1
+async-lru==2.0.4
+async-timeout==4.0.3
+attrs==23.1.0
+audioread==3.0.1
+autobahn==21.11.1
+Automat==20.2.0
+Babel==2.13.1
+base58==1.0.3
+bcrypt==3.2.0
+beartype==0.18.5
+beautifulsoup4==4.12.2
+bitsandbytes==0.43.3
+bleach==6.1.0
+blinker==1.4
+cachetools==5.5.0
+cbor==1.0.0
+certifi==2022.12.7
+cffi==1.16.0
+charset-normalizer==2.1.1
+click==8.1.7
+colorama==0.4.4
+comm==0.2.0
+constantly==15.1.0
+contourpy==1.3.0
+cryptography==3.4.8
+cycler==0.12.1
+Cython==0.29.28
+datasets==2.21.0
+dbus-python==1.2.18
+debugpy==1.8.0
+decorator==5.1.1
+defusedxml==0.7.1
+descript-audiotools @ git+https://github.com/descriptinc/audiotools@7776c296c711db90176a63ff808c26e0ee087263
+dill==0.3.8
+distro==1.7.0
+docstring_parser==0.16
+ecdsa==0.18.0b1
+einops==0.8.0
+entrypoints==0.4
+exceptiongroup==1.1.3
+executing==2.0.1
+fastapi==0.112.4
+fastjsonschema==2.18.1
+ffmpy==0.4.0
+filelock==3.9.0
+fire==0.6.0
+flatbuffers===1.12.1-git20200711.33e2d80-dfsg1-0.6
+flatten-dict==0.4.2
+fonttools==4.53.1
+fqdn==1.5.1
+frozenlist==1.4.1
+fsspec==2024.6.1
+future==1.0.0
+GeoIP==1.3.2
+gradio==4.43.0
+gradio_client==1.3.0
+grpcio==1.66.1
+h11==0.14.0
+hkdf==0.0.3
+httpcore==1.0.5
+httplib2==0.20.2
+httpx==0.27.2
+huggingface-hub==0.24.6
+humanize==0.0.0
+hyperlink==21.0.0
+idna==3.4
+importlib-metadata==4.6.4
+importlib_resources==6.4.5
+incremental==21.3.0
+iotop==0.6
+ipykernel==6.26.0
+ipython==8.17.2
+ipython-genutils==0.2.0
+ipywidgets==8.1.1
+isoduration==20.11.0
+jedi==0.19.1
+jeepney==0.7.1
+Jinja2==3.1.2
+joblib==1.4.2
+json5==0.9.14
+jsonpointer==2.4
+jsonschema==4.19.2
+jsonschema-specifications==2023.7.1
+keyring==23.5.0
+kiwisolver==1.4.7
+launchpadlib==1.10.16
+lazr.restfulclient==0.14.4
+lazr.uri==1.0.6
+lazy_loader==0.4
+librosa==0.10.2.post1
+lion-pytorch==0.2.2
+Markdown==3.7
+markdown-it-py==3.0.0
+markdown2==2.5.0
+MarkupSafe==2.1.2
+matplotlib==3.5.0
+matplotlib-inline==0.1.6
+mdurl==0.1.2
+mistune==3.0.2
+mnemonic==0.19
+more-itertools==8.10.0
+mpmath==1.3.0
+msgpack==1.0.8
+multidict==6.0.5
+multiprocess==0.70.16
+nbclassic==1.0.0
+nbclient==0.9.0
+nbconvert==7.11.0
+nbformat==5.9.2
+nest-asyncio==1.5.8
+networkx==3.0
+notebook==6.5.5
+notebook_shim==0.2.3
+numba==0.60.0
+numpy==1.24.1
+nvidia-ml-py==12.535.161
+nvitop==1.3.2
+oauthlib==3.2.0
+omegaconf==2.3.0
+orjson==3.10.7
+overrides==7.4.0
+packaging==23.2
+pandas==2.2.2
+pandocfilters==1.5.0
+parso==0.8.3
+passlib==1.7.4
+pexpect==4.8.0
+Pillow==9.3.0
+platformdirs==3.11.0
+ply==3.11
+pooch==1.8.2
+prometheus-client==0.18.0
+prompt-toolkit==3.0.39
+protobuf==3.19.6
+psutil==5.9.6
+ptyprocess==0.7.0
+pure-eval==0.2.2
+py-ubjson==0.16.1
+pyarrow==17.0.0
+pyasn1==0.4.8
+pyasn1-modules==0.2.1
+pycparser==2.21
+pydantic==2.9.1
+pydantic_core==2.23.3
+pydub==0.25.1
+Pygments==2.16.1
+PyGObject==3.42.1
+PyHamcrest==2.0.2
+PyJWT==2.3.0
+pyloudnorm==0.1.1
+PyNaCl==1.5.0
+pyOpenSSL==21.0.0
+pyparsing==2.4.7
+pypng==0.0.20
+PyQRCode==1.2.1
+pystoi==0.4.1
+python-apt==2.4.0+ubuntu2
+python-dateutil==2.8.2
+python-json-logger==2.0.7
+python-multipart==0.0.9
+python-snappy==0.5.3
+PyTrie==0.4.0
+pytz==2024.1
+PyYAML==6.0.1
+pyzmq==24.0.1
+randomname==0.2.1
+referencing==0.30.2
+regex==2024.7.24
+requests==2.32.3
+rfc3339-validator==0.1.4
+rfc3986-validator==0.1.1
+rich==13.8.0
+rpds-py==0.12.0
+ruff==0.6.4
+safetensors==0.4.4
+scikit-learn==1.5.1
+scipy==1.14.1
+SecretStorage==3.3.1
+semantic-version==2.10.0
+Send2Trash==1.8.2
+service-identity==18.1.0
+setuptools-scm==8.1.0
+shellingham==1.5.4
+six==1.16.0
+sniffio==1.3.0
+sortedcontainers==2.1.0
+soundfile==0.12.1
+soupsieve==2.5
+soxr==0.5.0.post1
+spake2==0.8
+speechtokenizer==1.0.1
+stack-data==0.6.3
+starlette==0.38.5
+sympy==1.12
+tensorboard==2.17.1
+tensorboard-data-server==0.7.2
+termcolor==2.4.0
+terminado==0.17.1
+threadpoolctl==3.5.0
+tinycss2==1.2.1
+tokenizers==0.19.1
+tomli==2.0.1
+tomlkit==0.12.0
+torch==2.1.0+cu118
+torch-stoi==0.2.1
+torchaudio==2.1.0+cu118
+torchvision==0.16.0+cu118
+tornado==6.3.3
+tqdm==4.66.5
+traitlets==5.13.0
+transformers==4.44.2
+triton==2.1.0
+Twisted==22.1.0
+txaio==21.2.1
+txtorcon==20.0.0
+typer==0.12.5
+types-python-dateutil==2.8.19.14
+typing_extensions==4.12.2
+tzdata==2024.1
+u-msgpack-python==2.3.0
+ujson==5.1.0
+uri-template==1.3.0
+urllib3==2.2.2
+uvicorn==0.30.6
+wadllib==1.3.6
+wcwidth==0.2.9
+webcolors==1.13
+webencodings==0.5.1
+websocket-client==1.6.4
+websockets==12.0
+Werkzeug==3.0.4
+widgetsnbextension==4.0.9
+wsaccel==0.6.3
+xxhash==3.5.0
+yarl==1.9.8
+zipp==1.0.0
+zope.interface==5.4.0