markIA23 commited on
Commit
6a50f87
1 Parent(s): 0c1bc5b

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +10 -2
app.py CHANGED
@@ -1,6 +1,6 @@
1
  import os
2
  from huggingface_hub import login
3
- from transformers import AutoModelForCausalLM, AutoTokenizer
4
  import gradio as gr
5
 
6
  # Obtén el token desde la variable de entorno
@@ -12,10 +12,17 @@ if hf_token:
12
  else:
13
  raise ValueError("Hugging Face token no encontrado. Asegúrate de que la variable de entorno HF_TOKEN esté configurada.")
14
 
 
 
 
15
  # Cargar el modelo y tokenizador
16
  model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
17
  tokenizer = AutoTokenizer.from_pretrained(model_id)
18
- model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
 
 
 
 
19
 
20
  # Definir la función de inferencia del chatbot
21
  def chat_fn(multimodal_message):
@@ -70,3 +77,4 @@ with gr.Blocks() as demo:
70
  if __name__ == "__main__":
71
  demo.launch()
72
 
 
 
1
  import os
2
  from huggingface_hub import login
3
+ from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
4
  import gradio as gr
5
 
6
  # Obtén el token desde la variable de entorno
 
12
  else:
13
  raise ValueError("Hugging Face token no encontrado. Asegúrate de que la variable de entorno HF_TOKEN esté configurada.")
14
 
15
+ # Configuración para cargar el modelo en 4 bits utilizando bitsandbytes
16
+ bnb_config = BitsAndBytesConfig(load_in_4bit=True)
17
+
18
  # Cargar el modelo y tokenizador
19
  model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
20
  tokenizer = AutoTokenizer.from_pretrained(model_id)
21
+ model = AutoModelForCausalLM.from_pretrained(
22
+ model_id,
23
+ device_map="auto",
24
+ quantization_config=bnb_config # Aplicar cuantización en 4 bits
25
+ )
26
 
27
  # Definir la función de inferencia del chatbot
28
  def chat_fn(multimodal_message):
 
77
  if __name__ == "__main__":
78
  demo.launch()
79
 
80
+