Spaces:

sagar007
/

lama_storm_8b

Sleeping

sagar007 commited on Aug 28

Commit

fcba473

•

1 Parent(s): 57d039c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,10 +2,6 @@ import gradio as gr
 import spaces
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
-import subprocess
-# Install flash-attn
-subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 # Load the model and tokenizer
 model_name = "akjindal53244/Llama-3.1-Storm-8B"
@@ -13,7 +9,6 @@ tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     torch_dtype=torch.bfloat16,
-    use_flash_attention_2=True,
     device_map="auto"
 )
@@ -25,7 +20,7 @@ def generate_text(prompt, max_length, temperature):
     ]
     formatted_prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
-    inputs = tokenizer(formatted_prompt, return_tensors="pt").to("cuda")
     outputs = model.generate(
         **inputs,

 import spaces
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 # Load the model and tokenizer
 model_name = "akjindal53244/Llama-3.1-Storm-8B"
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     torch_dtype=torch.bfloat16,
     device_map="auto"
 )
     ]
     formatted_prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
+    inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,