hugging-quants
/

Meta-Llama-3.1-70B-Instruct-AWQ-INT4

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

reach-vb HF staff commited on Jul 24

Commit

2070b49

•

1 Parent(s): cdc64fd

Update README.md

Files changed (1) hide show

README.md +8 -1

README.md CHANGED Viewed

@@ -45,15 +45,22 @@ To run the inference on top of Llama 3.1 70B Instruct AWQ in INT4 precision, the
 ```python
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
   model_id,
   torch_dtype=torch.float16,
   low_cpu_mem_usage=True,
   device_map="auto",
 )
 prompt = [

 ```python
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, AwqConfig
 model_id = "hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4"
+quantization_config = AwqConfig(
+    bits=4,
+    fuse_max_seq_len=512, # Note: Update this as per your use-case
+    do_fuse=True,
+)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
   model_id,
   torch_dtype=torch.float16,
   low_cpu_mem_usage=True,
   device_map="auto",
+  quantization_config=quantization_config
 )
 prompt = [