wolfram
/

QVQ-72B-Preview-4.65bpw-h6-exl2

Image-Text-to-Text

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

wolfram commited on 21 days ago

Commit

be696a5

·

verified ·

1 Parent(s): 47c8fe3

Update README.md

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -10,7 +10,8 @@ tags:
   - chat
 library_name: transformers
 ---
 # QVQ-72B-Preview

   - chat
 library_name: transformers
 ---
+> [!NOTE]
+> EXL2 4.65bpw-h6 quantized version of [Qwen/QVQ-72B-Preview](https://huggingface.co/Qwen/QVQ-72B-Preview). Supports 32K context with Q4 cache on systems with 48 GB VRAM.
 # QVQ-72B-Preview