GGUF(GPT-Generated Unified Format)是一种专为大型语言模型设计的二进制文件格式,由Hugging Face团队开发,旨在通过量化技术实现模型的高效压缩与跨平台部署。其核心是通过降低参数精度(如4-bit量化)减少内存占用,例如70亿参数模型从FP16的14GB压缩至Q4_K_M的3.5GB。GGUF支持混合精度量化(如Q4_K_M平衡速度与精度)和硬件优化(如AVX2指令集加速),在CPU上推理速度可达22.4 tokens/s(7B模型)。文件内嵌元数据(模型架构、量化参数等),无需额外配置即可加载,并兼容多平台(x86/ARM)及工具链(如`
llama.cpp `转换与推理)。相比前身GGML,GGUF解决了扩展性差、元数据缺失等问题,成为边缘设备(如树莓派)和隐私敏感场景的首选格式。