基于 llama.cpp 实现的 C++ 本地大模型 CPU 推理工程,封装通用模型加载、流式对话能力,支持 GGUF 量化模型本地部署,可拓展多轮对话、HTTP 推理服务。 About 基于 llama.cpp 实现的 C++ 本地大模型 CPU 推理工程,封装通用模型加载、流式对话能力,支持 GGUF 量化模型 ...