Comment on: No Difference in tokens/sec - Ministral3 8B Q5_K_M

Repo: TheTom/turboquant_plus by zrlhk

Posted: Mar 31, 2026

这个只是对kv缓存压缩，所以只是提升了最大推理上下文的大小。对模型量化压缩和推理速度，是没有提升的。原来10G显存，如果是一个9b模型，最大上下文128k可能就OOM了。现在压缩后，就可以支持128k上下文了。

GitHub Issue

Parent Entity

State: Open • Comments: 3

Other Comments / Reviews