ROIpad ← Back to Search
github.com › issue comment

Comment on: No Difference in tokens/sec - Ministral3 8B Q5_K_M

Repo: TheTom/turboquant_plus by zrlhk
Posted: Mar 31, 2026
这个只是对kv缓存压缩,所以只是提升了最大推理上下文的大小。对模型量化压缩和推理速度,是没有提升的。 原来10G显存,如果是一个9b模型,最大上下文128k可能就OOM了。现在压缩后,就可以支持128k上下文了。
GitHub Issue
Parent Entity
State: Open • Comments: 3
Other Comments / Reviews