Comment on: No Difference in tokens/sec - Ministral3 8B Q5_K_M
Repo: TheTom/turboquant_plus by zrlhk
这个只是对kv缓存压缩,所以只是提升了最大推理上下文的大小。对模型量化压缩和推理速度,是没有提升的。
原来10G显存,如果是一个9b模型,最大上下文128k可能就OOM了。现在压缩后,就可以支持128k上下文了。
GitHub Issue
SaaS Metrics