使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.
测试环境: ubuntu22.04 x86+llama.cpp
cpu intel 10750h 4.41 tokens / s
|   model  |   size  |   params  |   backend  |   threads  |   test  |   t/s  | 
|   qwen2 7B Q5_K - Medium  |   5.07 GiB  |   7.62 B  |   CPU  |   6  |   pp512  |   15.70 ± 0.40  | 
|   qwen2 7B Q5_K - Medium  |   5.07 GiB  |   7.62 B  |   CPU  |   6  |   tg128  |   4.41 ± 0.03  | 
使用-t 12扩展到12线程,速度也没有明显变化.
gpu nvidia 1660, 生成速度36 tokens / s.
|   model  |   size  |   params  |   backend  |   ngl  |   test  |   t/s  | 
|   qwen2 7B Q5_K - Medium  |   5.07 GiB  |   7.62 B  |   CUDA  |   30  |   pp512  |   164.55 ± 0.03  | 
|   qwen2 7B Q5_K - Medium  |   5.07 GiB  |   7.62 B  |   CUDA  |   30  |   tg128  |   36.38 ± 0.02  |