sglang

优化点

  1. transfer.cu 把内存布局转化和拷贝用 cuda 实现

  2. offloading 用页为单位传输 VRAM 里面是层优先

  3. 分层加载