[Feature] 建議讓 local backend 的 prompt 前綴保持「熱機」,避免每次都重新做 cold-session prefill
本機 llama.cpp / vLLM 類伺服器只有在新請求與先前快取狀態的 prompt 前綴完全一致時才能重複使用 KV 快取,否則每個新 session 都要重新處理共用前綴(通常 1~2 萬 token),造成延遲。提案是新增一個選用的 gateway watcher,定期重放最小化請求讓共用前綴保持在快取中;作者提到此功能已在另一個 PR(#57019)實作並運作中。