[Feature] 建議讓 local backend 的 prompt 前綴保持「熱機」，避免每次都重新做 cold-session prefill

#58192 討論中 P3 comp/agent

[Feature] 建議讓 local backend 的 prompt 前綴保持「熱機」，避免每次都重新做 cold-session prefill

本機 llama.cpp / vLLM 類伺服器只有在新請求與先前快取狀態的 prompt 前綴完全一致時才能重複使用 KV 快取，否則每個新 session 都要重新處理共用前綴（通常 1~2 萬 token），造成延遲。提案是新增一個選用的 gateway watcher，定期重放最小化請求讓共用前綴保持在快取中；作者提到此功能已在另一個 PR（#57019）實作並運作中。