[Feature] 延遲載入工具 Schema:用兩階段注入減少 Token 開銷
此 issue 指出目前每次 API 呼叫都會把所有啟用 toolset 的完整工具 schema 一次注入,在啟用 50 多個工具(terminal、file、web、browser、delegate、vision、memory 等)時,每次呼叫大約會多耗 3,500 到 5,000 個 token,即使該次對話根本用不到這些工具。作者引用另一則 issue 的實測數據,指出在本機模型上帶工具格式的 prompt 處理速度比純文字慢 10 倍(8 個工具下 1,230 tok/s 對比 134 tok/s)。提案是採用兩階段延遲載入:第一階段每次呼叫只送工具名稱與一行說明,第二階段等模型指定要用某個工具後,才在後續呼叫中送出完整 schema。