功能提案:為具視覺能力的主模型提供原生 Vision 支援,附參考實作與相關 bug 發現
提案指出 Hermes 目前所有影像分析都會繞道經過輔助視覺模型(如 qwen3-vl),即使主模型本身具備原生視覺能力(如 gpt-4o、glm-5v-turbo、claude-sonnet-4)也是如此,造成額外延遲、成本與資訊流失;回報者提供了一套修改 4 個檔案的原生 vision bypass 參考實作,並在過程中發現了多個會影響任何多模態內容的 pipeline 問題。
提案指出 Hermes 目前所有影像分析都會繞道經過輔助視覺模型(如 qwen3-vl),即使主模型本身具備原生視覺能力(如 gpt-4o、glm-5v-turbo、claude-sonnet-4)也是如此,造成額外延遲、成本與資訊流失;回報者提供了一套修改 4 個檔案的原生 vision bypass 參考實作,並在過程中發現了多個會影響任何多模態內容的 pipeline 問題。