Vision API SOP

⚠️ 前置规则（必须遵守）

先枚举窗口：调用 vision 前必须先用 pygetwindow 枚举窗口标题，确认目标窗口存在且已激活到前台。窗口不存在就不要截图。
🚫 禁止全屏截图：必须先利用ljqCtrl截取窗口区域。能截局部（如标题栏）就不截整窗口，能截窗口就绝不全屏。全屏截图在任何场景下都不允许。
能不用 vision 就不用：如果窗口标题/本地 OCR（ocr_utils.py）能获取所需信息，就不要调用 vision API，省 token 且更可靠。Vision 是最后手段。

快速用法

from vision_api import ask_vision
result = ask_vision(image, prompt="描述图片内容", backend="claude", timeout=60, max_pixels=1_440_000)
# image: 文件路径(str/Path) 或 PIL Image
# backend: 'claude'(默认) | 'openai' | 'modelscope'
# 返回 str：成功为模型回复，失败为 'Error: ...'

如果没有 `vision_api.py`，初次构建vision能力

复制 memory/vision_api.template.py → memory/vision_api.py
只改头部"用户配置区"：去 mykey.py 里扫描变量名（⚠️ 只看名字，禁止输出 apikey 值），尝试找能用配置名填入 CLAUDE_CONFIG_KEY / OPENAI_CONFIG_KEY，DEFAULT_BACKEND 选后端，并测试
保底：没有可用 config 时去 https://modelscope.cn/my/myaccesstoken 申请 token 填入 MODELSCOPE_API_KEY

Vision API 使用规范

Vision API SOP

⚠️ 前置规则（必须遵守）

快速用法

如果没有 `vision_api.py`，初次构建vision能力

评论（0）

Vision API SOP

⚠️ 前置规则（必须遵守）

快速用法

如果没有 vision_api.py，初次构建vision能力

评论（0）

如果没有 `vision_api.py`，初次构建vision能力