Vision

1 post

2026年4月3日18 min readAI

大模型是怎么"看懂"图片的？——多模态视觉理解全解析

从 Vision Transformer 的切片机制，到视觉与语言的桥梁，再到不同类型图片的识别原理，全面解析多模态大模型的视觉理解能力。

LLM AI 多模态 Vision