这个原理的核心,是巧妙地利用单次卷积操作,同时实现“切块”和“特征提取”两个任务。

对于一张 224×224×3224 \times 224 \times 3224×224×3 的RGB图像,我们的目标是得到 14×1414 \times 1414×14 个图像块 (Patch) 的嵌入向量。为此,我们设计一个卷积层,让其参数与Patch的属性完美对齐:

卷积核大小 (Kernel Size): 设为 16×1616 \times 1616×16。这确保了卷积核的“视野”恰好覆盖一整个Patch。

步长 (Stride): 设为 16。这是最关键的一步,它让卷积核在计算完一个Patch后,直接“跳”到下一个不重叠的Patch上。

卷积核数量 (Kernel Count): 设为 768。这决定了每个Patch最终生成的嵌入向量维度。

当这768个 16×16×316 \times 16 \times 316×16×3 的卷积核以16的步长滑过整个图像时,其输出就是一个 14×14×76814 \times 14 \times 76814×14×768 的特征图。在这个特征图中,每一个 1×1×7681 \times 1 \times 7681×1×768 的向量,都精确地对应着原图中一个 16×1616 \times 1616×16 Patch的嵌入表示 (Embedding)。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐