Clip | Jeanphilo Blog

对比学习损失函数系列（4/4）：CLIP 对比学习目标

副标题 / 摘要 CLIP 把图像与文本放到同一嵌入空间，用双向 InfoNCE 进行对齐。本文从损失函数视角梳理 CLIP 的训练目标，并给出最小可运行示例。预计阅读时长：14~18 分钟标签：clip、multimodal、contrastive-learning SEO 关键词：CLIP, 对比学习, 多模态, InfoNCE 元描述：从损失函数角度拆解 CLIP 的双向对齐目标与工程应用。系列导航（1/4）对比损失 Contrastive Loss （2/4）三元组损失 Triplet Loss （3/4）InfoNCE + SimCLR （4/4）CLIP 对比学习目标（本文）目标读者想理解 CLIP 训练目标与公式的读者需要在工程中使用图文对齐模型的实践者希望把对比学习扩展到多模态的开发者背景 / 动机相比单模态对比学习，CLIP 的挑战在于“跨模态对齐”。只要目标函数对齐得当，图像与文本就能通过相似度统一度量。核心概念图像/文本编码器：分别把图像与文本映射为向量。双向对齐：图像检索文本 + 文本检索图像。温度参数：控制相似度分布的尖锐程度。 A — Algorithm（题目与算法）用通俗语言说明主题内容 CLIP 的损失可以理解为“图像-文本的双向匹配”。在一个 batch 中，正确图文对要排在最前面。基础示例（1）图像：一只狗文本：“a photo of a dog” 与 “a red car” 目标：图像与狗文本更相近基础示例（2）在相似度矩阵中，对角线应该最大。实践指南 / 步骤图像与文本分别编码成向量。 L2 归一化，计算相似度矩阵。用双向交叉熵训练（图像检索文本 + 文本检索图像）。监控相似度矩阵是否“对角线突出”。可运行示例（最小 CLIP 损失） import torch import torch.nn.functional as F torch.manual_seed(42) N, D = 4, 8 image = F.normalize(torch.randn(N, D), dim=-1) text = F.normalize(torch.randn(N, D), dim=-1) logits = image @ text.T / 0.07 labels = torch.arange(N) loss_i = F.cross_entropy(logits, labels) loss_t = F.cross_entropy(logits.T, labels) loss = (loss_i + loss_t) / 2 print(loss.item()) C — Concepts（核心思想）方法类型 CLIP 属于多模态对比学习，核心是对齐图像与文本的共享嵌入空间。 ...

CLIP 系列（1/3）：原理与对比学习公式——多模态对齐的核心机制

副标题 / 摘要 CLIP 通过对比学习把图像与文本映射到同一嵌入空间。本文以数学公式为主线，解释训练目标、损失函数与相似度计算，帮助你掌握多模态对齐的核心机制。预计阅读时长：15~20 分钟标签：clip、contrastive-learning、multimodal、infonce SEO 关键词：CLIP, 对比学习, 多模态, InfoNCE, 图文对齐元描述：用公式与直觉讲清 CLIP 的对比学习目标、相似度计算与嵌入空间设计。系列导航（1/3）原理与对比学习公式（本文）（2/3）PyTorch 完整可复现实战（3/3）工程化与优化目标读者想系统理解 CLIP 原理与数学目标的初学者需要把对比学习迁移到工程场景的中级开发者想搭建多模态系统、关注检索与零样本分类的应用型读者背景 / 动机传统图像分类需要固定标签集，而现实世界的描述更自然地以语言表达。 CLIP 的价值在于把视觉与语言放到同一空间里，通过相似度完成“检索”和“分类”，让模型具备零样本泛化能力。要理解 CLIP，核心不是“模型多大”，而是对比学习目标如何让图文对齐。核心概念对比学习（Contrastive Learning）：让“正样本对”更近，“负样本对”更远。共享嵌入空间：图像与文本映射到同一向量空间，用相似度统一度量。温度参数（Temperature）：控制相似度分布的“尖锐度”，影响训练稳定性。对称目标：图像检索文本 + 文本检索图像，双向一致。 A — Algorithm（题目与算法）用通俗语言说明主题内容 CLIP 做的事很直接：用图像编码器把图片变成向量 v_i。用文本编码器把描述变成向量 t_i。在同一个空间里对齐 v_i 与 t_i，用相似度度量它们“匹配”的程度。训练时让正确配对的图文更近、错误配对更远。基础示例（1）图片：一只狗文本 A：“一只狗在草地上” 文本 B：“一辆红色汽车” 训练后应满足：sim(图像, 文本A) > sim(图像, 文本B)。 ...

CLIP 系列（2/3）：PyTorch 完整可复现实战——从数据到训练闭环

副标题 / 摘要这篇文章给出一个“最小但完整”的 CLIP 训练闭环：CIFAR-10 图像 + 文本提示，配套可直接运行的 PyTorch 脚本，确保你可以本地复现训练与零样本分类。预计阅读时长：20~25 分钟标签：clip、pytorch、reproducible、cifar10 SEO 关键词：CLIP, PyTorch, 可复现, CIFAR10, 对比学习元描述：从数据准备到训练与评估，给出完整可复现的 CLIP PyTorch 实战脚本。系列导航（1/3）原理与对比学习公式（2/3）PyTorch 完整可复现实战（本文）（3/3）工程化与优化目标读者想跑通 CLIP 训练闭环的初学者需要可复现实验模板的工程实践者希望基于 PyTorch 做多模态原型验证的读者背景 / 动机 CLIP 的训练流程看起来简单，但“可复现”很难：缺数据、缺脚本、缺评估，导致很多实验停在“理论上懂了”。本篇用一个小数据集闭环复现，优先保证你能在本地跑起来。核心概念可复现性：固定随机种子、控制数据划分与预处理。弱标注文本：用类名构造文本提示，模拟图文对齐。对比损失：双向交叉熵 + 温度参数。零样本评估：用文本提示作为“类别描述”进行分类。 A — Algorithm（题目与算法）训练闭环的核心流程为每张图像生成文本提示（如 a photo of a cat）。图像与文本分别编码成向量并归一化。计算相似度矩阵并用对比损失训练。推理时用“文本提示集合”做零样本分类。基础示例（1）图像：一只猫文本提示集合：cat, dog, car 目标：相似度最高的提示即为预测类别基础示例（2）同一 batch 内，对角线是“正确图文对” 训练目标：对角线最大化，非对角线最小化实践指南 / 步骤创建环境并安装依赖： python -m venv .venv source .venv/bin/activate pip install torch torchvision tqdm 把下面脚本保存为 clip_cifar10.py。运行训练（推荐 GPU）： python clip_cifar10.py --epochs 10 --batch-size 256 --device cuda 观察输出：loss 逐步下降，零样本准确率逐步上升。可运行示例（完整 PyTorch 脚本） import argparse import math import random import numpy as np import torch import torch.nn as nn import torch.nn.functional as F from torch.utils.data import Dataset, DataLoader from torchvision import datasets, transforms, models from tqdm import tqdm CIFAR10_CLASSES = [ "airplane", "automobile", "bird", "cat", "deer", "dog", "frog", "horse", "ship", "truck" ] def set_seed(seed: int) -> None: random.seed(seed) np.random.seed(seed) torch.manual_seed(seed) torch.cuda.manual_seed_all(seed) torch.backends.cudnn.deterministic = True torch.backends.cudnn.benchmark = False class SimpleTokenizer: def __init__(self, texts): self.pad_token = "<pad>" self.unk_token = "<unk>" self.bos_token = "<bos>" self.eos_token = "<eos>" vocab = { self.pad_token: 0, self.unk_token: 1, self.bos_token: 2, self.eos_token: 3, } for text in texts: for token in text.lower().split(): if token not in vocab: vocab[token] = len(vocab) self.stoi = vocab self.itos = {i: t for t, i in vocab.items()} self.pad_id = self.stoi[self.pad_token] self.unk_id = self.stoi[self.unk_token] self.bos_id = self.stoi[self.bos_token] self.eos_id = self.stoi[self.eos_token] def encode(self, text, max_len=16): tokens = text.lower().split() ids = [self.bos_id] ids.extend(self.stoi.get(t, self.unk_id) for t in tokens) ids.append(self.eos_id) if len(ids) > max_len: ids = ids[:max_len] ids[-1] = self.eos_id return ids def pad_tokens(token_lists, pad_id): max_len = max(len(t) for t in token_lists) tokens = torch.full((len(token_lists), max_len), pad_id, dtype=torch.long) attn = torch.zeros((len(token_lists), max_len), dtype=torch.bool) for i, ids in enumerate(token_lists): tokens[i, : len(ids)] = torch.tensor(ids, dtype=torch.long) attn[i, : len(ids)] = True return tokens, attn class CIFAR10Text(Dataset): def __init__(self, root, train, transform, tokenizer, max_len=16): self.ds = datasets.CIFAR10(root=root, train=train, download=True, transform=transform) self.prompts = [f"a photo of a {name}" for name in CIFAR10_CLASSES] self.tokenizer = tokenizer self.max_len = max_len def __len__(self): return len(self.ds) def __getitem__(self, idx): image, label = self.ds[idx] text = self.prompts[label] token_ids = self.tokenizer.encode(text, max_len=self.max_len) return image, token_ids, label def collate_fn(batch, pad_id): images, token_lists, labels = zip(*batch) images = torch.stack(images) tokens, attn = pad_tokens(token_lists, pad_id) labels = torch.tensor(labels, dtype=torch.long) return images, tokens, attn, labels class ImageEncoder(nn.Module): def __init__(self, embed_dim): super().__init__() self.backbone = models.resnet18(weights=None) self.backbone.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1, bias=False) self.backbone.maxpool = nn.Identity() self.backbone.fc = nn.Linear(self.backbone.fc.in_features, embed_dim) def forward(self, x): x = self.backbone(x) return F.normalize(x, dim=-1) class TextEncoder(nn.Module): def __init__(self, vocab_size, embed_dim, width=256, layers=2, heads=4, max_len=16): super().__init__() self.token = nn.Embedding(vocab_size, width) self.pos = nn.Embedding(max_len, width) encoder_layer = nn.TransformerEncoderLayer( d_model=width, nhead=heads, dim_feedforward=width * 4, dropout=0.1, batch_first=True, ) self.encoder = nn.TransformerEncoder(encoder_layer, num_layers=layers) self.proj = nn.Linear(width, embed_dim) def forward(self, token_ids, attn_mask): bsz, seq_len = token_ids.shape pos_ids = torch.arange(seq_len, device=token_ids.device).unsqueeze(0).expand(bsz, -1) x = self.token(token_ids) + self.pos(pos_ids) x = self.encoder(x, src_key_padding_mask=~attn_mask) attn = attn_mask.unsqueeze(-1) x = (x * attn).sum(dim=1) / attn.sum(dim=1).clamp(min=1) x = self.proj(x) return F.normalize(x, dim=-1) class CLIPModel(nn.Module): def __init__(self, vocab_size, embed_dim=256, max_len=16): super().__init__() self.image_encoder = ImageEncoder(embed_dim) self.text_encoder = TextEncoder(vocab_size, embed_dim, max_len=max_len) self.logit_scale = nn.Parameter(torch.tensor(math.log(1 / 0.07))) def forward(self, images, token_ids, attn_mask): image_features = self.image_encoder(images) text_features = self.text_encoder(token_ids, attn_mask) logit_scale = self.logit_scale.exp().clamp(max=100) logits = logit_scale * image_features @ text_features.T return logits def clip_loss(logits): labels = torch.arange(logits.size(0), device=logits.device) loss_i = F.cross_entropy(logits, labels) loss_t = F.cross_entropy(logits.T, labels) return (loss_i + loss_t) / 2 @torch.no_grad() def zero_shot_accuracy(model, loader, tokenizer, device, max_len=16): model.eval() prompts = [f"a photo of a {name}" for name in CIFAR10_CLASSES] token_lists = [tokenizer.encode(p, max_len=max_len) for p in prompts] tokens, attn = pad_tokens(token_lists, tokenizer.pad_id) tokens = tokens.to(device) attn = attn.to(device) text_features = model.text_encoder(tokens, attn) correct = 0 total = 0 for images, _, _, labels in loader: images = images.to(device) image_features = model.image_encoder(images) logits = image_features @ text_features.T preds = logits.argmax(dim=1).cpu() correct += (preds == labels).sum().item() total += labels.size(0) return correct / max(total, 1) def main(): parser = argparse.ArgumentParser() parser.add_argument("--epochs", type=int, default=10) parser.add_argument("--batch-size", type=int, default=256) parser.add_argument("--embed-dim", type=int, default=256) parser.add_argument("--max-len", type=int, default=16) parser.add_argument("--lr", type=float, default=3e-4) parser.add_argument("--seed", type=int, default=42) parser.add_argument("--num-workers", type=int, default=2) parser.add_argument("--device", type=str, default="cuda") parser.add_argument("--data-root", type=str, default="./data") args = parser.parse_args() device = args.device if torch.cuda.is_available() and args.device == "cuda" else "cpu" set_seed(args.seed) prompts = [f"a photo of a {name}" for name in CIFAR10_CLASSES] tokenizer = SimpleTokenizer(prompts) train_tf = transforms.Compose( [ transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616)), ] ) test_tf = transforms.Compose( [ transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616)), ] ) train_ds = CIFAR10Text(args.data_root, True, train_tf, tokenizer, args.max_len) test_ds = CIFAR10Text(args.data_root, False, test_tf, tokenizer, args.max_len) train_loader = DataLoader( train_ds, batch_size=args.batch_size, shuffle=True, num_workers=args.num_workers, collate_fn=lambda b: collate_fn(b, tokenizer.pad_id), ) test_loader = DataLoader( test_ds, batch_size=args.batch_size, shuffle=False, num_workers=args.num_workers, collate_fn=lambda b: collate_fn(b, tokenizer.pad_id), ) model = CLIPModel(len(tokenizer.stoi), embed_dim=args.embed_dim, max_len=args.max_len).to(device) optimizer = torch.optim.AdamW(model.parameters(), lr=args.lr, weight_decay=1e-4) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=args.epochs) for epoch in range(1, args.epochs + 1): model.train() total_loss = 0.0 for images, tokens, attn, _ in tqdm(train_loader, desc=f"Epoch {epoch}"): images = images.to(device) tokens = tokens.to(device) attn = attn.to(device) logits = model(images, tokens, attn) loss = clip_loss(logits) optimizer.zero_grad() loss.backward() optimizer.step() total_loss += loss.item() * images.size(0) scheduler.step() avg_loss = total_loss / len(train_ds) acc = zero_shot_accuracy(model, test_loader, tokenizer, device, args.max_len) print(f"Epoch {epoch}: loss={avg_loss:.4f}, zero-shot acc={acc:.4f}") if __name__ == "__main__": main() C — Concepts（核心思想）方法类型 CLIP 属于对比学习 + 多模态表示学习范式，采用图文双塔编码器对齐语义空间。 ...

CLIP 系列（3/3）：工程化与优化——检索、索引与部署实践

副标题 / 摘要当 CLIP 进入真实系统，核心难题从“训练”变成“检索与延迟”。本篇聚焦工程实践：向量索引、批量推理、缓存策略与部署注意事项。预计阅读时长：18~22 分钟标签：clip、retrieval、indexing、optimization SEO 关键词：CLIP, 检索, 向量索引, 工程化, 部署元描述：面向工程落地的 CLIP 实践，覆盖向量索引、推理优化与部署建议。系列导航（1/3）原理与对比学习公式（2/3）PyTorch 完整可复现实战（3/3）工程化与优化（本文）目标读者需要把 CLIP 集成到搜索/推荐系统的工程师关注推理延迟与检索精度权衡的技术负责人想构建多模态应用的产品与平台团队背景 / 动机训练出 CLIP 只是起点，难点在于规模化：图文向量如何离线生成？如何快速检索？如何控制成本与延迟？这些工程问题决定了 CLIP 是否能真正上线。核心概念向量索引：从线性搜索升级为近似最近邻（ANN）。批量推理：以吞吐为导向的批处理与显存优化。缓存策略：文本向量往往固定，优先缓存。重排序：先粗排再精排，提高效率。 A — Algorithm（题目与算法）工程化流程概览离线生成图像向量库。离线生成文本提示向量并缓存。在线输入文本或图像，计算向量。使用向量索引检索 TopK 候选。必要时用精排模型重排序。基础示例（1）输入：用户输入“red sneakers” 输出：最相似的商品图像 TopK 基础示例（2）输入：用户上传图片输出：相似图像或对应文本描述实践指南 / 步骤统一向量维度与归一化策略（L2）。离线批量生成图像向量并落盘。预先生成并缓存文本向量。选型索引：小规模用暴力，大规模用 ANN。监控检索指标（Recall@K、P95 延迟）。可运行示例（端到端小检索） import torch import torch.nn.functional as F query = F.normalize(torch.randn(1, 512), dim=-1) corpus = F.normalize(torch.randn(100, 512), dim=-1) scores = query @ corpus.T topk = scores.topk(k=3, dim=1).indices print(topk) C — Concepts（核心思想）方法类型 CLIP 工程化落地属于向量检索 + 分层排序范式，重点是索引结构、缓存策略与推理吞吐。 ...