对比学习损失函数

对比学习损失函数系列（1/4）：对比损失 Contrastive Loss

副标题 / 摘要对比损失是度量学习最经典的成对目标：拉近同类、推远异类。本文用公式、几何直觉与最小可运行实验，帮你建立对比学习的第一块基石。预计阅读时长：15~18 分钟标签：contrastive-loss、metric-learning、pairwise SEO 关键词：对比损失, Contrastive Loss, 度量学习, 嵌入空间元描述：讲清对比损失的数学形式、训练细节与工程应用场景。系列导航（1/4）对比损失 Contrastive Loss（本文）（2/4）三元组损失 Triplet Loss （3/4）InfoNCE + SimCLR （4/4）CLIP 对比学习目标目标读者想入门对比学习/度量学习的初学者需要在工程中构建相似度模型的开发者希望通过小实验理解公式含义的实践派背景 / 动机在推荐、检索、验证类任务里，我们往往不关心“分类标签”，而关心“相似度”。对比损失用成对样本表达“相似/不相似”，是把语义关系映射到向量空间的基础方法。核心概念嵌入空间：把样本映射为向量，距离代表语义相近程度。正负样本对：正样本对应“相似”，负样本对对应“不相似”。 Margin：负样本需要被推远的最小距离阈值。 A — Algorithm（题目与算法）用通俗语言说明主题内容对比损失做的事很简单：同类样本对要靠得更近。异类样本对要至少分开一个 margin。基础示例（1）两张同一人的人脸：距离应该变小。两个不同人的人脸：距离至少大于 margin。基础示例（2）同类商品图片：嵌入距离小。异类商品图片：嵌入距离大。实践指南 / 步骤选择特征编码器（如 MLP/CNN）。构造正负样本对，并标记 y=1/0。计算成对距离并应用对比损失。观察正负样本平均距离是否分离。可运行示例（最小对比损失实验） import random import torch import torch.nn as nn import torch.nn.functional as F random.seed(42) torch.manual_seed(42) def make_data(n=200): c1 = torch.randn(n, 2) * 0.4 + torch.tensor([0.0, 0.0]) c2 = torch.randn(n, 2) * 0.4 + torch.tensor([3.0, 3.0]) x = torch.cat([c1, c2], dim=0) y = torch.cat([torch.zeros(n), torch.ones(n)]).long() return x, y def make_pairs(x, y, num_pairs=1000): pairs = [] labels = [] for _ in range(num_pairs): if random.random() < 0.5: cls = random.randint(0, 1) idx = (y == cls).nonzero().flatten() i, j = idx[torch.randint(len(idx), (2,))] labels.append(1) else: i = (y == 0).nonzero().flatten()[torch.randint((y == 0).sum(), (1,))] j = (y == 1).nonzero().flatten()[torch.randint((y == 1).sum(), (1,))] labels.append(0) pairs.append((x[i], x[j])) return torch.stack([p[0] for p in pairs]), torch.stack([p[1] for p in pairs]), torch.tensor(labels) def contrastive_loss(z1, z2, y, margin=1.0): d = F.pairwise_distance(z1, z2) pos = y * d.pow(2) neg = (1 - y) * F.relu(margin - d).pow(2) return (pos + neg).mean() class Encoder(nn.Module): def __init__(self): super().__init__() self.net = nn.Sequential( nn.Linear(2, 32), nn.ReLU(), nn.Linear(32, 2), ) def forward(self, x): return self.net(x) x, y = make_data() x1, x2, pair_y = make_pairs(x, y, num_pairs=2000) model = Encoder() opt = torch.optim.Adam(model.parameters(), lr=1e-2) for epoch in range(1, 201): z1 = model(x1) z2 = model(x2) loss = contrastive_loss(z1, z2, pair_y.float(), margin=1.0) opt.zero_grad() loss.backward() opt.step() if epoch % 50 == 0: with torch.no_grad(): d = F.pairwise_distance(z1, z2) pos_d = d[pair_y == 1].mean().item() neg_d = d[pair_y == 0].mean().item() print(f"epoch={epoch} loss={loss.item():.4f} pos_d={pos_d:.3f} neg_d={neg_d:.3f}") C — Concepts（核心思想）方法类型对比损失属于度量学习 / 表示学习范式，使用成对样本将语义关系映射到向量距离。 ...

对比学习损失函数系列（2/4）：三元组损失 Triplet Loss

副标题 / 摘要 Triplet Loss 用“相对排序”表达语义约束：让 anchor 更接近 positive，同时远离 negative。本文包含公式、难例挖掘与最小实验，帮助你把三元组损失用于工程实践。预计阅读时长：16~20 分钟标签：triplet-loss、metric-learning、hard-negative SEO 关键词：Triplet Loss, 三元组损失, 度量学习, hard negative 元描述：系统拆解 Triplet Loss 的训练逻辑、采样策略与工程场景。系列导航（1/4）对比损失 Contrastive Loss （2/4）三元组损失 Triplet Loss（本文）（3/4）InfoNCE + SimCLR （4/4）CLIP 对比学习目标目标读者已了解对比损失，希望理解更强排序约束的读者需要构建相似度排序系统的工程实践者想掌握 hard negative mining 逻辑的入门者背景 / 动机成对对比只能表达“像 / 不像”，而很多场景需要相对排序： “与 A 更像，而不是 B”。Triplet Loss 用三元组直接编码这种关系，在检索与验证任务中非常常见。核心概念 Anchor / Positive / Negative：锚点、同类样本、异类样本。 Margin：要求 anchor 与 negative 至少比 positive 远一个 margin。 Hard Negative Mining：选择最难的负样本提升训练信号。 A — Algorithm（题目与算法）用通俗语言说明主题内容 Triplet Loss 让“正确的相对关系”成立： ...

对比学习损失函数系列（3/4）：InfoNCE 与 SimCLR

副标题 / 摘要 InfoNCE 是现代对比学习的核心损失，SimCLR 则把它推向实用化。本文用公式、步骤与最小实验，带你理解“批内负样本 + 增强视图”的训练逻辑。预计阅读时长：18~22 分钟标签：infonce、simclr、self-supervised SEO 关键词：InfoNCE, SimCLR, 对比学习, 自监督元描述：讲清 InfoNCE 的数学目标与 SimCLR 的训练结构，含可运行代码示例。系列导航（1/4）对比损失 Contrastive Loss （2/4）三元组损失 Triplet Loss （3/4）InfoNCE + SimCLR（本文）（4/4）CLIP 对比学习目标目标读者希望入门自监督对比学习的读者需要理解 SimCLR 训练流程的工程实践者想把对比学习迁移到业务数据的开发者背景 / 动机有标注数据昂贵，而无标注数据充足。 InfoNCE 让我们用“正负样本对齐”替代人工标签， SimCLR 则证明：只要数据增强和 batch 够大，效果可以接近监督学习。核心概念正样本视图：同一图像的两种增强视图。批内负样本：同一 batch 中其他样本视为负样本。投影头：把表示映射到对比空间，提高对比学习效果。 A — Algorithm（题目与算法）用通俗语言说明主题内容 InfoNCE 的核心是“在一堆负样本里找到正确配对”。 SimCLR 则把“正确配对”定义为同一张图像的两个增强视图。基础示例（1）图像 A 经过两种增强得到 A1 与 A2 目标：A1 与 A2 相似度最大化基础示例（2） A1 在 batch 中看到 B1、C1 等视为负样本目标：A1 与 A2 的相似度高于 A1 与其他样本实践指南 / 步骤设计增强策略（裁剪、翻转、颜色扰动）。构造两份增强视图作为正样本对。编码器 + 投影头输出对比向量。使用 InfoNCE 计算对比损失并训练。可运行示例（最小 SimCLR 实验） import torch import torch.nn as nn import torch.nn.functional as F from torch.utils.data import DataLoader from torchvision import datasets, transforms torch.manual_seed(42) class TwoCrops: def __init__(self, base_transform): self.base = base_transform def __call__(self, x): return self.base(x), self.base(x) def info_nce(z1, z2, temp=0.5): z1 = F.normalize(z1, dim=1) z2 = F.normalize(z2, dim=1) logits = z1 @ z2.T / temp labels = torch.arange(z1.size(0), device=z1.device) loss1 = F.cross_entropy(logits, labels) loss2 = F.cross_entropy(logits.T, labels) return (loss1 + loss2) / 2 class Encoder(nn.Module): def __init__(self, out_dim=128): super().__init__() self.backbone = nn.Sequential( nn.Conv2d(3, 32, 3, padding=1), nn.ReLU(), nn.AdaptiveAvgPool2d(1), nn.Flatten(), ) self.proj = nn.Sequential( nn.Linear(32, 128), nn.ReLU(), nn.Linear(128, out_dim), ) def forward(self, x): x = self.backbone(x) return self.proj(x) base_tf = transforms.Compose( [ transforms.RandomResizedCrop(32, scale=(0.6, 1.0)), transforms.RandomHorizontalFlip(), transforms.ToTensor(), ] ) dataset = datasets.FakeData( size=512, image_size=(3, 32, 32), num_classes=10, transform=TwoCrops(base_tf), ) loader = DataLoader(dataset, batch_size=128, shuffle=True) model = Encoder() opt = torch.optim.Adam(model.parameters(), lr=1e-3) for epoch in range(1, 6): total = 0.0 for (x1, x2), _ in loader: z1 = model(x1) z2 = model(x2) loss = info_nce(z1, z2, temp=0.5) opt.zero_grad() loss.backward() opt.step() total += loss.item() print(f"epoch={epoch} loss={total/len(loader):.4f}") C — Concepts（核心思想）方法类型 InfoNCE 与 SimCLR 属于自监督对比学习，通过增强视图构造正样本对。 ...

对比学习损失函数系列（4/4）：CLIP 对比学习目标

副标题 / 摘要 CLIP 把图像与文本放到同一嵌入空间，用双向 InfoNCE 进行对齐。本文从损失函数视角梳理 CLIP 的训练目标，并给出最小可运行示例。预计阅读时长：14~18 分钟标签：clip、multimodal、contrastive-learning SEO 关键词：CLIP, 对比学习, 多模态, InfoNCE 元描述：从损失函数角度拆解 CLIP 的双向对齐目标与工程应用。系列导航（1/4）对比损失 Contrastive Loss （2/4）三元组损失 Triplet Loss （3/4）InfoNCE + SimCLR （4/4）CLIP 对比学习目标（本文）目标读者想理解 CLIP 训练目标与公式的读者需要在工程中使用图文对齐模型的实践者希望把对比学习扩展到多模态的开发者背景 / 动机相比单模态对比学习，CLIP 的挑战在于“跨模态对齐”。只要目标函数对齐得当，图像与文本就能通过相似度统一度量。核心概念图像/文本编码器：分别把图像与文本映射为向量。双向对齐：图像检索文本 + 文本检索图像。温度参数：控制相似度分布的尖锐程度。 A — Algorithm（题目与算法）用通俗语言说明主题内容 CLIP 的损失可以理解为“图像-文本的双向匹配”。在一个 batch 中，正确图文对要排在最前面。基础示例（1）图像：一只狗文本：“a photo of a dog” 与 “a red car” 目标：图像与狗文本更相近基础示例（2）在相似度矩阵中，对角线应该最大。实践指南 / 步骤图像与文本分别编码成向量。 L2 归一化，计算相似度矩阵。用双向交叉熵训练（图像检索文本 + 文本检索图像）。监控相似度矩阵是否“对角线突出”。可运行示例（最小 CLIP 损失） import torch import torch.nn.functional as F torch.manual_seed(42) N, D = 4, 8 image = F.normalize(torch.randn(N, D), dim=-1) text = F.normalize(torch.randn(N, D), dim=-1) logits = image @ text.T / 0.07 labels = torch.arange(N) loss_i = F.cross_entropy(logits, labels) loss_t = F.cross_entropy(logits.T, labels) loss = (loss_i + loss_t) / 2 print(loss.item()) C — Concepts（核心思想）方法类型 CLIP 属于多模态对比学习，核心是对齐图像与文本的共享嵌入空间。 ...

推荐阅读