新增 ResNet34 ImageNet 预训练 + 10% 数据微调模型 (baseline)

2026-05-17 17:20:09 +08:00 · 2026-05-17 17:20:09 +08:00 · 010dacb533
commit 010dacb533
parent 547d96cfa9
3 changed files with 283 additions and 2 deletions
--- a/.gitignore
+++ b/.gitignore
@ -16,6 +16,7 @@
 !/baseline/__init__.py
 !/baseline/VGG_KNN.py
 !/baseline/compare_models.py
+!/baseline/ResNet34_Pretrained_10pct.py
 !/training_log.csv
 !/confusion_matrix.png
 !/roc_curve.png
--- a/baseline/ResNet34_Pretrained_10pct.py
+++ b/baseline/ResNet34_Pretrained_10pct.py
@ -0,0 +1,278 @@
+"""
+baseline/ResNet34_Pretrained_10pct.py
+ResNet-34 ImageNet 预训练权重 + 10% 训练集微调
+可独立运行训练，也可被 compare_models.py 导入
+author: yukun-hh
+date: 2026-5-14
+"""
+import sys, os
+sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+import random
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.optim as optim
+from torch.utils.data import DataLoader, Subset
+from torchvision import models, transforms
+from tqdm import tqdm
+import csv
+import matplotlib.pyplot as plt
+import matplotlib
+
+from Dataloader import RobustImageFolder
+
+matplotlib.rcParams['font.sans-serif'] = ['SimHei', 'DejaVu Sans']
+matplotlib.rcParams['axes.unicode_minus'] = False
+
+# ============================================================
+# ★★★ 可配置参数 ★★★
+# ============================================================
+DATA_ROOT   = '../../trash_division_data/ultimate_4_class/'
+BATCH_SIZE  = 32
+IMAGE_SIZE  = 256
+NUM_WORKERS = 4
+EPOCHS      = 30
+LR          = 0.001
+TRAIN_PCT   = 0.1
+SEED        = 42
+DROPOUT     = 0.3
+MODEL_SAVE_PATH = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'resnet34_10pct.pth')
+LOG_PATH        = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'resnet34_10pct_log.csv')
+# ============================================================
+
+NUM_CLASSES = 4
+CLASS_NAMES = ['厨余垃圾', '可回收物', '其他垃圾', '有害垃圾']
+
+
+class PretrainedResNet34(nn.Module):
+    def __init__(self, num_classes=NUM_CLASSES, dropout=DROPOUT):
+        super().__init__()
+        self.backbone = models.resnet34(weights='IMAGENET1K_V1')
+        in_features = self.backbone.fc.in_features
+        self.backbone.fc = nn.Identity()
+        self.dropout = nn.Dropout(dropout)
+        self.fc = nn.Linear(in_features, num_classes)
+
+    def forward(self, x):
+        x = self.backbone(x)
+        x = self.dropout(x)
+        x = self.fc(x)
+        return x
+
+    def freeze_early_layers(self):
+        for param in self.backbone.conv1.parameters():
+            param.requires_grad = False
+        for param in self.backbone.bn1.parameters():
+            param.requires_grad = False
+        for param in self.backbone.layer1.parameters():
+            param.requires_grad = False
+        for param in self.backbone.layer2.parameters():
+            param.requires_grad = False
+
+    def print_trainable_info(self):
+        frozen = sum(p.numel() for p in self.parameters() if not p.requires_grad)
+        trainable = sum(p.numel() for p in self.parameters() if p.requires_grad)
+        total = frozen + trainable
+        print(f"  冻结参数: {frozen:,}  可训练参数: {trainable:,}  ({100.*trainable/total:.1f}%)")
+
+
+def compute_macro_f1(predicted, targets, num_classes=NUM_CLASSES):
+    tp = torch.zeros(num_classes, device=predicted.device)
+    fp = torch.zeros(num_classes, device=predicted.device)
+    fn = torch.zeros(num_classes, device=predicted.device)
+    for c in range(num_classes):
+        tp[c] = ((predicted == c) & (targets == c)).sum()
+        fp[c] = ((predicted == c) & (targets != c)).sum()
+        fn[c] = ((predicted != c) & (targets == c)).sum()
+    precision = tp / (tp + fp + 1e-8)
+    recall = tp / (tp + fn + 1e-8)
+    f1 = 2 * precision * recall / (precision + recall + 1e-8)
+    return f1.mean().item()
+
+
+def train_one_epoch(model, loader, criterion, optimizer, device, epoch):
+    model.train()
+    running_loss, correct, total = 0.0, 0, 0
+    all_preds, all_labels = [], []
+    pbar = tqdm(loader, desc=f'Epoch {epoch+1} [Train]')
+    for images, labels in pbar:
+        images, labels = images.to(device), labels.to(device)
+        outputs = model(images)
+        loss = criterion(outputs, labels)
+        optimizer.zero_grad()
+        loss.backward()
+        optimizer.step()
+        running_loss += loss.item() * images.size(0)
+        _, predicted = outputs.max(1)
+        total += labels.size(0)
+        correct += predicted.eq(labels).sum().item()
+        all_preds.append(predicted)
+        all_labels.append(labels)
+        batch_f1 = compute_macro_f1(predicted, labels)
+        pbar.set_postfix({'loss': loss.item(), 'F1': f'{batch_f1:.4f}',
+                          'Acc': f'{100.*correct/total:.2f}%'})
+    epoch_loss = running_loss / total
+    epoch_f1 = compute_macro_f1(torch.cat(all_preds), torch.cat(all_labels))
+    epoch_acc = 100. * correct / total
+    return epoch_loss, epoch_f1, epoch_acc
+
+
+@torch.no_grad()
+def validate(model, loader, criterion, device):
+    model.eval()
+    running_loss, correct, total = 0.0, 0, 0
+    all_preds, all_labels = [], []
+    for images, labels in tqdm(loader, desc='[Validate]'):
+        images, labels = images.to(device), labels.to(device)
+        outputs = model(images)
+        loss = criterion(outputs, labels)
+        running_loss += loss.item() * images.size(0)
+        _, predicted = outputs.max(1)
+        total += labels.size(0)
+        correct += predicted.eq(labels).sum().item()
+        all_preds.append(predicted)
+        all_labels.append(labels)
+    epoch_loss = running_loss / total
+    epoch_f1 = compute_macro_f1(torch.cat(all_preds), torch.cat(all_labels))
+    epoch_acc = 100. * correct / total
+    return epoch_loss, epoch_f1, epoch_acc
+
+
+def train_model(model, train_loader, val_loader, device, epochs=EPOCHS, lr=LR):
+    criterion = nn.CrossEntropyLoss()
+    optimizer = optim.SGD(filter(lambda p: p.requires_grad, model.parameters()),
+                          lr=lr, momentum=0.9, weight_decay=1e-4)
+    scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=epochs)
+
+    history = {'train_loss': [], 'train_f1': [], 'train_acc': [],
+               'val_loss': [], 'val_f1': [], 'val_acc': []}
+    best_val_f1 = 0.0
+
+    log_file = open(LOG_PATH, 'w', newline='')
+    log_writer = csv.writer(log_file)
+    log_writer.writerow(['epoch', 'train_loss', 'train_f1', 'train_acc',
+                         'val_loss', 'val_f1', 'val_acc', 'lr', 'best'])
+
+    for epoch in range(epochs):
+        print(f'\n{"="*50}')
+        print(f'Epoch {epoch+1}/{epochs}')
+
+        train_loss, train_f1, train_acc = train_one_epoch(
+            model, train_loader, criterion, optimizer, device, epoch)
+        val_loss, val_f1, val_acc = validate(model, val_loader, criterion, device)
+        scheduler.step()
+
+        history['train_loss'].append(train_loss)
+        history['train_f1'].append(train_f1)
+        history['train_acc'].append(train_acc)
+        history['val_loss'].append(val_loss)
+        history['val_f1'].append(val_f1)
+        history['val_acc'].append(val_acc)
+
+        print(f'Train Loss: {train_loss:.4f} | Train Acc: {train_acc:.2f}% | Train Macro-F1: {train_f1:.4f}')
+        print(f'Val   Loss: {val_loss:.4f} | Val   Acc: {val_acc:.2f}% | Val   Macro-F1: {val_f1:.4f}')
+        print(f'Learning Rate: {optimizer.param_groups[0]["lr"]:.6f}')
+
+        best_mark = ''
+        if val_f1 > best_val_f1:
+            best_val_f1 = val_f1
+            torch.save(model.state_dict(), MODEL_SAVE_PATH)
+            best_mark = 'best'
+            print(f'✓ 保存最佳模型 (Macro-F1: {val_f1:.4f})')
+
+        lr_val = optimizer.param_groups[0]['lr']
+        log_writer.writerow([epoch+1, train_loss, train_f1, train_acc,
+                             val_loss, val_f1, val_acc, lr_val, best_mark])
+        log_file.flush()
+
+    log_file.close()
+    print(f'\n训练完成！最佳验证 Macro-F1: {best_val_f1:.4f}')
+    return history
+
+
+# ============================================================
+# compare_models.py 导入接口
+# ============================================================
+
+def get_resnet34_10pct_preds(train_loader, val_loader, device):
+    model = PretrainedResNet34(num_classes=NUM_CLASSES)
+    model.load_state_dict(torch.load(MODEL_SAVE_PATH, map_location='cpu'))
+    model = model.to(device).eval()
+
+    y_true, y_preds, y_probs = [], [], []
+    with torch.no_grad():
+        for images, labels in tqdm(val_loader, desc='ResNet-34 (10%)'):
+            images, labels = images.to(device), labels
+            logits = model(images)
+            probs = torch.softmax(logits, dim=1)
+            preds = probs.argmax(dim=1)
+            y_true.append(labels.numpy())
+            y_preds.append(preds.cpu().numpy())
+            y_probs.append(probs.cpu().numpy())
+    return np.concatenate(y_true), np.concatenate(y_preds), np.concatenate(y_probs)
+
+
+# ============================================================
+# 独立训练入口
+# ============================================================
+
+if __name__ == '__main__':
+    random.seed(SEED)
+    np.random.seed(SEED)
+    torch.manual_seed(SEED)
+
+    device = torch.device('cuda' if torch.cuda.is_available()
+                          else 'xpu' if hasattr(torch, 'xpu') and torch.xpu.is_available()
+                          else 'cpu')
+    print(f"Device: {device}")
+
+    val_transform = transforms.Compose([
+        transforms.Resize((IMAGE_SIZE, IMAGE_SIZE)),
+        transforms.ToTensor(),
+        transforms.Normalize(mean=[0.485, 0.456, 0.406],
+                             std=[0.229, 0.224, 0.225]),
+    ])
+    train_transform = transforms.Compose([
+        transforms.RandomResizedCrop(IMAGE_SIZE, scale=(0.8, 1.0)),
+        transforms.RandomHorizontalFlip(p=0.5),
+        transforms.RandomRotation(degrees=15),
+        transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2),
+        transforms.ToTensor(),
+        transforms.Normalize(mean=[0.485, 0.456, 0.406],
+                             std=[0.229, 0.224, 0.225]),
+    ])
+
+    full_train_dataset = RobustImageFolder(
+        root=os.path.join(DATA_ROOT, 'train'),
+        transform=train_transform,
+    )
+    val_dataset = RobustImageFolder(
+        root=os.path.join(DATA_ROOT, 'val'),
+        transform=val_transform,
+    )
+
+    n_train = len(full_train_dataset)
+    n_subset = max(1, int(n_train * TRAIN_PCT))
+    indices = random.sample(range(n_train), n_subset)
+    train_dataset = Subset(full_train_dataset, indices)
+    print(f"训练集: {len(train_dataset)} / {n_train} ({TRAIN_PCT*100:.0f}%)")
+    print(f"验证集: {len(val_dataset)}")
+
+    train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE,
+                              shuffle=True, num_workers=NUM_WORKERS,
+                              pin_memory=True, drop_last=True)
+    val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE,
+                            shuffle=False, num_workers=NUM_WORKERS,
+                            pin_memory=True, drop_last=False)
+
+    model = PretrainedResNet34(num_classes=NUM_CLASSES, dropout=DROPOUT)
+    model.freeze_early_layers()
+    model.print_trainable_info()
+    model = model.to(device)
+
+    history = train_model(model, train_loader, val_loader, device, epochs=EPOCHS, lr=LR)
+
+    model.load_state_dict(torch.load(MODEL_SAVE_PATH, map_location='cpu'))
+    print(f"模型已保存: {MODEL_SAVE_PATH}")
+    print(f"训练日志已保存: {LOG_PATH}")
--- a/baseline/compare_models.py
+++ b/baseline/compare_models.py
@ -22,6 +22,7 @@ from sklearn.metrics import roc_curve, auc, accuracy_score
 from Model import Net
 from Dataloader import RobustImageFolder
 from baseline.VGG_KNN import VGGKNNBaseline
+from baseline.ResNet34_Pretrained_10pct import get_resnet34_10pct_preds

 matplotlib.rcParams['font.sans-serif'] = ['SimHei', 'DejaVu Sans']
 matplotlib.rcParams['axes.unicode_minus'] = False
@ -77,8 +78,9 @@ def get_vgg_knn_preds(train_loader, val_loader, device):
 # ============================================================

 MODELS = [
-    ('ResNet-34',           get_resnet34_preds),
-    ('VGG16 + KNN  (K=5)',  get_vgg_knn_preds),
+    ('ResNet-34',                get_resnet34_preds),
+    ('ResNet-34 (10% Fine-tune)', get_resnet34_10pct_preds),
+    ('VGG16 + KNN  (K=5)',       get_vgg_knn_preds),
    # 未来轻松扩展示例：
    # ('ResNet-18 (pretrained)', get_resnet18_preds),
    # ('ResNet-50 (pretrained)', get_resnet50_preds),