M2FP是否支持自定义类别？可通过后处理合并细分标签

📖 项目简介：M2FP 多人人体解析服务

在当前计算机视觉领域，精细化语义分割正成为智能交互、虚拟试衣、动作分析等应用的核心支撑技术。其中，多人人体解析（Multi-person Human Parsing）作为一项高阶任务，要求模型不仅能识别图像中多个个体的存在，还需对每个人体的细粒度部位（如左袖、右裤腿、鞋带等）进行精准分类与分割。

本项目基于ModelScope 平台的 M2FP (Mask2Former-Parsing)模型构建，提供一套开箱即用的多人人体解析 WebUI + API 服务。M2FP 是目前业界领先的语义分割架构之一，融合了 Transformer 解码器与层次化特征提取机制，在复杂场景下仍能保持出色的解析精度。

该服务不仅支持像素级的身体部位分割（共 19 类标准标签），还集成了可视化拼图算法和轻量级Flask WebUI，用户无需编写代码即可完成图像上传、推理执行与结果展示。更重要的是，系统已针对 CPU 环境深度优化，即使无 GPU 支持也能实现稳定快速的推理输出。

💡 核心亮点速览： - ✅精准解析：支持头发、面部、上衣、裤子、鞋子、手臂、腿部等 19 个细粒度人体部位 - ✅多人场景鲁棒性强：基于 ResNet-101 骨干网络 + Mask2Former 架构，有效应对遮挡与重叠 - ✅零依赖部署：预装 PyTorch 1.13.1 + MMCV-Full 1.7.1 黄金组合，彻底解决兼容性问题 - ✅内置可视化引擎：自动将离散 mask 合成为彩色语义图，无需额外后处理 - ✅纯 CPU 友好：专为无显卡环境优化，适合边缘设备或低成本部署

🔍 M2FP 的默认类别体系与标签定义

M2FP 模型在训练阶段采用了LIP (Look Into Person)和CIHP (Crowd Instance-level Human Parsing)数据集，其输出层固定为19 个预定义语义类别。这些类别覆盖了从头部到脚部的主要身体区域，具体如下：

| 标签 ID | 类别名称 | 说明 | |--------|----------------|------| | 0 | background | 背景区域 | | 1 | hat | 帽子 | | 2 | hair | 头发 | | 3 | glove | 手套 | | 4 | sun-glasses | 太阳镜 | | 5 | upper-clothes | 上身衣物（外衣/衬衫） | | 6 | dress | 连衣裙 | | 7 | coat | 外套 | | 8 | socks | 袜子 | | 9 | pants | 裤子 | | 10 | shoes | 鞋子 | | 11 | scarf | 围巾 | | 12 | skirt | 裙子 | | 13 | face | 面部 | | 14 | left-arm | 左臂 | | 15 | right-arm | 右臂 | | 16 | left-leg | 左腿 | | 17 | right-leg | 右腿 | | 18 | left-shoe | 左脚鞋 | | 19 | right-shoe | 右脚鞋 |

⚠️ 注意：虽然模型输出包含left-shoe和right-shoe这类极细粒度标签，但在实际应用中，许多业务场景并不需要如此精细的区分。例如，“整体鞋子”、“上下身分离”、“头饰 vs 面部”等更高层级的抽象才是真正的需求。

🔄 是否支持自定义类别？答案是：通过后处理实现！

❓ 为什么不能直接修改模型输出类别？

M2FP 是一个预训练闭源模型，其分类头（classification head）的权重已在大规模数据集上固化，无法在不重新训练的前提下更改类别数量或语义映射。这意味着你不能像使用 Detectron2 那样自由增减类别。

但这并不等于“无法自定义”。我们可以通过推理后的标签合并策略（Post-processing Label Merging）实现逻辑上的“自定义类别”。

✅ 解决方案：基于掩码的标签重映射

核心思路非常简单：
保留原始模型的推理过程不变 → 获取每个像素的初始类别 ID → 在后处理阶段按规则合并某些类别 → 输出新的语义图

示例：将“上衣+外套+连衣裙”合并为“上半身服装”

import numpy as np import cv2 # 定义原始标签到新类别的映射关系 CUSTOM_MAPPING = { 0: 0, # background -> background 1: 1, # hat -> accessory 2: 1, # hair -> accessory 4: 1, # sun-glasses -> accessory 11: 1, # scarf -> accessory 3: 2, # glove -> limb 14: 2, # left-arm -> limb 15: 2, # right-arm -> limb 16: 2, # left-leg -> limb 17: 2, # right-leg -> limb 8: 3, # socks -> foot-wear 10: 3, # shoes -> foot-wear 18: 3, # left-shoe -> foot-wear 19: 3, # right-shoe -> foot-wear 5: 4, # upper-clothes -> upper-body 6: 4, # dress -> upper-body 7: 4, # coat -> upper-body 9: 5, # pants -> lower-body 12: 5, # skirt -> lower-body 13: 6 # face -> face (单独保留) } def remap_mask(original_mask: np.ndarray) -> np.ndarray: """ 将原始 M2FP 输出的 mask 映射为自定义类别 :param original_mask: shape=(H, W), dtype=int, 值域 [0, 19] :return: new_mask: shape=(H, W), 值域 [0, 6] """ h, w = original_mask.shape new_mask = np.zeros((h, w), dtype=np.uint8) for old_label, new_label in CUSTOM_MAPPING.items(): new_mask[original_mask == old_label] = new_label return new_mask # 使用示例 raw_output = model.predict(image) # 假设返回 HxW 的整数 mask custom_mask = remap_mask(raw_output) # 可视化新类别（可选调色板） COLOR_PALETTE = [ [0, 0, 0], # 背景 - 黑 [255, 0, 0], # 配饰 - 红 [0, 255, 0], # 四肢 - 绿 [0, 0, 255], # 足部穿戴 - 蓝 [255, 255, 0], # 上半身 - 黄 [255, 0, 255], # 下半身 - 品红 [128, 128, 128] # 面部 - 灰 ] def colorize_mask(mask: np.ndarray, palette: list) -> np.ndarray: h, w = mask.shape colored = np.zeros((h, w, 3), dtype=np.uint8) for idx, color in enumerate(palette): colored[mask == idx] = color return colored colored_result = colorize_mask(custom_mask, COLOR_PALETTE) cv2.imwrite("output_custom_parsing.png", colored_result)

🧩 如何集成到现有 WebUI 中？

由于该项目已内置 Flask 服务，我们可以轻松扩展其功能以支持自定义类别输出。

步骤一：新增 API 接口`/parse/custom`

from flask import Flask, request, jsonify import json app = Flask(__name__) @app.route('/parse/custom', methods=['POST']) def parse_custom(): file = request.files['image'] mapping_rule = request.form.get('mapping', None) # 加载图像并推理 image = cv2.imdecode(np.frombuffer(file.read(), np.uint8), cv2.IMREAD_COLOR) raw_mask = model.predict(image) # 原始预测 # 应用自定义映射（若未指定则使用默认） if mapping_rule: try: custom_map = json.loads(mapping_rule) except: return jsonify({"error": "Invalid JSON mapping"}), 400 else: custom_map = CUSTOM_MAPPING # 使用预设 # 执行重映射 def apply_mapping(mask, mapping): result = np.copy(mask) for old, new in mapping.items(): result[mask == int(old)] = int(new) return result final_mask = apply_mapping(raw_mask, custom_map) colored = colorize_mask(final_mask, auto_generate_palette(len(set(custom_map.values())))) # 返回 base64 或保存临时文件 _, buffer = cv2.imencode('.png', colored) b64_img = base64.b64encode(buffer).decode('utf-8') return jsonify({ "success": True, "result_image": f"data:image/png;base64,{b64_img}", "num_classes": len(set(custom_map.values())) })

步骤二：前端添加“自定义模式”开关

在 WebUI 中增加一个复选框：“启用自定义类别”，并允许用户粘贴 JSON 映射配置：

{ "5": 1, "6": 1, "7": 1, // 上衣类 → 上半身 "9": 2, "12": 2, // 裤子/裙子 → 下半身 "14": 3, "15": 3, // 手臂 → 四肢 "16": 3, "17": 3, // 腿 → 四肢 "1": 4, "2": 4, "4": 4 // 帽子/头发/眼镜 → 头部配件 }

提交时将此 JSON 发送到/parse/custom，即可获得符合业务需求的新语义图。

📊 自定义类别的典型应用场景

| 场景 | 原始类别痛点 | 自定义方案 | 价值 | |------|---------------|------------|-------| |虚拟换装系统| 上衣/外套分开，难以统一替换 | 合并为“上装区” | 提升编辑效率 | |智能安防行为分析| 手套、围巾分散关注点 | 合并为“异常遮挡物” | 强化风险识别 | |健身姿态评估| 左右臂独立，不利于动作对称性判断 | 合并为“双臂” | 更直观反馈 | |电商图像标注| 裤子/裙子分列，影响检索召回 | 统一为“下半身服饰” | 提高搜索准确率 | |AR 滤镜应用| 面部、头发、帽子割裂 | 分组控制特效叠加 | 增强用户体验 |