cv_resnet18_ocr-detection test_images路径：测试集配置指南

1. 背景与目标

在OCR（光学字符识别）任务中，模型的检测能力依赖于高质量的数据集进行验证。cv_resnet18_ocr-detection是一个基于ResNet-18骨干网络构建的文字检测模型，由开发者“科哥”设计并开源。该模型通过轻量化结构实现高效推理，适用于文档扫描、证件识别、截图文本提取等场景。

本文聚焦于测试集配置流程，特别是test_images目录的组织方式与相关文件格式要求，帮助用户正确设置评估环境，确保模型能够顺利完成推理与结果输出。

2. 测试集目录结构规范

为了使cv_resnet18_ocr-detection模型顺利加载测试图像并生成有效结果，必须遵循标准的测试数据组织结构。以下是推荐的目录布局：

project_root/ ├── test_images/ # 存放待检测的图片 │ ├── img_001.jpg │ ├── img_002.png │ └── sample_invoice.bmp ├── test_list.txt # 图像列表文件，指定测试图片路径 └── outputs/ # 检测结果输出目录（自动生成） └── outputs_YYYYMMDDHHMMSS/ ├── visualization/ │ └── detection_result_*.png └── json/ └── result.json

2.1 test_images 目录说明

功能：存放所有需要进行文字检测的输入图像。
支持格式：.jpg,.jpeg,.png,.bmp
命名建议：使用有意义且无特殊字符的文件名，避免空格或中文符号。
图像预处理建议：
分辨率不低于 640×480
文字区域清晰，避免严重模糊或遮挡
光照均匀，减少反光和阴影影响

2.2 test_list.txt 文件格式

此文件用于列出所有待检测图像的相对路径，每行一条记录。

test_images/img_001.jpg test_images/img_002.png test_images/sample_invoice.bmp

注意：路径应为相对于项目根目录的相对路径，不可使用绝对路径。

3. 配置与运行流程

3.1 准备测试图像

将待检测图像统一放入test_images/目录下。例如：

cp /path/to/your/images/*.jpg ./test_images/

确保图像可正常打开，并符合常见视觉质量标准。

3.2 编辑 test_list.txt

创建或更新test_list.txt文件，逐行列出图像路径：

echo "test_images/img_001.jpg" > test_list.txt echo "test_images/img_002.png" >> test_list.txt

可通过脚本自动化生成：

find test_images -type f \( -name "*.jpg" -o -name "*.png" -o -name "*.bmp" \) | sort > test_list.txt

3.3 启动检测服务

进入项目主目录并启动 WebUI 服务：

cd /root/cv_resnet18_ocr-detection bash start_app.sh

服务成功启动后，终端会显示访问地址：

============================================================ WebUI 服务地址: http://0.0.0.0:7860 ============================================================

3.4 执行批量检测

访问http://<服务器IP>:7860
切换至“批量检测”Tab
点击“上传多张图片”，选择test_images中的所有图像
设置合适的检测阈值（默认 0.2）
点击“批量检测”按钮

系统将依次处理每张图像，并在画廊中展示带检测框的结果图。

4. 输出结果解析

检测完成后，系统会在outputs/下生成以时间戳命名的子目录，包含以下内容：

4.1 可视化结果（visualization/）

文件名：detection_result_{原文件名}.png或统一命名
内容：原始图像叠加文本检测框（绿色矩形），便于直观查看定位效果

4.2 结构化数据（json/）

JSON 文件包含完整的检测信息，示例如下：

{ "image_path": "test_images/img_001.jpg", "texts": [ ["发票号码"], ["金额：¥598.00"] ], "boxes": [ [102, 320, 210, 320, 210, 350, 102, 350], [450, 600, 600, 600, 600, 630, 450, 630] ], "scores": [0.97, 0.93], "success": true, "inference_time": 2.874 }

字段说明：

字段	含义
`image_path`	原始图像路径
`texts`	检测到的文本内容（嵌套数组）
`boxes`	四点坐标`[x1,y1,x2,y2,x3,y3,x4,y4]`
`scores`	每个检测框的置信度分数
`inference_time`	推理耗时（秒）

5. 参数调优建议

合理设置检测参数可显著提升实际应用中的准确率与稳定性。

5.1 检测阈值调整策略

场景	推荐阈值	说明
清晰印刷体文档	0.3 - 0.4	提高精度，减少误检
模糊截图或低分辨率图	0.1 - 0.2	放宽条件，避免漏检
复杂背景干扰较多	0.35以上	抑制噪声区域激活
快速预览模式	0.2	平衡速度与召回率