R-CNN 系

包含R-CNN,Fast R-CNN,Faster R-CNN等模型,

使用二阶段检测,先进行搜索框搜索,再遍历搜索框使用RNN进行搜索

速度较慢

YOLO V1

只用一个CNN,端到端识别,速度快

Step 1 划分单元格

标签:人工划框(Ground Truth),将输入图分为S*S网格,如果该框的中心点落在单元格中,则该单元格负责object

Step 2 每个单元格预测

  • Bounding Box:边界框坐标x,y,w,h

  • Confidence:每个边界框的置信度

  • Class:图像的分类

单元格任务

  1. 预测 Bounding Box

  2. 预测 Confidence 置信度

    P_r(Object) * IOU^{truth}_{pred}

    IOU:预测框和实际框的交并比,两框的交集和两框的并集相比

  1. 每个单元格预测出一组类别概率(改进:每个边界框预测一组类别概率)

  2. 输出维度:S*S*(B*5+C),S*S为网格,B为bounding box数量,5为x,y,w,h,confidence,C为类别概率

解决测试阶段框太多

NMS算法(非极大值抑制算法)

  1. 找到类别置信度最大的框

  2. 计算其与剩余框的IOU

  3. 如果IOU大于阈值,则剔除该框

  4. 重复上述过程

评估

评估方法:mAP(Mean Average Precision)

需要计算precision和recall

检测任务判断TP:选定IOU > 0.5的框,对confidence设定threshold