본문 바로가기

기술자료

ResNet 모델 SSD 모델 YOLO 모델 EfficientNet 모델 MobileNetV3 모델

각 모델의 특성 및 요구 사항 강조


ResNet 모델


ResNet50, ResNet101, ResNet152, ResNet200D

형질:
아키텍처: 경사 소실 문제를 해결하기 위해 건너뛰기 연결이 있는 깊은 잔차 네트워크.
사용 사례: 주로 이미지 분류 작업에 사용됩니다.

 

성능:
ResNet50: 입력 크기: 224x224, 지연 시간: 0.71ms, 처리량: 2,758.44 항목/초
ResNet101: 지연 시간: 4.82ms
ResNet152: 지연 시간: 5.81ms
ResNet200D: 입력 크기: 320x320, 지연 시간: 12.17ms

 

필요 사항:
정규화: BatchNormalization을 효율적으로 활용합니다.
입력 크기: 특정 모델 및 작업에 따라 다르지만 일반적으로 224x224 또는 320x320입니다.
컴퓨팅 성능: 심층적인 아키텍처와 많은 매개변수로 인해 높음.
데이터: 모델 깊이의 잠재력을 최대한 활용하려면 대규모 데이터 세트가 선호됩니다.


SSD 모델


SSD-MobileNet, SSD-ResNet34

형질:

아키텍처: MobileNet 또는 ResNet과 같은 경량 백본과 결합된 SSD(Single Shot Multibox Detector).
사용 사례: 실시간 개체 감지.

 

성능:
SSD-MobileNet: 입력 크기: 300x300, 지연 시간: 0.36ms, 처리량: 8,762.15 항목/초
SSD-ResNet34: 입력 크기: 1200x1200, 지연 시간: 13.43ms, 처리량: 79.92 항목/초
필요 사항:

정규화: BatchNormalization을 사용하면 효과적입니다.
입력 크기: 일반적으로 MobileNet 변형(300x300)의 경우 더 작고 ResNet 변형(1200x1200)의 경우 더 큽니다.
컴퓨팅 성능: 다양합니다. SSD-MobileNet은 가볍고 효율적인 반면 SSD-ResNet34는 컴퓨팅 집약적입니다.
데이터: 객체 감지 작업을 위해서는 주석이 달린 다양한 데이터 세트가 필요합니다.

 

YOLO 모델


YOLOv5, YOLOX, YOLOv7, YOLOv8

형질:

아키텍처: 실시간 객체 감지를 위해 설계된 YOLO(You Only Look Once) 아키텍처입니다.
사용 사례: 빠른 속도와 정확도로 비디오 및 이미지에서 객체를 감지합니다.

 

성능:
YOLOv5 소형: 입력 크기: 640x640, 지연 시간: 3.84ms
YOLOv5 중간(512x512): 지연 시간: 4.19ms, 처리량: 357.14 항목/초
YOLOv5 대형(640x640): 지연 시간: 9.06ms
YOLOX 대형(640x640): 지연 시간: 12.60ms
YOLOv7(640x640): 지연 시간: 11.34ms
YOLOv8 n(640x640, 3.2M 매개변수): 지연 시간: 7.34ms
필요 사항:
정규화: 일반적으로 BatchNormalization을 사용합니다.
입력 크기: 640x640의 일관된 입력 크기는 여러 변형에서 일반적입니다.
컴퓨팅 성능: 더 큰 변형에는 상당한 컴퓨팅 리소스가 필요합니다.
데이터: 객체 감지 모델 학습을 위한 대규모 레이블이 지정된 데이터세트입니다.

 

EfficientNet 모델


EfficientNet Lite0, Lite1, V2 소형

형질:

아키텍처: 깊이, 너비, 해상도의 균형을 맞추는 확장 가능한 모델입니다.
사용 사례: 효율성에 초점을 맞춘 이미지 분류.

 

성능:
EfficientNet Lite0: 지연 시간: 3.16ms
EfficientNet Lite1: 지연 시간: 3.50ms
EfficientNetV2 소형(300x300): 지연 시간: 1.97ms
필요 사항:

정규화: 효율성을 위해 BatchNormalization을 활용합니다.
입력 크기: 다양하며 일반적인 크기는 224x224 및 300x300입니다.
컴퓨팅 성능: 효율성을 위해 설계되었으며 덜 강력한 하드웨어에 배포하는 데 적합합니다.
데이터: 효율적인 아키텍처 설계로 인해 기존 CNN에 비해 더 적은 데이터로 효율적입니다.

 

MobileNetV3 모델


MobileNetV3_L_075d, MobileNetV3_S_100d

형질:

아키텍처: 모바일 및 엣지 기기에 최적화된 경량 모델입니다.
사용 사례: 이미지 분류, 리소스가 제한된 장치에서 개체 감지.
성능:
MobileNetV3_L_075d: 지연 시간: 3.19ms
MobileNetV3_S_100d: 지연 시간: 3.21ms

 

필요 사항:

정규화: BatchNormalization을 사용하여 효율성을 유지합니다.
입력 크기: 일반적으로 224x224이며 다양한 사용 사례에 적용할 수 있습니다.
컴퓨팅 성능: 낮음, 모바일 장치의 속도와 효율성에 최적화되었습니다.
데이터: 효율적인 설계로 인해 대규모 모델에 비해 훈련에 필요한 데이터가 더 적습니다.

 

최적화 통찰력


최적화 전략은 특정 기능을 활용하고  하드웨어의 한계를 해결하는 데 중점을 둡니다.

대형 입력 크기에 대한 패치: 더 큰 입력 크기에 대한 효율성을 유지하기 위해 패치가 사용됩니다. 여기에는 대규모 입력을 더 작고 관리하기 쉬운 패치로 나누는 작업이 포함됩니다.

BatchNormalization: 다른 정규화 기능(예: LayerNormalization 또는 InstanceNormalization)을 BatchNormalization으로 변환하면 Warboy 하드웨어와의 호환성이 보장되고 성능이 최적화됩니다.

가속되지 않은 작업: 하드웨어에 의해 가속되지 않는 작업은 모델 작업 내에서 병목 현상이 발생하는 것을 방지하기 위해 전처리 또는 후처리 단계로 이동됩니다.

연결 고려 사항: 과도한 연결은 성능을 저하시킬 수 있으므로 채널 축을 따라 연결 작업을 최소화하면 처리량과 정확성을 유지하는 데 도움이 됩니다.

결론
각 모델에는  하드웨어의 성능에 영향을 미치는 특정 특성과 요구 사항이 있습니다. 이러한 요구 사항을 이해하고 타겟 최적화 전략을 구현함으로써 다양한 기계 학습 작업에 배포할 때 이러한 모델의 효율성과 효과를 극대화할 수 있습니다.