<aside> 🔥 내가 네이버 가고싶다!

</aside>

프로젝트 개요

Untitled

프로젝트 주제 카메라로 촬영한 사람 얼굴 이미지를 통해 연령,성별,마스크 착용 여부를 판단
프로젝트 개요 부스트캠프 Level1-U stage 강의를 통해 배운 내용을 바탕으로, 모델을 설계하고 학습하며 추론을 통해 나온 결과를 바탕으로 순위 산정하는 방식
활용 장비 및 재료 • GPU : Tesla V100
• 개발환경 : Jupyter Lab , VS code
• 협업 tool :
◦ Notion : 회의록 정리 , Experiment Page 만들어서 실험 정리 및 공유
◦ Github : 코드 협업
◦ Slack, 카카오톡 : 활발한 의견 공유 |

| 프로젝트 구조및 사용 데이터셋의 구조도 (연관도) | • metric : Macro F1 Score • Data : ◦ 20~70대의 아시아인 남녀(4500명) ◦ 한 사람당 사진의 개수: 7 [마스크 착용 5장, 이상하게 착용(코스크, 턱스크) 1장, 미착용 1장] ◦ 이미지 크기 : (384,512) ◦ train : 전체 데이터셋의 60% ◦ eval : public 20% , private 20% | | 기대 효과 | 사진 이미지 만으로 사람이 마스크를 올바르게 잘 썼는지 자동으로 가려낼 수 있는 시스템을 구현하고, 이 시스템이 공공장소 입구에 갖춰져 있다면 적은 인적자원으로도 충분히 검사가 가능할 것이다. |


프로젝트 팀 구성 및 역할

김태일_T3063 데이터를 분포를 확인하는 EDA와 불균형한 데이터의 분포를 해결할 수 있는 방법 제시
박세연_T3091 적합한 Model 적용과 AMP를 포함한 Baseline 배포
이재학_T3161 f1 loss 제안, 원본 데이터에서 모든 실험 담당 및 실험관리 검토 후 놓친 부분 실험 제안
김상렬_T3032 miss labeling 데이터에 대한 정정, background 제거 코드 작성
정시현_T3198 EDA를 통한 miss labeling, incorrect path 확인 및 Annotation 코드 작성

프로젝트 수행 절차 및 방법

Dataset

  1. 전반적인 CSV 데이터를 통한 결측, 이상 데이터 탐지

csv 요약

csv 요약

csv 상 특별한 결측치는 없었고 ID 중복이 있긴 했으나 사진을 확인해보니 다른 사람이여서 학습 시 중복 데이터에 대한 문제는 생기지 않을 것이라 판단했다.

  1. 연령대별 분포

연령대별 분포 분석 그래프

연령대별 분포 분석 그래프

연령대는 청년층(~29세), 중년층(30세~59세), 노년층(~60세)로 나누어 지고 각 연령대의 비율은 아래의 첫 번째 두번째 그래프에서 확인할 수 있다. 노년층의 데이터가 상당히 부족한 것을 확인할 수 있다.

연령대만을 기준으로 나눈다면 학습 데이터에 30대, 40대의 데이터가 부족하다는 것을 인지하지 못할 수 있다. 하지만 연령대를 결정 짓는 30대 데이터의 부족은 모델이 30대 초반을 충분히 학습시키지 못하여 청년층으로 오판할 수 있는 가능성을 높일 수 있기 때문에 반드시 인지하고 해결해야 한다.

  1. 성별별 분포

성비도 여자 61.4%, 남자 38.6%로 어느 정도는 불균형하지만 크게 문제가 될 것이라는 생각은 안했다.