딥러닝으로 두피 상태를 진단할 수 있을까 — EfficientNet-B0 기반 6 유형 진단 (순천향대 2022)

핵심 답변 요약

순천향대학교 빅데이터공학과 연구진은 AIhub의 한국인 두피 이미지 약 10만 건을 EfficientNet-B0 신경망으로 학습해 6가지 두피 유형(미세각질·피지과다·모낭사이홍반·모낭홍반/농포·비듬·탈모)을 4단계 심각도(양호·경증·주의·심각)로 자동 진단할 수 있음을 시연했습니다. 평균 검증 정확도는 약 65%, 데이터가 풍부한 모낭사이홍반은 **77.9%**로 가장 높았으며, 데이터가 적거나 시각적 특징이 약한 탈모는 훈련 정확도 82.3%에 비해 검증 정확도가 51.0%로 떨어지는 과적합 패턴이 관측되었습니다. 본 논문이 사용한 데이터셋·모델·6 유형 분류 체계는 빛다 진단 시스템과 동일하며, 빛다는 추가로 임베딩 기반 검색과 Prior 정규화로 본 논문이 노출한 한계를 보완합니다.

연구 배경 — 왜 두피 이미지 학습이 필요한가

기존 두피 관련 모바일 애플리케이션은 자가 진단용 질문지나 두피 마사지 방법·식이 정보를 제공하는 데 그쳤습니다. 사용자가 자신의 두피 사진을 찍어 객관적인 상태를 확인할 수 있는 도구는 거의 없었습니다.

이 논문 이전의 시도는 다음과 같은 한계가 있었습니다.

임피던스(전류) 측정 방식(Sim 외, 2007)은 정상·지성·건성 3종만 분류 가능했습니다.
CNN 기반 각질 검출(Cho 외, 2021)은 지루성 두피염 같은 단일 질환에 한정되었습니다.
DNN 기반 분류 연구(Hwang 외, 2021)는 같은 AIhub 데이터를 사용했지만 데이터 양이 부족해 정확도 신뢰성을 충분히 보장하지 못했습니다.

본 논문은 이러한 선행 연구의 데이터 양 부족 문제를 AIhub 공개 데이터(약 10만 건) 와 EfficientNet-B0의 효율적 구조로 정면 보완하려 했습니다.

데이터셋 — AIhub 한국인 두피 이미지 10만 건

연구에 사용된 데이터의 기본 단위는 다음과 같습니다.

6 유형: 미세각질, 피지과다, 모낭사이홍반, 모낭홍반/농포, 비듬, 탈모
4 단계 심각도: 양호(0), 경증(1), 주의(2), 심각(3)
촬영 부위: 정수리 / 좌측두 / 우측두 / 후두부 4개 부위 — 본 논문은 그중 정수리 이미지만 사용

각 유형 × 단계 별 데이터 분포는 다음과 같이 매우 불균형했습니다.

| 유형 | 양호(0) | 경증(1) | 주의(2) | 심각(3) | |---|---|---|---|---| | 미세각질 | 686 | 5,702 | 7,054 | 2,936 | | 피지과다 | 686 | 36,079 | 31,481 | 4,816 | | 모낭사이홍반 | 686 | 38,520 | 16,659 | 5,496 | | 모낭홍반/농포 | 686 | 2,733 | 974 | 417 | | 비듬 | 686 | 16,291 | 8,763 | 2,900 | | 탈모 | 686 | 17,443 | 4,881 | 1,075 |

피지과다·모낭사이홍반은 5만 건 이상으로 풍부한 반면 모낭홍반/농포는 4천여 건에 불과하며, 모든 유형의 양호(severity 0) 데이터는 686건으로 동일합니다. 이 분포 불균형은 모델의 인식 정확도와 직접적으로 연결됩니다.

모델 선택 — EfficientNet-B0가 합리적인 이유

연구진은 EfficientNet(Tan & Le, 2019) 계열을 선택했습니다. EfficientNet은 모델의 깊이(depth) · 너비(width) · 입력 이미지 해상도 세 요소를 수동 조절하는 기존 CNN의 한계를 compound scaling 수식으로 해결한 신경망입니다.

특히 본 논문은 가장 작은 EfficientNet-B0(파라미터 약 530만 개)를 선택했는데, 그 근거는 다음과 같습니다.

EfficientNet-B7(파라미터 약 6,600만 개)을 사용한 기존 모델의 진단 정확도는 70%를 하회하는 수준에 머물렀습니다.
약 12배 가벼운 EfficientNet-B0로 학습 시 정확도 차이가 약 5%p에 불과합니다.
따라서 모바일 환경(스마트폰 + 현미경)에서도 비슷한 진단 정확도를 구현할 수 있어 비용 효율성이 크게 향상됩니다.

EfficientNet-B0의 기본 구조(Table 2)는 9개 블록으로 구성되며, 마지막 블록에서 1,280-dim feature vector를 출력합니다. 이 feature는 본 논문에서는 분류 레이어로 직접 연결되지만, 다른 시스템(예: 빛다)에서는 임베딩 표현으로 활용할 수 있는 지점이기도 합니다.

결과 — 6 유형별 정확도와 남은 과제

| 유형 | 훈련 정확도 | 검증 정확도 | 격차 | |---|---|---|---| | 미세각질 | 72.0% | 62.4% | 9.6%p | | 피지과다 | 71.7% | 65.7% | 6.0%p | | 모낭사이홍반 | 84.5% | 77.9% | 6.6%p | | 모낭홍반/농포 | 81.6% | 74.4% | 7.2%p | | 비듬 | 80.1% | 63.5% | 16.6%p | | 탈모 | 82.3% | 51.0% | 31.3%p ⚠ |

평균 검증 정확도는 약 **65%**이며, 다음과 같은 패턴이 관측됩니다.

데이터가 풍부한 유형(모낭사이홍반·피지과다·모낭홍반): 70~78%대의 양호한 정확도
데이터가 충분해도 시각적 변별성이 낮은 유형(비듬·탈모): 훈련-검증 격차가 크게 벌어짐
탈모: 훈련 82.3% vs 검증 51.0%로 31.3%p 격차 — 명백한 과적합 또는 시각 단서 부족

연구진은 이 탈모 검증 정확도 하락을 해결해야 할 과제로 명시했습니다. 단순히 신경망 분류만으로 두피 사진에서 탈모를 정확히 진단하기에는 모낭 패턴, 모발 굵기, 분포 등 추가 단서가 필요함을 시사합니다.

빛다 시스템과의 정합성

빛다 헤어케어 AI 플랫폼은 본 논문과 매우 유사한 설계를 출발점으로 삼되, 몇 가지 핵심 부분에서 진보된 접근을 적용했습니다.

동일한 부분

데이터셋: AIhub 한국인 두피 이미지 동일 사용
유형 분류: 6 유형 × 4 심각도 동일 체계
모델: EfficientNet-B0 동일 백본
이미지 크기: 224 × 224 정규화 동일

빛다에서 진보된 부분

분류 헤드 제거 + 임베딩 검색 전환: 본 논문은 EfficientNet-B0 끝에 분류 헤드를 두어 직접 6 유형을 출력합니다. 빛다는 분류 헤드를 떼어내고 마지막 1,280-dim feature를 임베딩 벡터로 추출한 뒤, pgvector 코사인 유사도 top-K 검색으로 가장 닮은 학습 사례를 찾아 다수결로 진단합니다.
데이터 규모 확장: 빛다는 168,427건의 임베딩을 IVFFlat 인덱스(lists=100)로 사전 적재해 본 논문(약 10만 건)보다 더 풍부한 검색 풀을 운영합니다.
Prior 정규화: 본 논문이 노출한 데이터 불균형 영향을 빛다는 count / CONDITION_PRIOR_COUNTS 정규화로 보정합니다. 다수 유형이 무조건 우세하지 않도록 조정합니다.
HEALTHY 분기: 양호(severity 0) 데이터 부족(686건/유형) 문제를 빛다는 평균 심각도 < 0.5 또는 top-1 distance < 0.05 같은 분기 규칙으로 보완합니다.
품질 가드: 흐릿한 이미지를 OpenCV Laplacian 점수로 사전 필터링해 HTTP 422로 재촬영을 유도합니다.

본 논문이 시사하는 빛다의 다음 과제

본 논문이 강조한 탈모 진단의 정확도 한계(검증 51%) 는 빛다에도 동일하게 관찰되는 도메인 난제입니다. 빛다는 향후 다음 방향으로 개선을 추진합니다.

distance-weighted voting: 단순 다수결을 넘어 임베딩 거리에 따른 가중 투표
임베딩 fine-tuning: 한국인 두피 도메인에 더 특화된 representation 학습
사용자 경험 데이터 결합: 진단 후 리뷰·재진단 데이터로 자기개선 루프 형성

본 논문은 빛다가 동일한 출발점에서 출발해 이미 한 단계 더 나아가 있음을 확인하는 동시에, 앞으로 풀어야 할 공통의 과제도 함께 제시하는 중요한 학술적 근거입니다.

마무리

이 글은 학술 자료에 대한 정보 제공을 목적으로 하며, 의학적 판단·치료를 대신하지 않습니다. 두피 상태에 대한 정확한 평가와 처치는 반드시 피부과 전문의 등 의료기관 상담을 통해 받으시기를 권장합니다. 빛다 분석은 AIhub 공개 데이터셋과 동일한 모델 계열(EfficientNet-B0)을 사용하지만, 어떠한 효과도 단정하지 않으며 사용자의 의사결정을 보조하는 참고 정보로만 제공됩니다.