팀 프로젝트/개인정보 비식별처리 (2023한이음)

[한이음23_HF054] 프로젝트 요약

장경훈 2023. 11. 9. 13:11

GitHub 링크: https://github.com/kyounghunJang/23_HF054-De-identification

1. 프로젝트 소개

 의료데이터의 분석 및 활용이 서비스 품질 발전에 큰 기여를 할 수 있는 상황이다. 하지만 이를 활용하기 위해서는 의료데이터에 포함된 개인정보를 제거해야한다. 따라서 비정형 데이터에서 개인정보를 추출 및 제거하는 기술을 개발하고 이를 활용한 자동화 파이프라인을 구축해보려고 한다.

 

2. 적용기술 및 아키텍처

  • 비식별 처리 : 데이터 마스킹, 데이터 삭제 기술을 사용하여 민감한 개인정보를 비식별처리
  • 비식별 처리 자동화 파이프라인 : 병원 서버를 S3로 가정하고 데이터가 업로드 되면 배치처리로 비식별처리 후 완료된 데이터를 DB에 저장하는 파이프라인
  • EasyOCR : 이미지 속 텍스트를 판별하여 추출하는 기술
  • 모니터링 : 파이프라인 작동시 성공적으로 비식별 처리가 완료되었는지 확인 (SSM 로그를 확인)

* 2-1 개발환경

* 2-2 아키텍처 

3.  주요기능

  • 텍스트 검출/ 추출 및 전처리 : EasyOcr을 사용하여 텍스트를 검출 및 추출 후 모델에 적합한 데이터로 전처리
  • 비식별 처리 : SparkML의 Gradient Boosting Tree을 사용하여 데이터 비식별 처리
  • 비식별처리 자동화 : 업로드 -> SQS -> Lambda -> SSM(Run Shell script) -> EC2->DB or Flask 의 순서로 비식별처리 과정을 수행한다.
  • 검색 웹 인터페이스 : Flask로 웹서버를 구축 데이터 사용자가 필요한 데이터의 부위를 검색 및 다운로드 가능
  • DB : MySQL에 비식별 처리가 완료된 이미지 데이터의 이미지 URL을 저장

 

4. 프로젝트 수행 일정

 

5. 결과물 시연 영상(Web)

https://youtu.be/Jj0mzE0zwUs?si=KUZ0fTTik4aA1HT3