GitHub 링크:
1. 프로젝트 소개
- 데이터 패브릭 구조는 데이터를 직접적으로 통합하는 것이 아니라 메타데이터 활성화를 통해 분산된 데이터를 연결하는 방식
- 데이터 패브릭 구조를 활용하여 데이터를 통합하는 방식은 빠른 데이터 액세스를 제공
- 사용하는 데이터양이 증가하면서 복잡해지고 있기 때문에 이를 데이터 사이 취사선택에 어려움이 증가
- 데이터 간 상관관계를 파악한다면 데이터 사용자는 자신이 필요한 데이터를 선택하는 상황에서 도움이 됨
- 따라서 다양한 데이터에서 메타데이터를 추출해 데이터 사이의 상관관계를 분석해서 사용자의 빠른 데이터 선택과 처리를 도와주는 프로젝트를 기획하게 되었음
- 이 프로젝트에서는 공공데이터의 메타데이터를 추출하여 상관관계를 분석하고 점수를 보여주는 포털을 만드는것이 목표
2. 적용기술 및 아키텍처
- 메타데이터 추출 및 적재: AWS Glue를 이용하여 정형, 반정형, 비정형 데이터의 메타데이터를 추출 및 DB에 적재
- GPT API : 키워드를 입력받았을 때 추출된 메타데이터와의 유사한 단어 10개를 입력받는다
- Flask: 사용자들이 데이터를 검색 및 다운로드 경로를 찾을 수 있도록 도와주는 웹 서비스
- 메타데이터 추출 자동화: AWS Glue workflow를 사용하여 새롭게 추가된 데이터의 메타데이터를 매일 특정 시간에 업데이트
*2-1 아키텍처
3. 프로젝트 수행 일정
4. 프로젝트 시연 영상
'팀 프로젝트 > Data fabric (2023한이음)' 카테고리의 다른 글
[한이음 23_HF130] Data Fabric KPT 회고 (0) | 2023.12.27 |
---|