팀 프로젝트 7

[한이음 23_HF130] Data Fabric KPT 회고

*KEEP 알지 못했던 개념인 Data Fabric에 대해서 알게 되어서 좋았다. 앞으로 시간이 지나면 지날수록 이 개념이 더욱더 중요해지는 시기가 올 것이라고 생각한다. 그렇기 때문에 관련 기술 동향을 주기적으로 확인하고 공부해서 시대에 뒤처지지 않도록 해야겠다. Aws Glue를 처음 접해봤는데 ETL작업을 하기위한 툴임을 확인할 수 있었고 Spark을 기반으로 돌아가며 메타데이터 추출에 용이한 것을 확인할 수 있었다. 추후에 다시 클라우드를 경험할 수 있다면 Glue에 관한 공부를 조금 더 해봐야겠다 *PROBLEM Data Fabric의 개념에 대해서 난해하고 관련 지식이 부족해서 이해하기가 어려웠고 그 결과 결과물의 퀄리티가 생각보다는 낮았고 데이터 페브릭에 적합한지 의문이 들었다. 데이터의 양..

[23_HF130] 프로젝트 요약

GitHub 링크: 1. 프로젝트 소개 데이터 패브릭 구조는 데이터를 직접적으로 통합하는 것이 아니라 메타데이터 활성화를 통해 분산된 데이터를 연결하는 방식 데이터 패브릭 구조를 활용하여 데이터를 통합하는 방식은 빠른 데이터 액세스를 제공 사용하는 데이터양이 증가하면서 복잡해지고 있기 때문에 이를 데이터 사이 취사선택에 어려움이 증가 데이터 간 상관관계를 파악한다면 데이터 사용자는 자신이 필요한 데이터를 선택하는 상황에서 도움이 됨 따라서 다양한 데이터에서 메타데이터를 추출해 데이터 사이의 상관관계를 분석해서 사용자의 빠른 데이터 선택과 처리를 도와주는 프로젝트를 기획하게 되었음 이 프로젝트에서는 공공데이터의 메타데이터를 추출하여 상관관계를 분석하고 점수를 보여주는 포털을 만드는것이 목표 2. 적용기술 ..

[한이음 23_HI041] PC로그 이상탐지 KPT 회고

*KEEP 실시간 데이터 처리를 위해 Kafka를 사용하여 동시다발적으로 여러 프로세스를 처리해 본 점이 좋았다. 이번에 익힌 Kafka를 사용하여 다양한 프로젝트를 경험해 보고 최적화까지 도전해 봐야겠다. DynamoDB를 사용하여 NoSQL에 대해서 경험해 본 것도 나에게 좋았던 것 같다. 이번 프로젝트를 진행하면서 다른 한이음 프로젝트들과 동일하게 문서 작업의 중요성을 알게 되었다. 특히 일정 관리와 추구하는 목표 역할 나눔에 있어서 잘 만들어진 문서 작업은 큰 도움을 줄 수 있다는 것을 알 수 있었다. 학교에서 했던 팀 프로젝트를 제외하고 처음으로 팀 프로젝트를 진행했는데 긴 호흡의 프로젝트여서 그런지 정리해야 할 것들도 많았고 서로 소통해야 했던 부분들도 많았다. 이번 프로젝트를 하면서 좀 더 ..

[한이음23_HI041] 프로젝트 요약

GitHub 링크: https://github.com/kyounghunJang/23_HI041 1. 프로젝트 소개 IT기술이 발전함에 따라 pc 내에서 관리해야 할 자원들이 많아지고 복잡해지고 있다. 이에 따라 pc에 이상이 발생할 경우 문제의 원인을 파악하기 어려운 현상이 발생한다. 사용자 pc를 안정적으로 운용하기 위해 pc에서 발생하는 성능 및 이벤트 로그 데이터를 수집 후 저장 및 시각화하는 서비스를 제작하려고 한다. 2. 적용기술 및 아키텍처 Isolation Forest: 이상치 탐지(anomaly detection)를 위한 기계 학습 알고리즘 모델이다. 이 알고리즘은 특히 대규모 데이터 세트에 효과적이며, 이상치가 상대적으로 적은 경우에 특히 유용하다. 지표 모니터링: kibana를 사용하여..

[23_HF054] 비식별처리 프로젝트 KPT 회고

*KEEP 처음으로 AWS를 사용하여 프로젝트를 구현하게 되어 처음에는 상당히 어려움이 있었지만 그래도 포기하지 않고 계속 노력하여 알아갔던 게 좋았던 것 같다. 새롭게 배워야 할 내용들이 많은데 계속 도전하려는 마음을 가지고 해야겠다. 이 프로젝트에서 사용한 AWS의 서비스(SQS, Lambda, S3, EC2)에 관한 내용들을 정리하여 추후 다른 프로젝트를 할 때도 다양한 에러들에 대처하고 구현에 필요한 서비스를 찾을 수 있도록 해야겠다. 이번 프로젝트를 진행하면서 문서 작업의 중요성을 알게 되었다. 특히 일정 관리와 추구하는 목표 역할 나눔에 있어서 잘 만들어진 문서 작업은 큰 도움을 줄 수 있다는 것을 느꼈다. *좋은 문서를 만드는 게 개인적으로는 가장 어려웠던 것 같다. 학교에서 했던 팀 프로젝..

[한이음23_HF054] 프로젝트 요약

GitHub 링크: https://github.com/kyounghunJang/23_HF054-De-identification 1. 프로젝트 소개 의료데이터의 분석 및 활용이 서비스 품질 발전에 큰 기여를 할 수 있는 상황이다. 하지만 이를 활용하기 위해서는 의료데이터에 포함된 개인정보를 제거해야한다. 따라서 비정형 데이터에서 개인정보를 추출 및 제거하는 기술을 개발하고 이를 활용한 자동화 파이프라인을 구축해보려고 한다. 2. 적용기술 및 아키텍처 비식별 처리 : 데이터 마스킹, 데이터 삭제 기술을 사용하여 민감한 개인정보를 비식별처리 비식별 처리 자동화 파이프라인 : 병원 서버를 S3로 가정하고 데이터가 업로드 되면 배치처리로 비식별처리 후 완료된 데이터를 DB에 저장하는 파이프라인 EasyOCR : ..