차곡차곡

2021 데이터 청년 캠퍼스 5주차 본문

2021 데이터 청년 캠퍼스/୧ʕ•̀ᴥ•́ʔ୨

2021 데이터 청년 캠퍼스 5주차

sohy 2022. 12. 1. 20:09

2주 만에 간 서울여대

 

프로젝트가 시작되었다 !!! 처음 해보는 프로젝트는 생각보다 재밌고 순조로운 것 같다. 중간 중간 오류를 찾아 수정하고, 모르는 부분은 구글링을 해가며 새로운 기술들을 알아가는 게 즐겁게 느껴진다.

 

처음 프로젝트 주제가 주어졌을 때 '알고리즘' 개발이라 되어 있어서 막막하면서도 나름 알고리즘에 자신 있어 하던 나라 구체적인 주제가 궁금했는데, 월요일에 기업과 킥오프미팅을 한 결과 쉬운 것 같으면서도 어려울 것 같은 주제였다. 최종 주제는 수집된 데이터를 통해 '영유아 정신 발달의 평균 생후일수'를 구해주는 알고리즘을 짜는 것이다. 머신러닝, 딥러닝 모델을 찾아서 적용하는 것이 아니라 실제 알고리즘을 짜야 하는 프로젝트여서 다행인 것 같다. 머신러닝, 딥러닝 분야였으면 울면서 논문 읽고 있었겠지 .. 물론 나중에 사용할 수도 있지만 지금 당장은 아니어서 다행이다.

 

지금 하고 있는 부분은 데청캠에서 교육을 받으면서 가장 재밌게 배웠던 데이터전처리 부분이다. 테스트 데이터와 오염 데이터, 중복 데이터를 거르고 있는데 오염 데이터를 거르는 게 조금 까다롭다. 중간 중간에 말도 안 되는 데이터들이 껴있는데 이걸 휴먼이 판단하면 끝도 없기 때문에 ,, 하나 예를 들자면 생후일수가 0일인데 숨바꼭질을 할 수 있다는 질문에 할 수 있다고 답한 데이터가 몇 개 있다. 이렇게 말이 되는 지, 안 되는 지 판단하는 것을 어떤 기준에서 하면 좋을 지 담당자님께 여쭤보자, 이 부분은 통계를 내서 판단을 해야 할 것 같다고 답변이 왔다. 그래서 기술 조교님께 통계를 어떻게 내면 좋을 지 조언을 구한 결과, 범주 안에서 벗어난 데이터를 확인할 수 있는 스캐터나 박스플로우를 사용하는 게 좋을 것 같다고 하셨다. 팀원들 모두 스캐터나 박스플로우를 어떻게 사용하는 지 잘 모른다고 하셔서 다같이 검색을 하면서 알고리즘을 짰다. 결과적으로 내가 성공?을 해서 내가 짠 알고리즘으로 진행했다. ㅎㅎ (근데 지금 최종적으로 분포도 뽑아보니까 조금 이상한 점이 있어서 내일 얘기 나누고 분포도 범위를 다시 나눠야 될 것 같다.) 항상 단순히 숫자 값을 아웃풋하는 프로그래밍만 하다가 이렇게 아웃풋으로 분포도를 나타내는 알고리즘을 짜보니까 신기하다.

 

그런데, 금요일날 집에 와서 곰곰이 생각해보니 일주일 동안 내가 너무 내 판단한 것을 위주로 하려 했던 것 같다. 코드도 다 내가 짜려 하고 .. 나서는 조원이 없어서 내가 더 나서게 됐던 것 같은데 .. 그래도 다음 주부터는 좀 주의해야 될 것 같다. 말 그대로 '팀' 프로젝튼데 내가 혼자 다 해결 하려 하면 안 된다. 다음 주부턴 의견을 조금 덜 내고, 조원들의 말에 더 귀 기울여야겠다.

 

한 주 또 화이팅하자!

Comments