SK플래닛 T아카데미 ASAC 빅데이터 분석, AI 과정 5주 차 회고를 작성합니다.

 

 

지난 5주차에는 셀레니움을 이용해서 웹크롤링 하는 방법, 태블로 프로그램을 이용해 데이터 시각화하는 방법, pandas를 이용해서 데이터 정제 하는 방법을 다루었습니다. 셀레니움과 태블로를 저는 처음 사용해 봤기 때문에 해당 수업을 특히 집중해서 들었고 정말 재밌게 실습에 참여했습니다. 수업이 끝나고 따로 원하는 사이트를 정해서 혼자서 셀레니움 복습도 해 보고, 공공데이터를 받아 태블로 시각화도 복습해 보면서 감을 조금씩 익혔습니다. 네이버 쇼핑 데이터를 크롤링하다 차단을 당하는 웃지 못할 해프닝도 있었습니다. 다양한 방법을 동원해 봤는데 결국 안 풀리더라고요(^^;;;) 개인 프로젝트 주제로 네이버 쇼핑 데이터가 필요했었다면 큰 낭패를 보았을 뻔했습니다. 휴!

 

 

지난 주부터 드디어 본격적인 개인 EDA 프로젝트 준비에 돌입했습니다. 많은 동기들이 주제를 오래 고민했지만 저는 그중에서도 특히 갈피를 잡지 못해 많이 헤맸던 것 같습니다. 다른 사람들은 어떻게 주제를 선정하나 살펴보니, 먼저 본인이 취업하고 싶은 분야를 정하고, 그 분야에 어필할 수 있는 방향으로 주제를 세부화해 나가시더라고요. 예를 들면 나는 쿠팡에 취직을 하고 싶으니 쿠팡의 자체 브랜드에 관해 조사한다던지, 화장품에 관심이 많으니 화장품 성분과 리뷰의 상관관계를 조사한다던지 하는 것이죠. 저의 경우에는 '취업하고 싶은 분야'랄 게 딱히 없었기 때문에 문제가 되었습니다. 여기에도 관심이 있고 저기에도 관심이 있다고 할까요. 내가 모르는 새로운 어떤 분야에든 데이터 사이언티스트로 진출해서 열린 마음으로 일해보고 싶다!는 오픈 마인드였는데, 이게 개인프로젝트 주제 선정에는 도움이 되지 않더라고요.

 

 

결론부터 말씀드리면 저는 제가 지난 20대를 몸담아 바친 교육계와 관련된 주제를 선정하게 되었습니다. 사실 저는 이쪽 주제를 선정하는 것은 처음부터 약간 기피했습니다. 개인 EDA 프로젝트를 통해 완전히 새로운 분야에 진출하는 초석을 다질  욕심이 있었기 때문인데요. 프로젝트를 어느정도 완성해 가는 지금 생각해 보면 결국 제가 잘 아는 도메인을 선정한 것이 올바른 결정이었다는 생각이 듭니다. (물론 만약 특정 분야에 큰 관심이 있었더라면 그 분야를 연구하는 게 낫겠지만요.) 제가 잘 아는 분야인 만큼 연구의 방향성이 눈에 더 잘 보이기도 했고, 인사이트가 꼬리에 꼬리를 물고 확장되어감을 느낄 수 있었기 때문입니다. 

 

 

저의 개인 프로젝트 흐름은 다음과 같습니다.

  • 2022 개정 교육과정 분석, 관련 데이터 수집 분석, 관련 연구 논문 여러 개 분석, 직접 AL/ML 모델링 후 현황 연구 검증, 앞으로의 연구 방향성 제시

걱정까진 아니지만 그래도 아직 고민하고 있는 부분은, 다른 동기들의 수집 데이터가 대부분 구매 패턴 데이터, 후기 데이터 등 유저에 관련된 데이터들이더라고요. 저도 적당히 크롤링을 하긴 했지만 상대적으로 국가 문서와 연구 논문 분석이 메인을 이루기 때문에 이런 부분에서 데이터가 빈약해 보이지 않을까 하는 생각이 들었습니다. 또, 취업 측면에서 본다면 확실히 고객 관련 데이터를 분석하는 것이 기업의 매출 신장과 직결되기 때문에 더 어필될 것도 맞을 테고요. 주제에 필요한 데이터가 다르긴 하지만 그래도 약간의 조바심이 나는 것은 사실이기 때문에, 발표 전에 시간이 남으면 관련된 유저 데이터도 한번 검색해서 분석해보고자 합니다.

 

 

그래도 차별화 되는 점은 제 프로젝트에 인공지능 모델링을 직접 수행하고 연구 논문을 검증하는 과정이 포함되었다는 것인데요. 제가 알기론 다른 동기들 중에 딥러닝을 이번 개인 EDA 프로젝트 소재로 삼으신 분은 없는 걸로 알고 있습니다. 아직 아삭 과정에서 배우지 않은 파트이기도 하고요. 다만 저는 인공지능 엔지니어링 쪽에 관심이 많아 이전부터 독학을 해오고 있던지라 경험과 기본지식을 가지고 있는 상태였고, 강사님께서 딥러닝 쪽에 뜻이 있다면 이렇게 이렇게 해보자며 코칭도 해 주셔서, 큰 용기를 내어 프로젝트에 포함을 시키게 되었습니다. 그리고 아주 잘한 결정이라고 생각해요. 확실히 프로젝트가 빠른 성장에 도움이 됩니다. 주제에 관련된 국내외 논문을 이것저것 검색하고 직접 읽고 모델링을 해서 검증까지 해보게 되면서 크고 작은 산을 정말 많이 넘어야 했고, 남의 코드도 많이 들여다봐야 했거든요. 역시 사람은 고난과 역경을 극복하면서 발전하는 것 같습니다. 

 

 

아, 생각보다 해외 연구 논문 읽는 게 재밌더라고요. 외국인 친구들이랑 가깝게 잘 지내고 영어 원서도 한 달에 한 권씩 읽고 강의도 유데미 해외강의로만 들으면서 영어공부를 꾸준히 한 것이 큰 도움이 되나 봅니다. 연구 논문에 나오는 많은 용어들 전부 평소에 제가 공부하면서 쓰고 익히던 것들이라 읽고 이해하는 데 막힘이 없어서 뿌듯했습니다. 취업할 때 이런 점을 잘 어필해 봐야겠습니다. 다들 영어 공부 열심히 하시면 언제든 이렇게 도움이 된다는 점! 기억하시고 꾸준히 공부하시면 좋겠습니다.

 

 

개인 프로젝트가 끝나면 AWS CCP 자격증 시험이 곧바로 있는데요, 그 자격증 시험이 끝나면 저는 Kaggle 대회 참여를 시작해보려고 합니다. 케글 케글 말로만 들었지 실제로 써본 적은 아직 없었는데 이번 프로젝트 준비하면서 정말 케글에 지겹도록...(ㅋㅋㅋㅋㅋㅋ) 많이 접속해야 했거든요. 어떤 식으로 사이트가 구성되고 운영되고 내가 써먹을 수 있는지 적당히 잘 알았어요. 동기들 중에 딥러닝에 관심이 있는 분이 계시다면 스터디를 구성해 보는 것도 좋은 방법일 것 같습니다.

 

 

다음 회고는 개인 EDA 프로젝트가 끝난 다음 작성해 보도록 하겠습니다. 감사합니다 :)

 

 

 

+ Recent posts