https://smartest-suri.tistory.com/46

 

ASAC 빅데이터 분석 5기 | 8-10주차 회고 (+ 머신러닝 팀 프로젝트 발표와 디벨롭)

6-9주차는 머신러닝 팀프로젝트와 발표가 있었던 주간이었습니다. 저희 조는 이라는 주제로 프로젝트를 진행했고, 발표 이후 디벨롭 과정을 거쳐 라는 새로운 주제로 다가오는 7월 학회 발표를

smartest-suri.tistory.com

 

ASAC 5기에서 진행했던 머신러닝 팀 프로젝트를 디벨롭한 결과에 대해서 업데이트를 하고자 합니다.


서론

저는 본 프로젝트를 학술지로 작성하여 2024 한국컴퓨터정보학회 하계 학술대회에 제출하였고, 심사를 완료받은 뒤 지난 7월 12일 학술대회에서 구두 발표를 마쳤습니다. 최종적으로 본 학술지는 우수논문상을 수상하게 되었습니다. 본 프로젝트를 리드했던 팀장이자 학술지 제1저자, 발표자로서 무척 뿌듯합니다. 

'성과로 말할 수 있어야 한다'는 원칙의 중요성을 실감하고 있는 요즘입니다. 과정도 중요하지만, 결국 나를 가장 잘 어필할 수 있는 것은 탁월한 성과입니다. ASAC 5기에서 모두가 같은 시간동안 'ML 프로젝트'라는 같은 과제를 준비했고, 같은 날에 발표를 마쳤습니다. 그러나 그 중에 발표 이후 반성과 회고를 통해 프로젝트를 보완하고 더 나은 방향으로 디벨롭하여 학술지로 작성/발표한 뒤 우수논문상까지 이끌어낸 사람은 제가 유일합니다. 저는 본 프로젝트 경험을 통해 같은 시간과 과제가 주어졌을 때 몰입과 주인의식, 기술에 대한 깊은 이해와 응용력을 토대로 남들보다 더 탁월한 성과를 도출해낼 수 있다는 자신감을 얻었습니다. 제가 과연 어디에 첫 취직을 하게 될지는 모르겠지만, 나의 이런 열정과 노력을 관통하고 알아보는 사람이 이 세상에 누군가 한 명은 있을 것이라고 생각합니다 :-)

프로젝트의 주제는 다음과 같습니다. 

유튜브 쇼츠의 조회수 예측
- 뷰티 광고 콘텐츠를 중심으로

차별화

본 프로젝트는 4가지 키워드로 차별화를 확보했습니다. 첫째는 쇼츠, 둘째는 뷰티, 셋째는 광고(마케팅), 넷째는 국내입니다.

"유튜브 영상의 조회수 예측"은 아주 예전부터 꾸준한 연구가 이루어진 바 있는 스테디하고 좀 뻔한 주제입니다. 그러나 조사를 통해 이러한 연구들이 비교적 옛날(2010년대)에 주로 이루어졌으며, 따라서 2021년 7월 출시된 쇼츠의 조회수를 예측하는 모델이나 연구는 상대적으로 부족하다는 사실을 발견할 수 있습니다. 또한 쇼츠 중에서도 특히 '뷰티 광고' 콘텐츠를 타겟팅한 연구는 전무했습니다.

그래서 프로젝트를 이끌고 완성하기까지 많은 고난과 역경이 있었지만, 내가 전에 없던 새로운 연구를 수행해 낸다는 자체로 큰 동기부여가 되어 무탈히 성과를 도출해 낼 수 있었습니다.


성능 고도화

제가 프로젝트에서 가장 많은 시간을 할애한 파트는 예측 모델의 성능 고도화였습니다.

먼저 선행 연구를 조사한 결과 유튜브 영상의 조회수 예측 회귀 모델의 경우 최고 성능을 가진 모델의 평가 지표가 MSE 3.5 ~ 5.5 사이를 웃도는 것을 확인할 수 있었습니다. 그러나 제가 첫 baseline 모델링을 수행했을 때 별다른 하이퍼파라미터 튜닝을 거치지 않은 상태에서도 모델의 예측 성능이 MSE 2.0-3.0 사이를 기록하였고, 보팅이나 하이퍼파라미터 최적화, 피처엔지니어링 등을 거친 끝에 모델의 예측 성능을 MSE 1.36까지 극대화할 수 있었습니다.

우리의 연구 모델은 왜 이렇게 성능이 좋았을까? 돌아보면 두가지 이유를 생각해볼 수 있었습니다.

  • 첫째, 저는 국내/쇼츠/뷰티/광고 라는 4가지 키워드로 한정하여 데이터를 수집하였습니다. 이 과정에서 신뢰할 수 있는 YouTube Data API를 사용하였고, 수집 이후에는 일일히 하나씩 검토하며 garbage data가 없는지 필터링하는 과정을 거쳤습니다. 따라서 저는 제가 수집한 2,184개의 데이터가 '목적에 부합하는 진실된 데이터'라고 자신할 수 있습니다. 이렇게 비슷한 주제와 카테고리의 데이터만을 제대로 필터링하게 되면서 데이터 사이의 유사성이 잘 확보되었을 것이고, 따라서 예측 모델의 성능도 좋아졌을 것입니다.
  • 둘째, 피처엔지니어링을 통해 중요도나 기여도가 낮은 변수를 삭제 처리하여 최종적으로 18개의 변수만 남긴 했지만, 처음에 수집한 row data 변수는 30개가 넘었습니다. 저는 모든 변수를 일일히 하나씩 뜯어보면서 시각화하고 꼼꼼하게 분석하여 회귀 모델에 적합하도록 전처리과정을 거쳤습니다. 이상치 하나도 허투루 보지 않았고, 모델링 중간 중간 성능의 변화를 살피며 변수마다 다양한 방법으로 표준화와 정규화를 진행하였습니다. 이 과정에서 다양한 통계 지식을 활용하였고, 확률과 통계 공부를 열심히 해 둔 보람을 느꼈습니다.  

그러나 아무리 데이터를 신경써서 수집하고, 하이퍼파라미터 최적화를 하고, 피처 엔지니어링에 혼을 쏟아 부어도, 모델 성능이 결국엔 나아지지 않는 (슬픈) 경우를 저도 수없이 겪어보았기 때문에- 위와 같이 노력을 통해 빛을 발할 수 있는 기회가 주어진 것에 대해 무척 감사하고 있습니다.


학술지 작성

저는 프로젝트의 팀장으로서 책임감을 가지고 학술지 제1저자 역할을 맡아 처음부터 끝까지 학술지를 직접 작성했습니다. 쉬운 작업은 아니었지만, 원래부터 글을 읽고 쓰는 것을 좋아해서 한켠으로는 이런 고된 과정을 즐기기도 하였던 것 같습니다.

2024 한국컴퓨터정보학회 하계 학술대회에서는 투고 받는 학술지를 2쪽 또는 4쪽 분량으로 제한하고 있었습니다. 데이터 수집/추출부터 전처리, 시각화, 분석, 모델링, 피처엔지니어링 등 모든 과정에서 정말 많은 노력을 기울였고 할 말이 많았지만, 최종적으로 학술지를 2쪽으로 압축하여 작성하기로 결정했습니다. 본 프로젝트는 학문적 의의가 다분하고 선행 연구에 비해 우수한 성능을 확보했다는 점에서 가치가 충분합니다. 하지만, 생성형 AI 시대인 2024년을 사는 지금 "조회수 예측 회귀 모델"이라는 주제 자체는 매우 가벼울 수밖에 없습니다. 비록 주제는 가벼울지언정 그 과정에서 많은 것을 배웠다는 점에서 매우 자랑스럽기도 합니다. 어쨌든 저는 명확한 자기객관화를 통해 2쪽의 짧은 학술지에 함축적으로 필요한 내용을 선별적으로 담기로 결정했습니다. 나중에 기회가 되면 4쪽 학술지를 작성할 수 있는 헤비한 주제를 다룰 날도 오겠죠.

학술지 작성 과정에는 ASAC 권강사님께서 정말 많은 도움을 주셨습니다. 학회가 어떤 식으로 운영되고 학술지를 어떻게 써야하는지 경험이 전무했던 제가 명확한 글을 쓸 수 있도록 혼을 담아서 코칭을 해주셨습니다. 이 과정에서 명확한 기술적 커뮤니케이션의 중요성을 뼈저리게 배웠습니다. 특히 제가 타겟으로 하는 데이터 사이언티스트나 AI 엔지니어 직무는 기술에 대한 이해와 활용력도 무척 중요하지만, 다양한 유관 부서와 협업을 필요로 하는 만큼 명확한 기술적 소통 능력 역시 매우 중요합니다. 이번 학술지 작성을 통해서 내가 한 일이나 내가 이루어낸 성과에 대해서 담백하게 글로 전달하고 설명할 수 있는 능력을 조금 더 키울 수 있었습니다. 

권강사님 오늘도 감사합니다!


예측 결과

최종 선정한 모델을 통해서 예측한 결과는 포트폴리오에 포함되어 있으며, 유튜버 개인정보 보호를 위해 본 포스팅에는 공개하지 않기로 결정하였음을 양해 바랍니다. 본 프로젝트의 포트폴리오를 보고 싶으신 분들께서는 댓글 또는 niceonesuri@gmail.com 으로 소속과 목적을 말씀해 주시면 포트폴리오 링크를 전송해 드리도록 하겠습니다.


마무리

본 프로젝트를 통해 제가 얻은 가장 값진 자산은 '내 프로젝트'라는 주인의식을 가지고 누구보다 프로젝트에 몰입하여 탁월한 성과를 도출한 일련의 경험입니다. 뻔한 주제를 트랜디하게 각색하고 그 과정에서 이루어진 논문 조사와 트랜드 분석, 목적에 맞는 데이터 수집을 위해 새로운 API를 연구하여 정복했을 때의 짜릿함, 모델의 예측 성능을 조금이라도 더 끌어올리고자 무한히 반복했던 하이퍼파라미터 최적화, 인사이트 도출을 위해 수없이 뜯어본 변수들과 SHAP분석 플롯, 고작 2장짜리의 짧은 학술지를 고치고 고치고 고쳐서 최선의 결과물을 도출했던 집념까지-

이 모든것을 경험해볼 수 있게 해준 ASAC 5기의 시스템과 환경, 그리고 무한한 지원을 보내주신 권강사님께 무척 감사합니다. 이번 경험을 통해서 앞으로 더 어렵고 복잡한 주제의 프로젝트에 도전해보고 싶은 동력, 무엇이든 거뜬히 해낼 수 있다는 자신감을 얻었습니다.


다음 포스팅에서는 딥러닝 팀 프로젝트 회고로 돌아오겠습니다. 감사합니다.

 

 

+ Recent posts