마케터에서 데이터 엔지니어로 — Smol Beaver's Data Lab을 시작하며
나는 약 4년 동안 퍼포먼스 마케팅 일을 해왔다. 커리어의 전부를 에이전시에서 보냈다.
에이전시에서의 퍼포먼스 마케팅 일은 생각보다 재미있는 부분이 많았다. 무엇보다 다양한 산업군의 고객사를 경험해 볼 수 있었고, 데이터를 기반으로 미디어 믹스를 계획하고, 광고 소재를 기획하고, 이벤트를 설계하면서 실제 사용자 반응을 바로 확인할 수 있었다. 내가 기획한 캠페인이 실제 성과로 이어지는 것을 보는 경험은 분명 매력적이었다.
특히 데이터를 기반으로 의사결정을 시도하는 과정 자체는 늘 흥미로웠다. 성과 데이터를 분석하고, 그 결과를 다음 캠페인 전략에 반영하는 흐름은 마케팅이라는 일이 얼마나 데이터와 가까운지 보여주는 일이기도 했다.
하지만 일을 하면서 점점 더 크게 느끼게 된 문제가 있었다.
데이터가 많다고 해서 항상 의미 있는 건 아니었다.
데이터를 기반으로 의사결정을 하려고 해도, 정작 데이터 수집 단계부터 제대로 이루어지지 않는 경우가 생각보다 많았다.
이벤트가 제대로 수집되지 않거나, 데이터 정의가 명확하지 않거나, 같은 지표가 서로 다른 의미로 사용되는 경우도 있었다. 이런 상황에서는 "데이터 기반 의사결정"이라는 말 자체가 흔들린다. 데이터의 양이 아니라 데이터의 신뢰도가 더 중요한 문제라는 것을 점점 더 체감하게 되었다.
실제로 많은 기업들이 데이터를 중요하게 이야기하지만, 데이터의 품질에 대한 신뢰가 낮기 때문에 결국 경험이나 감각에 의존해 의사결정을 내리는 경우도 적지 않았다.
그럴 때마다 나는 늘 비슷한 자리에 있었다.
문제가 있다는 것은 느낄 수 있었지만, 그 문제를 직접 해결할 수 있는 위치는 아니었다. 나는 내부 개발자도 아니었고, 데이터 인프라를 직접 관리하는 사람도 아니었기 때문이다.
그래서 내가 할 수 있는 일은 보통 이런 정도였다. 로그를 확인하고 간단한 QA를 진행하면서, 어느 지점에서 데이터 수집이 잘못되고 있는지 어렴풋이 추측하고, 그 내용을 개발팀에 전달하는 것.
그 과정에서 나는 한 가지를 느꼈다.
나는 데이터를 사용하는 것보다, 데이터가 만들어지는 과정 자체가 궁금해지고 있었다.
처음에는 단순히 반복적인 작업을 줄이기 위한 자동화에 흥미를 느꼈다. 데이터를 추출하고 정리하는 작업을 자동화하면서 Python이나 SQL을 조금씩 사용하기 시작했고, GitHub 같은 도구도 자연스럽게 접하게 되었다.
하지만 raw 로그 데이터를 직접 들여다보기 시작하면서, 관심은 점점 다른 방향으로 옮겨갔다.
특히 로그 데이터의 taxonomy 구조를 보게 되었을 때, 나는 처음으로 이런 생각을 하게 되었다.
데이터는 분석 이전에 이미 설계된 구조 속에서 만들어지고 있다. 그리고 그 구조가 제대로 설계되지 않으면, 아무리 많은 데이터가 쌓여도 의미 있는 분석이 어려워진다.
이때부터 나는 데이터 분석보다, 데이터가 흐르는 구조 자체에 더 관심을 가지기 시작했다.
이후 Python, SQL, Git 같은 도구를 개별적으로 익히고, 데이터 파이프라인을 관리하는 방식에 관심이 생기면서 Airflow 같은 오케스트레이션 도구도 알게 되었다. AWS와 GCP 같은 클라우드 환경을 이해하기 위한 공부도 이어졌다.
회사를 다니면서 관련 부트캠프를 수강하게 된 것도 이 과정의 연장선이었다. 부트캠프를 통해 Spark, Docker, Kubernetes 같은 도구들을 접하게 되었고, 데이터 처리 방식뿐만 아니라 데이터 스트리밍 구조에 대해서도 고민하게 되었다.
아직 모든 것을 깊이 이해했다고 말할 수는 없다. 데이터 엔지니어링이라는 분야는 생각보다 훨씬 넓고 복잡하다. 그래서 이 길이 나에게 완벽하게 맞는지, 지금 당장 확신한다고 말할 수는 없다.
하지만 한 가지는 분명하게 느끼고 있다.
데이터 엔지니어링은 분명 어려운 분야지만, 지금까지 해왔던 일보다 더 오래 흥미를 가지고 탐구할 수 있을 것 같은 분야라는 점이다.
이 블로그의 이름은 Smol Beaver's Data Lab이다.
비버는 생태계에서 물의 흐름을 바꾸는 댐을 설계하는 동물이다. 작은 구조 하나가 환경 전체를 바꾸기도 한다.
데이터 엔지니어 역시 데이터를 직접 분석하기보다는, 데이터가 흐르는 구조를 설계하는 역할에 가깝다고 생각한다. 그 역할이 지금 내가 나아가고 싶은 방향이기도 하다.
이 블로그는 완벽한 정답을 정리하는 공간이 아니다. 데이터 엔지니어링을 배우면서 겪는 시행착오와 실험을 기록하는, 작은 비버의 연구 노트가 될 것이다.
앞으로 이런 기록들이 쌓일 것 같다.
- 데이터 엔지니어링 공부 기록
- 기술 트렌드에 대한 정리와 개인적인 생각
- 프로젝트를 진행하면서 겪은 문제와 해결 과정
- 데이터 구조와 파이프라인에 대한 실험
아직은 작은 실험실이지만, 데이터를 배우고 실험하는 과정들을 차근차근 기록해 보려고 한다.
Smol Beaver’s Data Lab, 이제 시작이다.