Jupyter Notebook을 쓰지 않게 되는 몇 가지 이유에 대해서
Jupyter Notebook이 참 좋은데 참 별로란 말이죠? 🛴 들어가며 2015년 말부터 데이터에 대해 공부하며 처음 쓰기 시작한 언어는 R이었습니다. 당시를 떠올려보면 데이터 분석은 곧 R을 의미했었습니다. 많은 책들이 쏟아져 나오고 있었고, 워드클라우드를 그릴 줄 아는 것이 기본 소양이었습니다. 공부를 더 하다보니 캐글을 접하게 되고, ...
Jupyter Notebook이 참 좋은데 참 별로란 말이죠? 🛴 들어가며 2015년 말부터 데이터에 대해 공부하며 처음 쓰기 시작한 언어는 R이었습니다. 당시를 떠올려보면 데이터 분석은 곧 R을 의미했었습니다. 많은 책들이 쏟아져 나오고 있었고, 워드클라우드를 그릴 줄 아는 것이 기본 소양이었습니다. 공부를 더 하다보니 캐글을 접하게 되고, ...
🤬 Unhandled type for Arrow to Parquet schema conversion: halffloat 🖼 배경 최근 데이터를 저장하고 불러올 때, 빠른 I/O 속도와 컬럼의 데이터 타입을 메타 데이터로 저장할 수 있어서 Parquet 타입을 자주 사용하고 있습니다. Dependency로 pyarrow나 fastparquet만 ...
SOLID 원칙이란 ‘클린 코드’의 저자인 로버트 마틴이 명명한 객체 지향 프로그래밍의 다섯 가지 기본 원칙입니다. SOLID 디자인 원칙 SOLID는 각 기본 원칙의 앞글자 훨씬 단순하고, 이해하기 쉬우며, 유지보수에 용이하고, 확장성이 높은 코드를 작성하도록 도와줌 1. Single Responsibility Principle ...
Timestamp를 Rolling Aggregation하는 방법은 생각보다 쉽습니다. 🌃 배경 데이터를 다루다보면 필연적으로 Group-by Operation을 자주 접하게 됩니다. 일반적인 Group-by Operation들은 단순합니다. 그룹마다 평균을 구한다거나 중앙값을 구하거나 최댓값, 최솟값을 구합니다. 하지만 타임스탬프가 존재하고 그...
ML 실험을 보다 빠르고 보기 좋게 관리해봅시다. 🏞 배경 ML은 기본적으로 많은 실험을 거쳐서 최적의 모델을 찾아 이를 배포하고 제품화합니다. 수많은 Feature, 알고리즘, Hyper-parameter의 구성을 다양하게 시도하여 모델을 튜닝하게 됩니다. 하지만 Feature가 많아지고 알고리즘이 복잡해질 수록 최적의 모델을 찾기란 쉽지 않...