본문 바로가기

ML&Deep Learning/MLOps

(2)
[MLOps] pkl 과 h5 데이터 형식의 차이 일반적으로 연구실에서 실험을 진행하면 대부분 python을 사용한다. (SQL을 별로 안 쓰지만 현업에선 많이 쓰겠지...) 데이터 형식을 저장하는 방법이 굉장히 다양한데, 본인은 Amazon 리뷰 데이터셋을 많이 사용하다 보니 대부분 대용량의 데이터셋을 사용하게 된다. (대략 10GB 이상) 이때 데이터 저장 방식이 중요한데, 처음 석사 1기 때는 csv 이나 json 형식으로 많이 저장했었다. 지금은.... 조금 발전(?)해서 pickle 형식으로 저장하는게 용량 효율면에서 더 좋다는 걸 알아서 pkl 형태로 데이터를 사용한다. 그러나 pkl도 엄청 효율적인 편은 아니며, 치명적인 단점으로 python에서만 사용할 수 있다는 점이 있다. github를 돌아다니다 보면 h5 형태의 파일들을 종종 볼 수..
[MLOps]01. MLOps란 무엇인가 요새 '머신러닝 시스템 설계' 라는 책을 읽고 있다. 데이터 수집~서비스 배포까지 전반적인 과정에 대해 다루고 있는 MLOps에 대한 책이다. 사실 대학원이 다양한 알고리즘 개발 및 실험에만 집중하지 서비스 배포까지 고려하지는 않는다. 하지만 박사과정에 진학하거나 교수에 꿈이 있는 것도 아니고, 분명 졸업 후 취업이 목표이기 때문에 이러한 이론과 실무 간 괴리에 대한 고민은 항상 가져왔다. 이 부분에 대해 어떤 공부를 해야할지(애초에 '무엇'을 공부해야 서비스 배포까지 이어지는 과정을 알 수 있는지를 몰랐음) 모르고 있었는데, 올 상반기에 러닝스푼즈에서 진행했던 '세션 기반 추천시스템' 관련 강의를 수강하면서 MLOps에 대해 알게 되었다. 중요한 건 알기만 하고 지금까지 알아보지 않은게....암튼 그래..