본문 바로가기

ML&Deep Learning

(8)

[ML] 머신러닝 알고리즘 가장 많이 쓰이는 머신러닝 알고리즘 코드를 몇 개 모아보자 1. 결정트리 # 결정 트리 분류기 from sklearn.tree import DecisionTreeClassifier classifier= DecisionTreeClassifier() classifier.fit(X_train, y_train) # 테스트셋에 적용합니다. y_pred = classifier.predict(X_test) skf=StratifiedKFold(n_splits=10, shuffle=True) # 교차 검증 accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = skf) # 정확도와 표준편차 print("Accuracy: {:...

[MLOps] pkl 과 h5 데이터 형식의 차이 일반적으로 연구실에서 실험을 진행하면 대부분 python을 사용한다. (SQL을 별로 안 쓰지만 현업에선 많이 쓰겠지...) 데이터 형식을 저장하는 방법이 굉장히 다양한데, 본인은 Amazon 리뷰 데이터셋을 많이 사용하다 보니 대부분 대용량의 데이터셋을 사용하게 된다. (대략 10GB 이상) 이때 데이터 저장 방식이 중요한데, 처음 석사 1기 때는 csv 이나 json 형식으로 많이 저장했었다. 지금은.... 조금 발전(?)해서 pickle 형식으로 저장하는게 용량 효율면에서 더 좋다는 걸 알아서 pkl 형태로 데이터를 사용한다. 그러나 pkl도 엄청 효율적인 편은 아니며, 치명적인 단점으로 python에서만 사용할 수 있다는 점이 있다. github를 돌아다니다 보면 h5 형태의 파일들을 종종 볼 수..

[MLOps]01. MLOps란 무엇인가 요새 '머신러닝 시스템 설계' 라는 책을 읽고 있다. 데이터 수집~서비스 배포까지 전반적인 과정에 대해 다루고 있는 MLOps에 대한 책이다. 사실 대학원이 다양한 알고리즘 개발 및 실험에만 집중하지 서비스 배포까지 고려하지는 않는다. 하지만 박사과정에 진학하거나 교수에 꿈이 있는 것도 아니고, 분명 졸업 후 취업이 목표이기 때문에 이러한 이론과 실무 간 괴리에 대한 고민은 항상 가져왔다. 이 부분에 대해 어떤 공부를 해야할지(애초에 '무엇'을 공부해야 서비스 배포까지 이어지는 과정을 알 수 있는지를 몰랐음) 모르고 있었는데, 올 상반기에 러닝스푼즈에서 진행했던 '세션 기반 추천시스템' 관련 강의를 수강하면서 MLOps에 대해 알게 되었다. 중요한 건 알기만 하고 지금까지 알아보지 않은게....암튼 그래..

나태해져버린 대학원 3기... 처음에 들어왔을 때 포부는 온데간데 없고, 어느새 대학원이 익숙해진 노예1이 되었다. 졸업 이제 1년 남짓 남았는데....다시 정신차려야할 것 같다. 취준을 슬슬 해야하는데 뭐부터 어떻게 해야할지 모르겠으니 작은 것부터 시작해보자. 일단 코앞의 목표는 1. SQLD - 접수 완료 상태(11.18 시험예정) 2. 코딩테스트 준비하기 - 이것이 코딩테스트다 책 보기 - 알고리즘, 자료구조에 대해 따로 공부해 본 적 없는 상태 3. 주제 잡고 논문 작성 - Session-based Recommender System 쪽으로 방향을 잡긴 했다. 하지만 아직도 코드 다루는 능력이 너무 떨어진다. 4. T-story 작성 - 논문 작성 과정 기록 - 코테 과정 기록 5. github 관리법 익히기..... 솔직히 얼..

[ML] 03 Bias-Variance Trade off 책 : 파이썬 머신러닝 완벽 가이드(p. 318) 회귀 분석은 볼 때마다 새로운 내용이 튀어나오는 것 같다. (내가 공부 제대로 안한 거 맞음) 편향-분산 트레이드 오프에서 편향과 분산의 차이가 뭔지 헷갈려서 정리. 분산 : 말 그대로 데이터가 퍼진 정도. 편향 : 예측값과 실제값의 차이. 즉 잔차(residual)의 크기 정도로 생각하면 편할듯. 이 그림이 잘 이해가 안됐던 거였는데 편향을 잔차의 크기 정도로 이해하니까 underfit과 overfit을 이해하는데 도움이 되었다. - underfit(과소적합) : 높은 편향 & 낮은 분산 - overfit(과대적합) : 낮은 편향 & 높은 분산 그래서 이 편향과 분산이 둘 다 낮아지는 지점을 잘 찾는게 핵심이다...

[ML] 02 Introduction of Machine Learning 아주아주 기본적인 내용부터 정리를 해보자. https://www.youtube.com/watch?v=Gv9_4yMHFhI&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=2 일단 데이터는 train data 와 test data로 나뉜다. train data는 말그대로 모델을 학습 시키는데 쓰이는 데이터이다. 예를들어 100명의 학생의 키와 몸무게 데이터가 있다면, 이것을 가지고 간단한 식을 만들 수 있을 것이다. 대충 키 = a*몸무게 + b 라는 간단한 식을 만들 수 있지 않을까 싶다. 그러고나서 조사한 100명 이외의 다른 10명 학생의 몸무게만 가지고 키를 예측하려고 한다면 위의 식을 활용할 수 있을 것이다. 이 10명 학생의 정보가 test data이고, 앞의 ..

[ML] 01 Introduction of Machine Learning https://www.youtube.com/c/joshstarmer StatQuest with Josh Starmer Statistics, Machine Learning and Data Science can sometimes seem like very scary topics, but since each technique is really just a combination of small and simple steps, they are actually quite simple. My goal with StatQuest is to break down the major meth www.youtube.com 내 최애 채널이다... 여기 아니었으면 공부 어떻게 했을까 싶다. 여기 ML 강의를 완파하는 걸 목표로 공..

대학원에 들어와 버렸네? F&B 계열에서 스타트업을 했다가 학을 떼고(?) 탈출했다. 학을 뗀 계열 관련해서 추천 시스템을 개발해보겠다는 포부를 가지고 무작정 대학원에 진학해 버렸다. 무식하면 용감하다고, 아무것도 몰랐기 때문에 무작정 입학을 했는데 공부를 할수록 무지함의 심각성을 느끼는 중이다. 설상가상으로 업무량 헬인 포지션의 조교를 맡아버리게 되었고...도대체 공부는 언제 하라는걸까^^ 마음만 조급해져서 빠르게 모든 내용을 훑겠다는 다짐으로 (동기가 공부하는 속도를 보니 너무 조급해져버림ㅜ) 이것저것 쭉쭉 보고 있었는데, 4기 선배가 오더니 "음... 혹시 머신러닝 기초는 다 알아요? 아니 봐도 상관은 없는데 (딥러닝 관련 영상 보고 있었음.) ML 먼저 공부한 다음에 보는게 좋지 않을까요?" 란 말을 하고 가시는 것이었다..

이전 1 다음

티스토리툴바