목록전체 글 (293)
개발자로 후회없는 삶 살기
서론 교과목 11주차 강의 내용을 정리해 보겠습니다. 본론 - 최종 목표 쿠버네티스를 적용한 도커 기반 mlops 플랫폼을 오픈 소스 중심으로 구축하고 미니 프로젝트를 수행 > 레드마인, 젠킨스 등을 전부 도커 위에서 진행하여서 이미지로 만들 것입니다. -> 텔레그램을 한 이유 기본적으로 mlops 시스템은 알림을 제공합니다. + 텔레그램으로 파이썬 코드에 명령을 내릴 수도 있습니다. > 텔레그램 봇을 먼저 한 이유 : 실무에 나가면 알람이 굉장한 스트레스가 됩니다다. 어디는 메일로 어디는 슬랙으로 어디는 레드마인으로 하기도 합니다. 어쨋든 내가 필요한 알람을 나에게 오게 하는 것이 중요합니다. 텔레그램 봇을 기초하여 알림 기능 아이디어를 발전시킬 수 있습니다. -> 텔레그램 봇의 목적 일반적으로 스크린..
서론 Sketch2Fashion은 스케치 의류 이미지를 실제 이미지로 변환하는 작업을 수행합니다. 스케치 관련 GAN은 몽타주를 실제 얼굴로 바꾸거나 연필 스케치 그림을 실제 작품으로 바꾸는 등 다양합니다. 본 포스팅에서 주요 내용 위주로 논문을 번역/ 요약하였습니다. > 논문에서는 사람이 그린 의류 디자인 스케치를 실제 의류로 변환하는 논문을 다룹니다. 틀린 내용이 있으면 피드백 부탁드립니다. - 논문 제목 : Sketch2Fashion: Generating clothing visualization from sketches - 저자 : Manya Bansal, David Wang, Vy Thai 본론 - 논문 - 깃허브 https://github.com/vythaihn/Sketch2Fashion-pyt..
서론 본론 클러스터링 : 서로 비슷한 데이터를 그룹화 한 것 -> 이때 모델은 데이터의 패턴을 분석합니다. - 활용 비슷한 구매 패턴을 가진 고객 분할/ 이상치 탐치/ 피쳐를 적은 수의 동족으로 줄여 매우 큰 빅데이터를 단순화/ - kmeans 각 중심이 데이터들의 평균을 잡고 다시 그룹원을 갱신하고 평균이 안 바뀌면 종료/ => 평가 지표 adjusted Rand index : 라벨 정답값과 예측치 사이의 거리 예측/ -> 2가지의 파라미터/ -> pg29 : 정답데이터(그라운드 트루쓰), 예측데이터를 파라미터로 넣는다/ -> 비지도 학습이니 정답값은 여기에만 쓰입니다. -> 실습 느낀점 : 군집화는 X만 넣는데 그래프로 표현하면 X들이 x축이고 데이터 프레임의 라벨 변수가 y입니다. => kmeans..
서론 빅데이터 수집을 배우자 본론 - 센트럴 저장소 : one single machine - one db server => 대표 : 관계형 데이터 베이스 -> 왜 빅데이터 저장에는 효율적이지 않니 4가지 이유?? : 1) 구조가 있지 않는 데이터를 저장하기에 유연하지 않음(데이터를 가져와서 테이블 구조로 저장하면 정형데이터, 테이블 구조로 저장하지 않으면 비정형 = 처음 가져왔을 때 기준이다 json은 처음 가져오면 테이블로 저장되지도 않고 텍스트나 이미지도 아니니 반정형이다)/ 2) 관계형 데이터는 저장되는 속도가 느리다 3) sql을 써야한다?/ - 디센트럴 저장소 데이터를 하나의 서버에 관리하는게 아니고 여러 서버에 관리 -> 클라우드를 생각하면 처음 시작할때 지역을 선택하더라/ => 장점 = 센트..
서론 본론 - 인공신경망 데이터의 입력 > 어떠한 출력 -> 과거의 사람들은 이걸 컴터로 구현할수있겠는데?라고 생각했다 그래서 10^11의 뉴런을 연결한 거야(그렇게 치면 진짜 인간은 어떻게 만들어진 걸까?)/ - 용어 머신러닝 : 통계적 가정을 만족하지 않더라도 컴퓨터가 스스로 패턴을 학습하는 방법/ 딥러닝 : 인공신경망 알고리즘으로 머신러닝을 하는 것 -> 머신러닝과의 차이점 : 특징추출을 안한다? 기계가 알아서 하도록 한다 ★아까는 전처리 안한다고 했는데 기본적인 건 해줘야한다 이미지의 경우 28*28을 784이런거/ => 데이콘 1등 앙상블(xgboost), 딥러닝 모델이다/ 데이콘에서 제공하는 데이터가 앙상블에 초점을 맞춰서 그렇대/ -> 프로젝트를 할 때 정확도가 중요한 것 vs 남에게 설명을..
서론 만약 nlp 공부를 한 후에 내가 구한 텍스트로 학습을 시키는 데 전처리가 필요하다면 이번에 배운 오렌지와 워드, 엑셀로 전처리하는 법을 다시 보는 것이 좋을 수 있다. 본론 (위키독스로 공부하며 오렌지로 인코더, 이런 거 이해하기 쉽겠는데????? > 실무에서는 오렌지 등으로 처리 결과를 보고 코딩으로 큰 데이터를 다룬다)/ 텍스트 분석 1) 텍스트를 어떻게 일반적인 데이터처럼 통계적 처리가 가능한 데이터로 가공할 것인가를 생각해야한다 = 내가 친구들과 말하는 걸 어떻게 데이터로 볼 것인가/ => 텍스트 텍스트는 비정형 데이터로 비정형성을 제거해야 통계적 처리가 가능하다/ -> 저 코퍼스를 어떻게 수치형, 범주형으로 바꿜 수 있을까가 처리의 시작이다 -> 데이터를 순서, 수량기반으로 '인식'하고 ..
서론 본론 시공간 분석(시간 + 공간 분석이다)을 배워보자 시계열 분석 - 시계열 분석 목적 1. 추세파악(= 경향파악) : 잡음을 제거하여 큰 흐름 파악 2. 원인 예측 및 대응 : 패턴을 보고 이를 극복하기 위한 예측, 방안 마련 3. 향후 전망 = 추이 전망/ - 시계열의 요인 => 시계열 분해법 : 여러가지 요인으로 결과가 나기 때문에 하나하나 쪼개서 분석하여 요인이 뭐가 있나 봐야한다/ 1) 추세요인 : 지속적인 경향을 보이는 경우의 요인 -> 어떠한 추세를 가진다의 요인 2) 계절요인 : 올라갔다 내려갔다하는 요인인데 왜 올라가고 내려가는지 이유을 아는 경우 ex) 계절도 순환임(=1년 단위의 짧은 기간 동안의 요인 주기발생) 3) 순환요인 : 순환인데 왜 그러는지 모를 때 + 긴 기간 동안의..
서론 본론 6일차 실습 ※ R이나 파이썬이 좋은 이유 : 웨카나 spss는 정적 라이브러리라서 헤비하다 근데 파이썬, R은 라이브러리를 가져오는 거라서 가볍다 -> 웨카나 spss를 동적으로 라이브러리 쓰는게 r과 파이썬이다/ - 개요 1.2 설명 모형 vs 예측 모형의 구축 ① 설명 모형 : 전체를 설명할 경우 전체 데이터를 사용하지만 ② 예측 : 5년치 데이터를 사용하는 것보다 1년치 데이터를 사용하는 것이 예측을 더 잘 한다/ ③ 결론 : 데이터는 쪼개서 써야한다/ 1.3 최적화 알고리즘과 휴리스틱 -> 회귀 분석의 가정(최적화 모델의 문제는 가정이 많다는 건데 현실의 데이터는 가정에 맞지 않다 > 그래서 휴리스틱 모델인 딥러닝 모델로 하는 게 정확도가 더 높다) 가정 1 : 이것부터 현실에서는 맞..