목록[대외활동]/[데이터 청년 캠퍼스] (19)
개발자로 후회없는 삶 살기
서론 앞으로의 작업은 지금까지 데이터 파악, 프로젝트 주제 선정, 타당성 분석 등을 함으로 써 얻은 결과를 만들기 위한 재료를 만드는 단순 작업입니다. 이제 판다스, 넘파이를 활용할 줄 아는 내가 나설 차례입니다. 본론 13일차 - 할 일 1. 데이터 합치기 : 합친 결과 최종 데이터 셋은 리드타임 예측에 쓰고 작은 데이터 셋은 Sequece 마이닝을 하자 2. EDA. Tableau : : 현황 분석 3. 프로세스 마이닝 : 병목 현상 파악 15일차 - 할 일 1. 원본 데이터와 합친 데이터의 상위 제품 추려서 비슷한지 보기 2. 모순 데이터 개수 봐서 포함한 거 포함하고 회귀 돌려보고 모순 빼고 회귀 돌려보기 3. EDA(합친 데이터로만) 4. 합친 데이터, 원본 데이터에 Apriori 5. 리드타임..
서론 데이터 청년 캠퍼스 project 10, 11, 12일차 내용입니다. 본론 10일차 이제 교수님께 받은 자문을 토대로 데이터의 컬럼을 만들 차례입니다. 팀원분들이 컴공의 실력을 믿겠다고들 하십니다. 마음껏 내가 그동안 연습했던 pandas, numpy를 뽐내보겠습니다! ※ 이제부터 각 공정 이름이 나옵니다. 대표적으로 CNC, MCT, 세정 등입니다. 공정 이름이 나온다면 '공정 이름이구나'하고 넘어가면 될 것입니다. 전에 받은 경영지표, 생산실적조회 외에 각 공정 RUN time가 하나의 제품이 생상 되는데 걸리는 평균 리드타임이 들어있는 데이터를 추가로 받았습니다. - 교수님의 자문 정리 인풋으로 품목, 공정, 라우트를 넣으면 리드타임이 나옵니다. 그러면 리드타임을 최소화하는 방향으로 가보자 >..
서론 본론 클러스터링 : 서로 비슷한 데이터를 그룹화 한 것 -> 이때 모델은 데이터의 패턴을 분석합니다. - 활용 비슷한 구매 패턴을 가진 고객 분할/ 이상치 탐치/ 피쳐를 적은 수의 동족으로 줄여 매우 큰 빅데이터를 단순화/ - kmeans 각 중심이 데이터들의 평균을 잡고 다시 그룹원을 갱신하고 평균이 안 바뀌면 종료/ => 평가 지표 adjusted Rand index : 라벨 정답값과 예측치 사이의 거리 예측/ -> 2가지의 파라미터/ -> pg29 : 정답데이터(그라운드 트루쓰), 예측데이터를 파라미터로 넣는다/ -> 비지도 학습이니 정답값은 여기에만 쓰입니다. -> 실습 느낀점 : 군집화는 X만 넣는데 그래프로 표현하면 X들이 x축이고 데이터 프레임의 라벨 변수가 y입니다. => kmeans..
서론 빅데이터 수집을 배우자 본론 - 센트럴 저장소 : one single machine - one db server => 대표 : 관계형 데이터 베이스 -> 왜 빅데이터 저장에는 효율적이지 않니 4가지 이유?? : 1) 구조가 있지 않는 데이터를 저장하기에 유연하지 않음(데이터를 가져와서 테이블 구조로 저장하면 정형데이터, 테이블 구조로 저장하지 않으면 비정형 = 처음 가져왔을 때 기준이다 json은 처음 가져오면 테이블로 저장되지도 않고 텍스트나 이미지도 아니니 반정형이다)/ 2) 관계형 데이터는 저장되는 속도가 느리다 3) sql을 써야한다?/ - 디센트럴 저장소 데이터를 하나의 서버에 관리하는게 아니고 여러 서버에 관리 -> 클라우드를 생각하면 처음 시작할때 지역을 선택하더라/ => 장점 = 센트..
서론 본론 - 인공신경망 데이터의 입력 > 어떠한 출력 -> 과거의 사람들은 이걸 컴터로 구현할수있겠는데?라고 생각했다 그래서 10^11의 뉴런을 연결한 거야(그렇게 치면 진짜 인간은 어떻게 만들어진 걸까?)/ - 용어 머신러닝 : 통계적 가정을 만족하지 않더라도 컴퓨터가 스스로 패턴을 학습하는 방법/ 딥러닝 : 인공신경망 알고리즘으로 머신러닝을 하는 것 -> 머신러닝과의 차이점 : 특징추출을 안한다? 기계가 알아서 하도록 한다 ★아까는 전처리 안한다고 했는데 기본적인 건 해줘야한다 이미지의 경우 28*28을 784이런거/ => 데이콘 1등 앙상블(xgboost), 딥러닝 모델이다/ 데이콘에서 제공하는 데이터가 앙상블에 초점을 맞춰서 그렇대/ -> 프로젝트를 할 때 정확도가 중요한 것 vs 남에게 설명을..
서론 만약 nlp 공부를 한 후에 내가 구한 텍스트로 학습을 시키는 데 전처리가 필요하다면 이번에 배운 오렌지와 워드, 엑셀로 전처리하는 법을 다시 보는 것이 좋을 수 있다. 본론 (위키독스로 공부하며 오렌지로 인코더, 이런 거 이해하기 쉽겠는데????? > 실무에서는 오렌지 등으로 처리 결과를 보고 코딩으로 큰 데이터를 다룬다)/ 텍스트 분석 1) 텍스트를 어떻게 일반적인 데이터처럼 통계적 처리가 가능한 데이터로 가공할 것인가를 생각해야한다 = 내가 친구들과 말하는 걸 어떻게 데이터로 볼 것인가/ => 텍스트 텍스트는 비정형 데이터로 비정형성을 제거해야 통계적 처리가 가능하다/ -> 저 코퍼스를 어떻게 수치형, 범주형으로 바꿜 수 있을까가 처리의 시작이다 -> 데이터를 순서, 수량기반으로 '인식'하고 ..
서론 본론 시공간 분석(시간 + 공간 분석이다)을 배워보자 시계열 분석 - 시계열 분석 목적 1. 추세파악(= 경향파악) : 잡음을 제거하여 큰 흐름 파악 2. 원인 예측 및 대응 : 패턴을 보고 이를 극복하기 위한 예측, 방안 마련 3. 향후 전망 = 추이 전망/ - 시계열의 요인 => 시계열 분해법 : 여러가지 요인으로 결과가 나기 때문에 하나하나 쪼개서 분석하여 요인이 뭐가 있나 봐야한다/ 1) 추세요인 : 지속적인 경향을 보이는 경우의 요인 -> 어떠한 추세를 가진다의 요인 2) 계절요인 : 올라갔다 내려갔다하는 요인인데 왜 올라가고 내려가는지 이유을 아는 경우 ex) 계절도 순환임(=1년 단위의 짧은 기간 동안의 요인 주기발생) 3) 순환요인 : 순환인데 왜 그러는지 모를 때 + 긴 기간 동안의..
서론 본론 6일차 실습 ※ R이나 파이썬이 좋은 이유 : 웨카나 spss는 정적 라이브러리라서 헤비하다 근데 파이썬, R은 라이브러리를 가져오는 거라서 가볍다 -> 웨카나 spss를 동적으로 라이브러리 쓰는게 r과 파이썬이다/ - 개요 1.2 설명 모형 vs 예측 모형의 구축 ① 설명 모형 : 전체를 설명할 경우 전체 데이터를 사용하지만 ② 예측 : 5년치 데이터를 사용하는 것보다 1년치 데이터를 사용하는 것이 예측을 더 잘 한다/ ③ 결론 : 데이터는 쪼개서 써야한다/ 1.3 최적화 알고리즘과 휴리스틱 -> 회귀 분석의 가정(최적화 모델의 문제는 가정이 많다는 건데 현실의 데이터는 가정에 맞지 않다 > 그래서 휴리스틱 모델인 딥러닝 모델로 하는 게 정확도가 더 높다) 가정 1 : 이것부터 현실에서는 맞..