목록모든 글 (291)
개발자로 후회없는 삶 살기
서론 본론 클러스터링 : 서로 비슷한 데이터를 그룹화 한 것 -> 이때 모델은 데이터의 패턴을 분석합니다. - 활용 비슷한 구매 패턴을 가진 고객 분할/ 이상치 탐치/ 피쳐를 적은 수의 동족으로 줄여 매우 큰 빅데이터를 단순화/ - kmeans 각 중심이 데이터들의 평균을 잡고 다시 그룹원을 갱신하고 평균이 안 바뀌면 종료/ => 평가 지표 adjusted Rand index : 라벨 정답값과 예측치 사이의 거리 예측/ -> 2가지의 파라미터/ -> pg29 : 정답데이터(그라운드 트루쓰), 예측데이터를 파라미터로 넣는다/ -> 비지도 학습이니 정답값은 여기에만 쓰입니다. -> 실습 느낀점 : 군집화는 X만 넣는데 그래프로 표현하면 X들이 x축이고 데이터 프레임의 라벨 변수가 y입니다. => kmeans..
서론 빅데이터 수집을 배우자 본론 - 센트럴 저장소 : one single machine - one db server => 대표 : 관계형 데이터 베이스 -> 왜 빅데이터 저장에는 효율적이지 않니 4가지 이유?? : 1) 구조가 있지 않는 데이터를 저장하기에 유연하지 않음(데이터를 가져와서 테이블 구조로 저장하면 정형데이터, 테이블 구조로 저장하지 않으면 비정형 = 처음 가져왔을 때 기준이다 json은 처음 가져오면 테이블로 저장되지도 않고 텍스트나 이미지도 아니니 반정형이다)/ 2) 관계형 데이터는 저장되는 속도가 느리다 3) sql을 써야한다?/ - 디센트럴 저장소 데이터를 하나의 서버에 관리하는게 아니고 여러 서버에 관리 -> 클라우드를 생각하면 처음 시작할때 지역을 선택하더라/ => 장점 = 센트..
서론 본론 - 인공신경망 데이터의 입력 > 어떠한 출력 -> 과거의 사람들은 이걸 컴터로 구현할수있겠는데?라고 생각했다 그래서 10^11의 뉴런을 연결한 거야(그렇게 치면 진짜 인간은 어떻게 만들어진 걸까?)/ - 용어 머신러닝 : 통계적 가정을 만족하지 않더라도 컴퓨터가 스스로 패턴을 학습하는 방법/ 딥러닝 : 인공신경망 알고리즘으로 머신러닝을 하는 것 -> 머신러닝과의 차이점 : 특징추출을 안한다? 기계가 알아서 하도록 한다 ★아까는 전처리 안한다고 했는데 기본적인 건 해줘야한다 이미지의 경우 28*28을 784이런거/ => 데이콘 1등 앙상블(xgboost), 딥러닝 모델이다/ 데이콘에서 제공하는 데이터가 앙상블에 초점을 맞춰서 그렇대/ -> 프로젝트를 할 때 정확도가 중요한 것 vs 남에게 설명을..
서론 만약 nlp 공부를 한 후에 내가 구한 텍스트로 학습을 시키는 데 전처리가 필요하다면 이번에 배운 오렌지와 워드, 엑셀로 전처리하는 법을 다시 보는 것이 좋을 수 있다. 본론 (위키독스로 공부하며 오렌지로 인코더, 이런 거 이해하기 쉽겠는데????? > 실무에서는 오렌지 등으로 처리 결과를 보고 코딩으로 큰 데이터를 다룬다)/ 텍스트 분석 1) 텍스트를 어떻게 일반적인 데이터처럼 통계적 처리가 가능한 데이터로 가공할 것인가를 생각해야한다 = 내가 친구들과 말하는 걸 어떻게 데이터로 볼 것인가/ => 텍스트 텍스트는 비정형 데이터로 비정형성을 제거해야 통계적 처리가 가능하다/ -> 저 코퍼스를 어떻게 수치형, 범주형으로 바꿜 수 있을까가 처리의 시작이다 -> 데이터를 순서, 수량기반으로 '인식'하고 ..
서론 본론 시공간 분석(시간 + 공간 분석이다)을 배워보자 시계열 분석 - 시계열 분석 목적 1. 추세파악(= 경향파악) : 잡음을 제거하여 큰 흐름 파악 2. 원인 예측 및 대응 : 패턴을 보고 이를 극복하기 위한 예측, 방안 마련 3. 향후 전망 = 추이 전망/ - 시계열의 요인 => 시계열 분해법 : 여러가지 요인으로 결과가 나기 때문에 하나하나 쪼개서 분석하여 요인이 뭐가 있나 봐야한다/ 1) 추세요인 : 지속적인 경향을 보이는 경우의 요인 -> 어떠한 추세를 가진다의 요인 2) 계절요인 : 올라갔다 내려갔다하는 요인인데 왜 올라가고 내려가는지 이유을 아는 경우 ex) 계절도 순환임(=1년 단위의 짧은 기간 동안의 요인 주기발생) 3) 순환요인 : 순환인데 왜 그러는지 모를 때 + 긴 기간 동안의..
서론 본론 6일차 실습 ※ R이나 파이썬이 좋은 이유 : 웨카나 spss는 정적 라이브러리라서 헤비하다 근데 파이썬, R은 라이브러리를 가져오는 거라서 가볍다 -> 웨카나 spss를 동적으로 라이브러리 쓰는게 r과 파이썬이다/ - 개요 1.2 설명 모형 vs 예측 모형의 구축 ① 설명 모형 : 전체를 설명할 경우 전체 데이터를 사용하지만 ② 예측 : 5년치 데이터를 사용하는 것보다 1년치 데이터를 사용하는 것이 예측을 더 잘 한다/ ③ 결론 : 데이터는 쪼개서 써야한다/ 1.3 최적화 알고리즘과 휴리스틱 -> 회귀 분석의 가정(최적화 모델의 문제는 가정이 많다는 건데 현실의 데이터는 가정에 맞지 않다 > 그래서 휴리스틱 모델인 딥러닝 모델로 하는 게 정확도가 더 높다) 가정 1 : 이것부터 현실에서는 맞..
서론 머신러닝 기반 분석 이론 학습 및 실습을 진행합니다. 본론 실습 머신러닝 개념과 기초 분석(충북대 교수님 강의) -> 하신 서비스 : 상담원이 받은 전화 데이터로 소비자들이 어떤 프로모션을 제일 좋아할까 -> 노트북을 팔면 가격을 낮추는거? 마우스를 껴주는 걸 좋아할까?? 이런 프로모션 예측 등을 하셨단다./ - 머신러닝 데이터마이닝 개요 ★ 인공지능이든 머신러닝이든 전부 데이터이다 알파고가 수만번의 대전으로 깨지면서 배운 거다/ -> 데이터는 2가지 정량(숫자), 정성(글자)/ 데이터를 라벨을 실수로 하지 말고 적정, 적정이하, 적정이상으로 라벨링하고 이하 이하 이상이 좋은지 이상 적정 이하가 좋은 지를 봐라 -> ★수치형 연속 데이터를 범주형 연속 데이터로 만들기 = 상식적으로 생각해봐도 실수형..
서론 통계 기반 데이터 분석 이론 학습 및 실습을 진행합니다. 본론 실습 - 통계적 가설 검정 ->통계적 마인드로 타이타닉의 생존자와 사망자의 차이를 알아보자 = 불확실한 가설을 수학으로 검증해보자/ ※ 통계 p가 0.05보다 크면 귀무가설이다, 작으면 대립가설이다 -> 그러니 검정마다 귀무가설이 뭔지를 알아야한다/ - 귀무가설 1) 정규성 검정 : 데이터셋이 정규분포를 따른다. 2) 등분산 검정 : 두 집단의 모양이 비슷하다(모분산이 일치한다) 3) 독립 t검정 : 이 속성으로는 두 집단의 차이를 확인할수없다(이 집단의 차이가 없다) -> 따라서 등분산이랑, 독립 t는 집단을 두개로 만들어야하고 대립가설(두 집단의 차이를 볼 수 있는)이 되는 요소를 찾아야함/ 4) 이원 카이 검정 : 두 변수 사이에 ..