개발자로 후회없는 삶 살기

[22.08.02]데이터 청년 캠퍼스 PART.project 6일차(군집화 시행착오) 본문

[대외활동]/[데이터 청년 캠퍼스]

[22.08.02]데이터 청년 캠퍼스 PART.project 6일차(군집화 시행착오)

몽이장쥰 2022. 12. 15. 19:32

서론

데이터 청년 캠퍼스 project 6일차 내용입니다.

 

본론

 

※ 5일차 군집화 부분과 이어지는 내용

제가 이렇게 말했습니다 : "지금 기업이 요구하는 결과물을 고려한 것은 제가 제시한 군집화 방법뿐인데 팀원 분이 말씀하시기를 군집 분석은 해석이 믿을 수 없고 군집 결과가 어떻게 나올지 예측 불가능하다고 하시어 결과를 낸다고 한들 유의미한 것인지 모르겠다고 하시면 제 군집 분석은 차선책으로 저만 살펴보고 다른 분들은 다른 방법을 생각해 보는 것이 어떠신가요?"

 

 

- 군집화에 사용할 독립변수, 결과물에 대한 고민

그렇게 해서 이번에는 군집화를 위해 독립변수와 결과물을 생각하기 위한 '엑셀보기'를 만들었습니다.

 

 

=> 시행착오

이 셀들을 하나하나 열어보며 군집 패턴에 필요한 변수들을 선정하는 것이 임무였습니다. 셀을 하나 열면 다른 셀을 열기 위해 폴더를 다시 키거나 켜놓은 셀 중에서 원하는 셀을 일일이 찾아야 했습니다. > 열고 닫고 한 번 하는 데만 1분이 걸린 적도 있습니다.

 

-> 해결법

일단은 각각의 셀을 열어서 상단 부분만 캡쳐합니다. 워드에 이미지를 폴더별로 두 파트로 나눠 저장합니다. 이러면 셀을 다시 키고 닫는 수고를 할 필요가 없어지고 다른 셀들과 내용을 비교하는 것도 훨씬 수월해진다고 생각합니다.

 

> 최종 결과물은 역시 이전에 한 것과 동일한 '엑셀 보기' 파일이 생성됩니다. 

 

 

 

- 워드에 정리(엑셀 보기) 후 한 일

1. 각 셀에서 이해가 안되는 부분을 셀 별로 질문 리스트로 정리
2. 각 셀에서 비슷하다고 생각되는 셀들을 모았습니다. ex) 1번 셀은 2번 셀을 세분화한 것 등등
3. 목표는 5일차에서 정했으니 패턴을 만들기 위해 모을 수 있을 거 같은 셀들을 추림

 

=> 엑셀 보기로 이루고자한 목표

1. 리드타임 조정(제품을 공정에 넣는 순서를 바꿔보는 것)

2. 수주 리스트 기반 계획 생산(어떤 주문은 수입에 큰 영향을 주니 계획적으로 생산하는 것이 좋겠고 어떤 주문은 포기하는 것이 총수입에 좋을 것입니다.)

 

3. 추리기 위한 키워드를 정합니다.

1) 고객관련(수주 기업)/ 2. 설비 관련/ 3. 공정 관련

2) 추린 키워드에 맞는 셀들을 구분 짓습니다.

3) 구분 지은 셀들 이미지가 있으니 아까 폴더별로 정리한 이미지 밑에 키워드 별로 저장합니다.

4) 이제 확실히 저장된 이미지들을 보며 군집에 필요한 패턴을 찾습니다!!

 

- 느낀 점

1. 목표를 뚜렷하게 하고 셀들을 정리하니 데이터를 이해하기 쉽고 기업에 데이터 관련으로 질문할 거리가 떠오릅니다.
2. 정리를 이미지로 하지 말고 더 효율적으로 하는 방법을 알게 되면 좋을 것입니다.

 

 

- 팀원분의 반박

내가 데이터를 파악하여 군집화에 필요할 독립변수를 생각해 전달했지만 군집화를 하면 안 되는 이유를 설명해 주십니다. 이에 억울한 부분도 있었지만 배우는 부분도 많았습니다. 이 또한 팀 프로젝트의 배움일 것입니다.

 

-> 클러스터와 클래시피케이션의 차이

1. 클러스터는 군집을 나누는데 분석가의 주관적인 해석이 자유롭게 들어가게 됩니다.
2. 분류는 수식에 의한 결과입니다.
3. 따라서 일반인이 데이터 분석을 하지 않고 딱 봐도 이게 좋을 거 같고 알 수 있는 거를 제시하는 것과 별 다를 바 없는 대략적인 해석밖에 안 된 지 수치적인 결과가 나오기 어렵습니다.

 

 

-> 따라서 더욱 심도 있게 찾아보기로 했습니다.

1. 비지도 학습의 문제점

비지도 학습은 훈련 데이터 집단에 결과에 해당하는 출력 값이 존재하지 않기에 큰 문제점이 존재합니다. 어떻게 우리가 알고리즘을 설계하느냐에 따라서 결과물이 현저히 달라질 것입니다. 따라서 이것이 원하는 결과와 일치하느냐를 평가하는 것은 불가능합니다. 예를 들면, 같은 집단 알고리즘 기술을 적용했다고 하더라도 개발자마다 다른 기준을 가지고 알고리즘을 설계했을 것입니다. 훈련 결과가 동일하더라도, 사용되는 딥러닝 기술이 이후에 어떤 문제점을 가져올지는 알 수 없습니다.

 

 

2. 군집 분석 해석 방법

1) 군집별 변수별 중심 좌표 : 각 군집별로 군집화에 사용했던 변수들의 중심 좌표를 살펴보는 것

2) 군집별 변수별 평행 좌표 그림 : 다 변량 변수들에 대해 관측치 개개의 값들이 군집별로 어떻게 다른지 보려면 평행 좌표 그림을 그립니다.

3) 군집별 산점도 : 군집 결과를 2차원의 평면에 군집별로 색깔과 모양을 달리해서 산점도로 표현할 수 있다면 군집별 특성을 이해하는데 도움이 됩니다./ -> 이 방법은 2차원이기 때문에 차원 축소를 하거나 2개의 변수만 골라서 합니다.

 

-> 최종 느낀 점

1. 실제 데이터가 주어지면 정말 다양한 생각을 해야 합니다. > 목표를 내가 정하는 것이면 모를까 고객이 원하는 요구사항이 확실하면 raw 데이터를 보고 더욱더 구석구석 파고 들어서 데이터에서 가치를 창출해야 합니다. > 대회에서 주어지는 데이터와 실제 기업들이 가지고 있는 데이터는 상태 차이가 엄청 큽니다. 우리 다산이엔지 기업은 양호한 정도입니다.

 

2. 데이터만 문제가 아니다 데이터를 분석했다면 이제 어떠한 모델링을 위해 그에 맞는 어떠한 가공을 해야 적합한 결과를 낼지도 고민해야 합니다. > 이것만으로도 시간 투자가 어마어마할 것입니다. ex) 과거의 패턴을 다루기 위해 군집을 하자!

 

 

 

 

Comments