데이터분석11 [의사결정나무] 출근시간이 성과에 미치는 영향 분석(Decision Tree) 지난 포스팅에서는 근무시간이 업무성과에 미치는 영향도를 분석하였습니다. 제 데이터로는 영향을 미치지 않는다고 결론이 나서 "칼퇴"의 정당성이 확보되었는데... 그럼 "일찍 일어나는 새가 벌레를 잡는다"라는 속담처럼 회사에 일찍출근하면 업무 효율이 높아져서 성과에도 영향을 미친다는 어르신들의 말씀에 데이터적 근거로 반론을... 제기해보고 싶다는 생각이 문들 들었네요. 그래서 이번 포스팅에서는 "출근시간" 을 기준으로 업무성과를 분석할 것인데, 이번 분석은 의사결장나무(Decision Tress)로 분석을 하려합니다. 독립변수를 "출근시간","근무시간" 이렇게 두가지로 분석할 것입니다. 의사결정나무(Decision Tree)의사결정나무는 데이터를 분류하거나 예측하는데 사용되는 트리(Tree)형태의 분석 방.. 2025. 6. 18. [회귀분석] 근무시간이 업무성과에 미치는 영향 분석 Python을 이용한 데이터 분석 활용중 이번 포스팅에서는 회귀분석(回歸分析, Regression Analysis)을 이용한 분석에 대해 설명하려 합니다.회귀분석회귀분석이란 특정 변수들 사이의 관계를 분석하여, 그 중 하나의 변수(종속변수, dependent variable )의 변화가 다른 변수들(독립변수, independent variables)의 변화와 어떤 연관성을 가지고 있는지 분석하고, 이를 토대로 종속변수의 값을 예측하거나 설명하는 통계적 방법입니다. 이때 '회귀(回歸)'는 "되돌아가다"라는 본래의 뜻에서, 관측된 데이터들로부터 도출된 관계식이 실제 현상으로 돌아가 예측 또는 설명하는 과정을 의미합니다. 즉, 이미 주어진 데이터를 바탕으로 관계를 파악하고, 그 결과를 실제 상황에 다시 적용.. 2025. 6. 18. [Python] 데이터 전처리 데이터 전처리데이터를 시각화하고 분석, 예측을 하기 위해 가장 많이 접하는 단어가 아마 "데이터 전처리" 일것입니다. 데이터 전처리란 데이터를 분석 또는 활용, 머신러닝 모델링을 수행하기 전에 원천 데이터를 정제하고 구조화하여 품질 높은 데이터 셋으로 만드는 일련의 과정으로 결측치를 처리하고, 이상값제거, 형식통일, 범주형변수 인코딩, 스케일링, 파생변수 생성등 데이터 활용 이전에 데이터를 정리하고 정형화하는 필수 단계 입니다. 데이터 분석과 활용에 있어서 전처리 과정이 아마 50%이상을 차지할 수도 있는 많이 시간과 과정이 필요한 작업이며, 전처리 결과에 따라 정확도와 신뢰도에 큰 영향을 준답니다. 전처리의 주요 단계는 아래와 같습니다. 원천데이터의 신뢰도에 맞게 아래의 과정을 순차적으로 진행하시면 .. 2025. 5. 17. [Python] 시각화 plot() (Matplotlib,Pandas) MatplotlibMatplotlib는 Python 프로그래밍 언어 및 수학적 확장 NumPy 라이브러리를 활용한 시각화 라이브러리 입니다. Matplotlib 라이브러리를 이용하면 데이터를 쉽게 시각화할 수 있답니다. 우선 시각화를 위해 아래와 같은 엑셀 예제 파일을 준비해볼게요. Data,Day,Sales1,Sales2 열을 같고 있는 1개월치 매출 데이터입니다. Plot Plot은 일반적으로 둘 이상의 변수 간의 관계를 보여주는 그래프로 보시면됩니다. Matplotlib을 사용하기 위해서는 우선 설치를 하셔야 합니다. 터미널에서 pip install matplotlib, pip install Numpy 를 이용하여 먼저 설치 해주세요. 자. 엑셀에서 가져온 데이터의 'Day' 열과 'Sales1.. 2024. 6. 4. [Python] Pandas[판다스] 활용하기(2) Pandas(2)위와 같이 엑셀 (또는 csv 등 파일)에 데이터가 있을 경우 해당 데이터를 불러와서 Pandas에 넣는 작업이 필요합니다. import pandas as pdimport openpyxl #엑셀 호출 모듈#엑셀파일 불러오기df=pd.read_excel('c:\Point.xlsx')C 드라이 안에 Point.xlsx 파일이 있다고 가정한 예시이며 활용할 파일이 여러분들의 PC에 있다면 해당 경로를 입력하시면 됩니다. 엑셀을 호출하기 위해서는 openpyxl 모듈을 설치하여야 합니다. 터미널에서 pip install openpyxl을 이용하여 설치를 하시면 됩니다.Pandas로 가져온 데이를 확인하는 방법은 info() 함수로 아래와 같이 호출하면 테이터 프레임의 크기, 타입, 결측치 등의.. 2024. 5. 30. [Python] Pandas[판다스] 활용하기(1) Pandas 라이브러리 판다스(Pandas)는 파이썬 데이터 분석 라이브러리 중 하나로, 행과 열로 이루어진 데이터 객체를 만들어서 사용할 수 있으며 대용량의 데이터를을 처리하는데 매우 편한 라이브러리 입니다. 판다스는 1차원 데이터를 다루기 위한 객체인 Series(시리즈)와 2차원 데이터를 다루는 DataFrame(데이터프레임)이 있습니다. Pandas 설치 Pandas를 사용하려면 먼저 라이브러리 설치가 필요합니다. 아래와 같이 VSCode의 Termial 에서 Pandas를 설치 합니다. pip install pandasDataFrame행과 열로 이루어진 2차원 데이터 객체이며, 열은 각각의 변수를 나타내고,행은 각각의 관측치를 나타냅니다. 기본적으로 생성할때는 2차원 리스트 또는 딕셔너리, 파.. 2024. 5. 29. [Power BI] DAX-Date 함수 (1) 시각화를 위해 데이터를 준비하고 처리할 때 가장 많이 접하게 되는 함수가 Date함수 일 것입니다. 은근.. 기업, 부서마다 기준 날짜를 다양하게 가지고 있으니 잘 익혀두시고 활용하시길 바랍니다. DATE 첫번째는 정수타입을 DATE 타입으로 변경하는 함수 입니다. 만약 전달 받은 데이터에 년,월,일 필드로 구분되어 있다하면 하나의 날짜 타임을 만드는 작업이 필요합니다. 기본 구문 Date(,,) 예시 DATE_함수= DATE(2021,01,01) 2021, 01, 01 등의 정수를 날짜 형식으로 변환하는 예시입니다. 테스트를 위해 "새 측정값"을 클릭한다음에 예시와 같은 DAX 함수를 작성해보세요 시각화 도구의 "카드"를 이용하여 캔버스에 생성한 측정값 "Date함수"를 지정하면 아래와 같이 표기 됨을.. 2023. 5. 9. [Power BI] DAX함수-AND DAX 논리함수 "AND" 2 개의 인수 중 인수 모두가 True 인지 확인하고 True 인 경우 True를 그렇지 않으면 False 를 반환 합니다. 예시 AND 테스트 = AND('매출정보'[평가]="양호" , '매출정보'[단가] > 6000) “매출정보“ 테이블의 평가 필드가 “양호“ 이고 “매출정보“ 테이블의 “단가“ 필드의 값이 6,000보다 클 경우 True를 반환하고 조건에 맞지 않으면 False를 반환합니다. 예시 + AND테스트2 = IF( AND('매출정보'[평가]="양호" , '매출정보'[단가] > 6000),"통과","불합격") IF문과 같이 사용하면 고정된 True, False 값이 아닌 사용자가 원하는 값을 반환 하는 예시 입니다. True면 “통과“ False면 “불합격"을.. 2023. 5. 7. [Python] 파이썬 설치 및 환경구축 어떤 개발언어로든 개발을 시작하기 위해서는 우선 개발 환경을 먼저 구축해야겠지요? 사실 언어마다 문법이나 구조가 그렇게 다르지 않아서 초기 환경 구성과 그 언어의 구조만 잘 파악 한다면 새롭게 접근 하기 어렵지 않을 것입니다. 파이썬을 설치 한다는 것은 파이썬 언어를 해석할 수 있는 Interpreter라는 프로그램을 설치한다는 의미로 Interpreter는 소스 코드를 읽고 해석하여 수행하는 프로그램입니다. 파이썬의 Interpreter가 최초에 C언어로 만들어졌기에 C 혹은 C++언어로된 바이너리 라이브러리를 직접 호출 할 수 있는 구조로 수많은 C/C++ 라이브러리를 파이썬에서 쉽게 사용할 수 있답니다. 물론 이후 자바(JAVA) 또는 닷넷으로 구현된 파이썬도 있기에 자바 라이브러리나 닷넷 컴포넌트.. 2022. 2. 7. [Power BI]#3 Power BI 시작하기 Power BI를 시작하기 위해서는 마이크로소프트에서 Power BI Desktop을 다운받아야 합니다. Power BI Desktop 다운로드 설치 후 실행을 하면 다음과 같은 페이지가 시작됩니다. ①캔버스: BI리포트를 작성하는 페이지로 엑셀의 시트추가와 동일하게 캔버스를 추가 할 수 있습니다. ②시각화 도구 : 데이터를 캔버스에 표기하기 위한 도구 모음으로 기본적으로 Power BI에서 제공하는 그래프,행렬 테이블 등 다양한 시각화 도구가 위치 해 있으며 “더 많은 시각적 개체 가져오기"를 이용하여 타 개발사에서 제작된 시각화 도구를 가져와서 사용할 수 있습니다. ③필드 : 원본 데이터 (엑셀 또는 DB)를 연결하면 해당 데이터의 필드명들이 테이블 구조화 되어 보여집니다. 시각화 도구에 표현하고자 .. 2021. 7. 20. 이전 1 2 다음