RWDR
데이터 분석 학습 일지
-
R 설치
R은 컴퓨터에서 통계적인 작업을 하거나 시각화를 도와주는 프로그램입니다. 비싼 유료 프로그램인 SAS와 다르게 오픈소스이기 때문에 접근성과 교류 측면에서 좋습니다. SAS가 사기업에서의 사용량이 많기 때문에 무조건 특정 프로그램만 고집하기보다는 본인이 사용하는 목적에 맞춰서 프로그램을 선택하면 될 것 같습니다. 이 블로그에서는 R 설치 후 바로 Rstudio를 설치 한 다음 Rstudio에서만 실습을 진행합니다....
-
정규 표현식, 더미 변수, 샘플링
목차 1. 샘플링 함수 2. 더미 변수(dummy variables) 3. 정규 표현식(regexp) 1) compile 2) findall 3) str.findall 1. 샘플링 함수 일반적으로 모델을 평가할 때 기존의 데이터를 학습 데이터(train data)와 평가 데이터(test data)로 분리하고, 학습 데이터를 모델에 학습 시킨 후 평가 데이터를 넣어서 점수를 얻는 방식으로 이루어집니다. 보다 자세한 설명은 모델...
-
pandas - 전처리 추가 내용 (2)
목차 1. 구간 분할(cut) 2. 그룹 메소드(groupby) 1) 적용 메소드(apply) 2) 사용자 정의 그룹 3) 트랜스폼(transfrom) 3. 날짜 모듈(datetime) 1) 현재 날짜 및 시간 2) 형 변환 함수 3) 날짜 연산 (+) 추가 모듈 4) 날짜 인덱스(date_index) 5) 리샘플링(resampling) 6) 날짜 이동(shift) 1. 구간 분할(cut) cut은 연속형 변수의 구간 분할을...
-
pandas - 전처리 추가 내용
목차 1. 스택&언스택 1) 언스택(unstack) 2) 스택(stack) 2. 순위(rank) 3. 병합(merge) 4. 피벗 테이블(pivot) 5. str 모듈 6. 중복 처리 메소드(duplicate) 1. 스택&언스택(stack) pandas 내에 있는 메소드 stack과 unstack은 R에서 reshape2 패키지의 함수 melt, dcast와 동일한 기능을 가지고 있습니다. 두 함수를 다루기 전에 Wide data와 long data를 알아야 하는데 이...
-
pandas - DataFrame 예제
목차 문제 1 (색인 및 적용함수) 문제 2 (사용자 정의 함수 및 정렬 등) 문제 3 (멀티 인덱스) 문제 4 (멀티 인덱스 2) 이번 글에서는 앞에 다룬 내용을 베이스로 하는 예제 문제들을 다룰 것입니다. 글로만 이해해서는 완벽하게 익히기 어렵습니다. 정확히는 본인이 무엇을 모르는지 모르는 경우가 대부분입니다. 대부분의 공부가 그렇듯이 실제로...