• 네이버 API를 이용한 지오코딩(Geocoding)

    목차 0. Geocoding이란? 1. 네이버 클라우드 플랫폼 인증키 발급 2. Geocoding 실행 제가 운영중인 네이버 블로그에서 가장 질문이 많은 글이라 다시 정리해서 올려보았습니다. 해당 글을 작성하게 된 배경은 아파트 실거래가 예측 프로젝트 진행 중 아파트의 가격과 각종 편의시설 및 주요 시설들의 관계(예 : 역세권)를 거리 기반으로 엮기 위해서 위도, 경도...


  • 더미 데이터 생성

    목차 0. 쇼핑몰 설정 주 사용 함수 1. 고객 테이블(customer)) 2. 상품 테이블(product) 3. 주문 테이블(order) 4. 주문한 상품 테이블(order_item) 5. 전처리(preprocess) 가상의 쇼핑몰을 분석 하기 위해 더미 데이터를 만들어 보았습니다. 랜덤 함수를 사용하기 때문에 실질적인 인사이트를 도출하기에는 어렵겠지만 국내 오픈마켓 매장 데이터를 구하기 어렵기 때문에 캐글에 공개되어 있는 해외...


  • R - ggplot2

    유명한 시각화 라이브러리 ggplot2를 이용하여 시각화를 진행해보겠습니다. 시각화 연습 막대그래프 빈도 막대그래프 (+)제조사별 평균 연비 시각화 연습 #ggplot2 불러오기 library(ggplot2) #mpg데이터를 이용한 시각화 ggplot(data=mpg, aes(x=displ, y=hwy, color = drv))+ #산점도 추가 geom_point(size = 5)+ #x축, y축 범위 지정 xlim(3,6)+ ylim(10,30) dplyr에서 각각 옵션들을 각각 옵션을 %>%로 잇듯이 여기서는 +로 잇습니다....


  • R로 공공데이터 가져오기

    이번에는 XML라이브러리를 이용하여 서울시 공공데이터를 불러온 후 저장하는 글입니다. 로그인 및 인증키 생성 공공데이터 가져오기 공공데이터 csv로 저장하기 로그인 및 인증키 생성 서울 열린데이터 광장에 들어가서 로그인을 합니다. 다음 원하는 데이터셋을 찾으러 공공데이터 - 데이터셋 을 누릅니다. 원하는 데이터를 찾은 후 해당 페이지로 들어갑니다. 스크롤을 살짝 내려면 아래 페이지를 볼...


  • 하둡 스트리밍 - Python으로 MapReduce

    기존 자바로 작성된 jar 기반으로 하는 대신에 하둡 스트리밍을 이용하여 Python같은 스크립트 언어로 Mapper와 Reducer를 만들어서 실행합니다. 이번 글에서는 항공 데이터를 이용하여 년.월별 운항 횟수를 출력해보겠습니다. Python 위치 확인 mapper 생성 reducer 생성 하둡 실행 및 출력 Python 위치 확인 우선 리눅스에서 python의 위치를 확인해봅니다. which python /usr/bin/python3 mapper 생성...