RWDR
데이터 분석 학습 일지
-
MapReduce 예제 - 항공 데이터
이 글에서는 항공 데이터를 이용하여 2005~2008년 사이에 항공사별 운행 지연 횟수와 지연 시간의 평균을 하둡을 이용하여 구해보도록 하겠습니다. 파싱 클래스 생성 mapper 생성 reducer 생성 메인 클래스 생성 하둡에 파일 입력 하둡 실행 및 출력 먼저 하둡에서 실행할 jar파일을 만들기 위해 이클립스를 실행합니다. 파싱 클래스 생성 하둡으로 입력한 csv의 내용을...
-
mapreduce 맛보기
준비 단계 mapper 만들기 reducer 만들기 메인 클래스 만들기 WordCount 실행하기 준비 단계 리눅스 마스터에 있는 하둡 설정 관련 파일을 파일질라를 통해 윈도우로 가져옵니다. hadoop-common-2.9.2.jar : 파일 위치 : /usr/local/hadoop/share/hadoop/common hadoop-mapreduce-client-core-2.9.2.jar : 파일 위치 : /usr/local/hadoop/share/hadoop/mapreduce 자바 파일(jar)을 기반으로 실행하기 때문에 자바 문법으로 작성해야합니다. 이클립스를 실행하고 WordCount라는 새 자바 프로젝트를...
-
하둡 - 완전 분산 모드
완전 분산 모드 이전 글에서 만든 싱글 노드는 실습용이었고, 실제로는 싱글 노드로는 사용하지 않고 분산으로 만들어 쓰는 것이 일반적입니다. 이번에는 다음의 스펙으로 분산 모드로 만들어보도록 하겠습니다. 공통 설치 파일 우분투 설치 : 랩 2GB, 하드디스크 30GB 기타 util 설치 : SSH, Vim 네트워크 설정 / 호스트 파일 수정 자바설치 :...
-
하둡 - 설치 및 싱글 노드 모드
hadoop 실행을 위한 준비 우분투에 하둡 설치 싱글노드 생성 하둡 하둡은 데이터 분산 처리를 위해 사용하는데 실시간으로 들어오는 소량의 데이터를 처리하는 다른 언어들과 달리 초대형의 데이터를 모아서 한꺼번에 처리하는 데 사용합니다. 같은 작업을 Python으로 한다면 더 간편하고 쉽게 할 수 있지만 테라바이트 이상으로 적재된 데이터를 처리하기는 어렵다고 합니다. 실행을 위한...
-
selenium을 이용한 구글 이미지 가져오기
목차 1. selenium 2. 기본 환경을 위한 다운로드 2-1) 가상환경 2-2) selenium 설치 2-3) chrome driver 설치 3. 이미지 크롤링 시작 3-1) selenium 테스트 3-2) 구글에서 dog 이미지 검색 3-3) 검색 후 이미지 저장 3-4) 모든 이미지 저장 1. selenium 셀레니움은 웹 브라우저를 코드 기반으로 실제 조작하는 방식으로 이용할 수...