Amazon Web Services(AWS)는 전 세계적으로 분포한 데이터 센터에서 175개가 넘는 완벽한 기능의 서비스를 제공하는, 세계적으로 가장 포괄적이며, 널리 채택되고 있는 클라우드 플랫폼입니다. 빠르게 성장하는 스타트업, 가장 큰 규모의 엔터프라이즈, 주요 정부 기관을 포함하여 수백만 명의 고객이 AWS를 사용하여 비용을 절감하고, 민첩성을 향상시키고, 더 빠르게 혁신하고 있습니다.

출처 : AWS 홈페이지

이 글에서는 이전에 다룬 hadoop 내용중 텍스트 파일의 wordcount 작업을 AWS에서 실행해보도록 하겠습니다.


EC2 - 클라우드 가상서버

Amazon Elastic Compute Cloud(Amazon EC2)는 안전하고 크기 조정이 가능한 컴퓨팅 용량을 클라우드에서 제공하는 웹 서비스입니다. 리눅스 환경을 구축하기 위해 사용합니다. 컴퓨터를 이용할 때는 가상 머신을 설치하고 우분투 iso파일을 설치하는 작업을 거치는 반면 EC2를 이용하면 클릭 몇 번으로 환경을 설정할 수 있다는 장점이 있습니다.

그러면 EC2를 이용해보도록 하겠습니다.

https://blog.kakaocdn.net/dn/k1ShG/btqMkmXOD7Q/ydk4Fof3aKQNvZqaP7Uauk/img.png

서비스 검색 창에서 ec2를 검색하면 클라우드의 가상 서버라는 칸이 뜨는데 이 버튼을 선택합니다.

https://blog.kakaocdn.net/dn/qs157/btqLOOsujJR/tzcXKvP3Ywo0mAWKYZnOk1/img.png

클릭 후 EC2 페이지로 들어온 다음 인스턴스 시작 버튼을 누릅니다.

https://blog.kakaocdn.net/dn/vmhaM/btqLFnDp1Cc/forO6QNFPbfzPCQn5Zqj0K/img.png

저는 리눅스 서버 18.04버전을 사용하기 위해 위 스크린샷에서의 이미지를 선택했습니다.

https://blog.kakaocdn.net/dn/dzdA7i/btqLE2TOqLe/lkTJDv9roP1MuLkuhhHMk1/img.png

인스턴스 유형은 t2.micro를 사용했습니다. AWS에 가입한 직후의 등급인 프리 티어에서 사용할 수 있기 때문입니다.

https://blog.kakaocdn.net/dn/P7un4/btqLJWkz5nU/4VaLxiHk5RFJ40cSvLflxK/img.png

그 이후로는 몇몇 항목들을 살펴만 보시고 다음으로 넘어갑니다.

https://blog.kakaocdn.net/dn/YZFZT/btqLE27kzSd/rO4TP5H7NtPpyEk9qpMUXk/img.png

마지막 단계에서는 키 페어 관련 창이 뜨는데 키 페어를 다운로드 한 후에 인스턴스를 시작합니다.

https://blog.kakaocdn.net/dn/1zaBs/btqLNr5oHna/4zixKYpuGsedgUiZ13sUf1/img.png

스크린샷에서처럼 인스턴스 실행이 확인이 되면 완료입니다.


다음으로는 putty


S3 - 클라우드 저장 장소

S3은 EMR에서 사용할 파일을 저장할 스토리지입니다. 파일을 업로드하는 것은 과금이 없지만 스토리지에서 파일을 다운로드 할때 비용이 청구된다고 합니다.

https://blog.kakaocdn.net/dn/cDhBbd/btqLGXqGCNJ/pXysZNZvtQ2bUPWkaYPJh0/img.png

EC2에서 처럼 서비스에서 S3를 검색 후 페이지로 들어갑니다.

https://blog.kakaocdn.net/dn/M7HLb/btqLNrEkxG9/e2Xk8i3z4Q76mywqtKOtsK/img.png

원하는 대로 버킷 이름 입력 후 버킷을 만듭니다.

https://blog.kakaocdn.net/dn/cqbn9T/btqLENP6QXw/fITe8flzIaJ0qEkrzyJNMk/img.png

스크린샷과 같이 버킷이 만들어졌으면 완성입니다. 다음으로는 wordcount를 실행할 텍스트 파일과

https://blog.kakaocdn.net/dn/c0ExUY/btqLFnXKcIo/tyQWcA0FlNw8YKC4pZjmv1/img.png