spark-shell 사용중에 saveAsTextFile을 사용하기전에 제약사항이 저장할 디렉토리에 파일이 없어야 한다.

따라서 미리 파일을 지워야 하는데 s3같은 경우는 hadoop fs -rmr 커맨드 한줄로 가능하다.

spark-shell 안에서 hadoop 커맨드를 실행하고자 하는 경우 다음과 같이 하면 된다.


scala> import sys.process._

import sys.process._


scala> "hadoop fs -rmr s3://버킷명/지우고_싶은_디렉토리" !



AWS S3 Java SDK를 써도 되긴하는데 귀찮다. 

참고
* http://alvinalexander.com/scala/scala-execute-exec-external-system-commands-in-scala


'Spark' 카테고리의 다른 글

임시 테이블 만들기  (0) 2017.01.23
spark-shell 사용법  (0) 2016.09.30
spark-shell에서 scala 버전 구하기  (0) 2016.09.29
Date에 Range를 넣어보자.  (0) 2016.02.11

+ Recent posts