spark-shell에서 s3 디렉토리를 지워야 하는 경우 external system command 사용하기

gilbird 2016. 2. 13. 17:20

2016. 2. 13. 17:20

spark-shell 사용중에 saveAsTextFile을 사용하기전에 제약사항이 저장할 디렉토리에 파일이 없어야 한다.

따라서 미리 파일을 지워야 하는데 s3같은 경우는 hadoop fs -rmr 커맨드 한줄로 가능하다.

spark-shell 안에서 hadoop 커맨드를 실행하고자 하는 경우 다음과 같이 하면 된다.

scala> import sys.process._

import sys.process._

scala> "hadoop fs -rmr s3://버킷명/지우고_싶은_디렉토리" !

AWS S3 Java SDK를 써도 되긴하는데 귀찮다.

참고

* http://alvinalexander.com/scala/scala-execute-exec-external-system-commands-in-scala

IT Lab