spark-shell 사용중에 saveAsTextFile을 사용하기전에 제약사항이 저장할 디렉토리에 파일이 없어야 한다.
따라서 미리 파일을 지워야 하는데 s3같은 경우는 hadoop fs -rmr 커맨드 한줄로 가능하다.
spark-shell 안에서 hadoop 커맨드를 실행하고자 하는 경우 다음과 같이 하면 된다.
scala> import sys.process._
import sys.process._
scala> "hadoop fs -rmr s3://버킷명/지우고_싶은_디렉토리" !
AWS S3 Java SDK를 써도 되긴하는데 귀찮다.
참고
* http://alvinalexander.com/scala/scala-execute-exec-external-system-commands-in-scala
'Spark' 카테고리의 다른 글
임시 테이블 만들기 (0) | 2017.01.23 |
---|---|
spark-shell 사용법 (0) | 2016.09.30 |
spark-shell에서 scala 버전 구하기 (0) | 2016.09.29 |
Date에 Range를 넣어보자. (0) | 2016.02.11 |