Mapper나 Reducer가 퍼센트 변화 없이 가만 있을 때가 있다.
아래 상황을 숙지하고 진행상황을 항상 알 수 있도록 하자.

진행 상황 관련 연산

  • 입력 레코드 읽기 할 때
  • 출력 레코드 쓰기 할 때
  • Reporter 클래스의 setStatus() 메서드로 상태를 설정 할 때
  • Reporter 클래스의 incrCounter() 메서드로 카운터를 증가시킬 때
  • Reporter 클래스 progress() 호출
  • -D 프로퍼티=값
    • 디폴트 값을 무시하고 지정한 프로퍼티 값을 설정함
  • -conf 파일명
    • 설정에 사용할 파일 리스트에 추가
    • 사이트 설정할 때 편리
  • -fs uri
    • 디폴트 파일시스템 설정
    • -D fs.default.name=uri
  • -jt 호스트:포트
    • JobTracker 설정
    • -D mapred.job.tracker=호스트:포트
  • -files 파일1,파일2,…
    • 로컬에 있는 파일을 HDFS에 복사
    • 239페이지 참조
  • -archives 아카이브1,아카이브2,…
    • 지정한 아카이브를 HDFS에 저장
  • -libjars jar1,jar2,…
    • 로컬파일시스템의 jar를 HDFS에 복사
    • 복사 후 MapReduce 태스크의 클래스패스에 추가

클러스터간 데이터를 복사할때는 hadoop 쉘 커맨드인 distcp를 사용한다.

hadoop distcp hdfs://복사서버명:포트번호/복사경로 hdfs://저장서버명:포트번호/저장경로
  • Tuple
    • 문법
      • (필드 [, 필드]…)
    • 순서가 있는 필드 집합
    • 튜플은 괄호로 둘러쌓여 있음

예) (John,18,4,0f)

  • Bag
    • 문법 (Inner Bag)
      • { 튜플 [, 튜플] }
    • 튜플의 집합
    • Inner Bag은 {}로 둘러쌓여 있음

예)
X = GROUP A BY f1; DUMP X;
(1,{(1,2,3)})
(4,{(4,2,1),(4,3,3)})
(8,{(8,3,4)})

  • Map
    • 문법 (<>은 옵션표시)
      • [ 키#값 <,키#값…>]
    • 키/값 쌍의 집합
    • 맵은 []로 둘러쌓여 있음

예) [name#John,phone#5551212]

+ Recent posts