본문 바로가기

programmer/Spark

spark query 모음

합집합

 rdd1.union(rdd2).collect()

교집합

rdd1.intersection(rdd2).collect()

카테시안

rdd1.cartesian(rdd2).collect()

차집합(A-B)

rdd1.subtract(rdd2).collect()

join

(K, V)와 (K, W)를   (K, (V, W))로 만들어줌
 hash1.join(hash2).collect()

cogroup 

 (K, V)를 (K, Iterable<V>)로 변환

hash1.cogroup(hash2).collect()

persist

persist() 를 사용하면 spark driver program 이 종료되더라도 memory 에 상주한다.


unpersist

unpersist를 사용해 memory free 해준다.(persist 사용하면 꼭 해줘야함)

 

regexp_replace

regexp_replace(x, pattern, replacement)

regexp_replace(df$c, '(\\d+)', '--')

 

When/otherwise 절

when(조건,값).ohterwise(예외 값)

  • val df2= df.withColumn(
  • "FROM_BANK",
  • when($"DIRECTION"=== "D", $"BANK_NAME")
  • .otherwise(lit(null))
  • )
  • .withColumn(
  • "TO_BANK",
  • when($"DIRECTION"=== "C", $"BANK_NAME")
  • .otherwise(lit(null)))
  • df2.show(100,false)

www.python2.net/questions-1278737.htm

 

반응형
사업자 정보 표시
라울앤알바 | 장수호 | 서울특별시 관악구 봉천로 13나길 58-10, 404호(봉천동) | 사업자 등록번호 : 363-72-00290 | TEL : 010-5790-0933 | Mail : shjang@raulnalba.com | 통신판매신고번호 : 2020-서울관악-0892호 | 사이버몰의 이용약관 바로가기