합집합
rdd1.union(rdd2).collect()
교집합
rdd1.intersection(rdd2).collect()
카테시안
rdd1.cartesian(rdd2).collect()
차집합(A-B)
rdd1.subtract(rdd2).collect()
join
(K, V)와 (K, W)를 (K, (V, W))로 만들어줌
hash1.join(hash2).collect()
cogroup
(K, V)를 (K, Iterable<V>)로 변환
hash1.cogroup(hash2).collect()
persist
persist() 를 사용하면 spark driver program 이 종료되더라도 memory 에 상주한다.
unpersist
unpersist를 사용해 memory free 해준다.(persist 사용하면 꼭 해줘야함)
regexp_replace
regexp_replace(x, pattern, replacement)
regexp_replace(df$c, '(\\d+)', '--')
When/otherwise 절
when(조건,값).ohterwise(예외 값)
- val df2= df.withColumn(
- "FROM_BANK",
- when($"DIRECTION"=== "D", $"BANK_NAME")
- .otherwise(lit(null))
- )
- .withColumn(
- "TO_BANK",
- when($"DIRECTION"=== "C", $"BANK_NAME")
- .otherwise(lit(null)))
- df2.show(100,false)
www.python2.net/questions-1278737.htm
반응형
사업자 정보 표시
라울앤알바 | 장수호 | 서울특별시 관악구 봉천로 13나길 58-10, 404호(봉천동) | 사업자 등록번호 : 363-72-00290 | TEL : 010-5790-0933 | Mail : shjang@raulnalba.com | 통신판매신고번호 : 2020-서울관악-0892호 | 사이버몰의 이용약관 바로가기
'programmer > Spark' 카테고리의 다른 글
kafka connect, ms source connector 설치방법 (0) | 2023.07.10 |
---|---|
confluent-hub 설치 방법 (0) | 2023.07.10 |
아파치 카프카 스터디 (0) | 2023.06.26 |
[파일명] dataFrame을 파일로 저장 시 파일 명 바꾸기 (1) | 2022.03.14 |
value toDF is not a member of org.apache.spark.rdd.RDD 에러 (0) | 2021.04.08 |