spark query 모음

합집합

rdd1.union(rdd2).collect()

교집합

rdd1.intersection(rdd2).collect()

카테시안

rdd1.cartesian(rdd2).collect()

차집합(A-B)

rdd1.subtract(rdd2).collect()

join

(K, V)와 (K, W)를 (K, (V, W))로 만들어줌
hash1.join(hash2).collect()

cogroup

(K, V)를 (K, Iterable<V>)로 변환

hash1.cogroup(hash2).collect()

persist

persist() 를 사용하면 spark driver program 이 종료되더라도 memory 에 상주한다.

unpersist

unpersist를 사용해 memory free 해준다.(persist 사용하면 꼭 해줘야함)

regexp_replace

regexp_replace(x, pattern, replacement)

regexp_replace(df$c, '(\\d+)', '--')

When/otherwise 절

when(조건,값).ohterwise(예외 값)

val df2= df.withColumn(
"FROM_BANK",
when($"DIRECTION"=== "D", $"BANK_NAME")
.otherwise(lit(null))
)
.withColumn(
"TO_BANK",
when($"DIRECTION"=== "C", $"BANK_NAME")
.otherwise(lit(null)))
df2.show(100,false)

www.python2.net/questions-1278737.htm

저작자표시 (새창열림)

사업자 정보 표시

'programmer > Spark' 카테고리의 다른 글

kafka connect, ms source connector 설치방법 (0)	2023.07.10
confluent-hub 설치 방법 (0)	2023.07.10
아파치 카프카 스터디 (0)	2023.06.26
[파일명] dataFrame을 파일로 저장 시 파일 명 바꾸기 (1)	2022.03.14
value toDF is not a member of org.apache.spark.rdd.RDD 에러 (0)	2021.04.08

투자하는 복슬강아지 왈왈

spark query 모음

합집합

교집합

카테시안

차집합(A-B)

join

cogroup

persist

unpersist

regexp_replace

When/otherwise 절

'programmer > Spark' 카테고리의 다른 글

티스토리툴바

spark query 모음

합집합

교집합

카테시안

차집합(A-B)

join

cogroup

persist

unpersist

regexp_replace

When/otherwise 절

'programmer > Spark' 카테고리의 다른 글

'programmer/Spark' Related Articles

티스토리툴바