programmer/Spark (6) 썸네일형 리스트형 kafka connect, ms source connector 설치방법 msSql source connector는 debezium 에서 제공하는 플러그인을 설치하면 된다. Debezium SQL Server CDC Source Connector Confluent, founded by the original creators of Apache Kafka®, delivers a complete execution of Kafka for the Enterprise, to help you run your business in real-time. 위 커넥터를 설치하려면 먼저 'confluent-hub' 클라이언트를 설치해야한다. 2023... confluent-hub 설치 방법 설치방법은 각 OS마다 하기 링크에 잘 설명 되어있다. Confluent Hub Client | Confluent Documentation The Confluent Hub client is a command-line tool that makes it easy to install and update components from Confluent Hub into a local Confluent Platform installation. Install the Confluent Hub Client The Confluent Hub client is natively installe.. 아파치 카프카 스터디 아파치 카프카란? connector 개발자 가이드 restful api 카프카 커넥터 sdk gradle 로 설치하는 방법 [파일명] dataFrame을 파일로 저장 시 파일 명 바꾸기 spark에서 아무리 파일 명을 설정해서 저장하고 싶어도 특정 패턴으로 파일 명이 생성 된다... 이때 파일명을 가지고 와서 rename 해주면 원하는 파일 명으로 바꿀 수 있다. import org.apache.hadoop.fs._ val hdfsUrl = "hdfs://nameservice1/user/zeppelin/data/myfolder/" val file_path = "part*" val new_fileName = "nevFile.csv" val fs = FileSystem.get(sc.hadoopConfiguration) val file = fs.globStatus(new Path(hdfsUrl + file_path))(0).getPath().getName() fs.rename(new Path.. spark query 모음 합집합 rdd1.union(rdd2).collect() 교집합 rdd1.intersection(rdd2).collect() 카테시안 rdd1.cartesian(rdd2).collect() 차집합(A-B) rdd1.subtract(rdd2).collect() join (K, V)와 (K, W)를 (K, (V, W))로 만들어줌 hash1.join(hash2).collect() cogroup (K, V)를 (K, Iterable)로 변환 hash1.cogroup(hash2).collect() persist persist() 를 사용하면 spark driver program 이 종료되더라도 memory 에 상주한다. unpersist unpersist를 사용해 memory free 해준다.(persist 사용.. value toDF is not a member of org.apache.spark.rdd.RDD 에러 value toDF is not a member of org.apache.spark.rdd.RDD 이전 1 다음