본문 바로가기

programmer/Spark

(6)
kafka connect, ms source connector 설치방법 msSql source connector는 debezium 에서 제공하는 플러그인을 설치하면 된다. https://www.confluent.io/hub/debezium/debezium-connector-sqlserver Debezium SQL Server CDC Source Connector Confluent, founded by the original creators of Apache Kafka®, delivers a complete execution of Kafka for the Enterprise, to help you run your business in real-time. www.confluent.io 위 커넥터를 설치하려면 먼저 'confluent-hub' 클라이언트를 설치해야한다. 2023...
confluent-hub 설치 방법 설치방법은 각 OS마다 하기 링크에 잘 설명 되어있다. https://docs.confluent.io/platform/current/connect/confluent-hub/client.html Confluent Hub Client | Confluent Documentation The Confluent Hub client is a command-line tool that makes it easy to install and update components from Confluent Hub into a local Confluent Platform installation. Install the Confluent Hub Client The Confluent Hub client is natively installe..
아파치 카프카 스터디 아파치 카프카란? https://magpienote.tistory.com/212 connector 개발자 가이드 https://docs.confluent.io/platform/current/connect/devguide.html restful api https://docs.confluent.io/platform/current/connect/references/restapi.html 카프카 커넥터 sdk https://dzone.com/articles/building-your-own-apache-kafka-connectors https://kafka.apache.org/downloads.html gradle 로 설치하는 방법 https://developer.confluent.io/get-started/ja..
[파일명] dataFrame을 파일로 저장 시 파일 명 바꾸기 spark에서 아무리 파일 명을 설정해서 저장하고 싶어도 특정 패턴으로 파일 명이 생성 된다... 이때 파일명을 가지고 와서 rename 해주면 원하는 파일 명으로 바꿀 수 있다. import org.apache.hadoop.fs._ val hdfsUrl = "hdfs://nameservice1/user/zeppelin/data/myfolder/" val file_path = "part*" val new_fileName = "nevFile.csv" val fs = FileSystem.get(sc.hadoopConfiguration) val file = fs.globStatus(new Path(hdfsUrl + file_path))(0).getPath().getName() fs.rename(new Path..
spark query 모음 합집합 rdd1.union(rdd2).collect() 교집합 rdd1.intersection(rdd2).collect() 카테시안 rdd1.cartesian(rdd2).collect() 차집합(A-B) rdd1.subtract(rdd2).collect() join (K, V)와 (K, W)를 (K, (V, W))로 만들어줌 hash1.join(hash2).collect() cogroup (K, V)를 (K, Iterable)로 변환 hash1.cogroup(hash2).collect() persist persist() 를 사용하면 spark driver program 이 종료되더라도 memory 에 상주한다. unpersist unpersist를 사용해 memory free 해준다.(persist 사용..
value toDF is not a member of org.apache.spark.rdd.RDD 에러 value toDF is not a member of org.apache.spark.rdd.RDD

반응형