标签: 大数据

9 篇文章

spark 实现 mysql upsert
实现 spark dataframe/dataset 根据mysql表唯一键实现有则更新,无则插入功能。 基于 spark2.4.3 scala2.11.8 工具类 DataFrameWriterEnhance package com.xxx.utils import org.apache.spark.sql.catalyst.plans.logi…
presto 自定义函数简述
背景 presto自带unbase64函数,用法如下。 FROM_UTF8(from_base64(nickname)) 但是有些字符会报错。 Query failed (#20220720_091551_00087_mkhun): Illegal base64 character -1a 所以想要自定义一个unbase64函数。 实施 idea新…
phoenix-client-4.14.1-HBase-1.4.jar jar包冲突解决
项目用到phoenix,使用了这个jar包phoenix-client-4.14.1-HBase-1.4.jar,这个jar包导致的jar包冲突很多,一番摸索,解决了,解决如下。 先jar命令解压jar包,然后删除以下内容。然后在jar命令打成jar包。 rm -r javax/ rm -r com/jayway/ rm -r org/apache…
Apache Kudu 写入数据定期出问题
线上项目出现一个很奇怪的问题,数据经过Spark程序消费Kafka写入Kudu,出现Kudu Master连接超时,这个问题开始排查不出原因,有点头大,只能采用下下策,重启Spark程序,出现过几次后, 我记录了出现的时间,发现每次出现时间有个固定周期,一周,有规律就是最大的好消息,感觉离发现真相不远了,果然网上有这方面的问题讨论,虽说以前也去网上…
spark yarn cluster模式下log4j日志的配置
最近线上的spark项目日志文件急剧增加,磁盘顶不住了啊,解决日志文件问题,参考下面三篇文章,基本就可以搞明白了。 1:【Spark】Spark日志过大导致磁盘溢出问题解决方案 2:spark日志配置及问题排查方式。 3:Spark log4j 日志配置详解 以上内容转载自网络,如有侵权,请联系删除。