spark 实现 mysql upsert
实现 spark dataframe/dataset 根据mysql表唯一键实现有则更新,无则插入功能。 基于 spark2.4.3 scala2.11.8 工具类 DataFrameWriterEnhance package com.xxx.utils import org.apache.spark.sql.catalyst.plans.logi…
2022-10-14 17:34
|
398
|
|
308 字
|
12 分钟
java 频次控制
1. 背景 访问某接口拉取数据,接口需要频次控制,经调研,com.google.common.util.concurrent.RateLimiter可轻易实现。 2. Maven <dependency> <groupId>com.google.guava</groupId> <artifactId>…
2022-9-02 16:50
|
369
|
|
117 字
|
4 分钟
python3 easyocr 简单使用识别参数
import easyocr import torch gpu_is_available = torch.cuda.is_available() reader = easyocr.Reader(['ch_sim', 'en'], gpu=gpu_is_available) ocr_data = reader.…
2022-7-29 12:57
|
467
|
|
160 字
|
1 分钟内
presto 自定义函数简述
背景 presto自带unbase64函数,用法如下。 FROM_UTF8(from_base64(nickname)) 但是有些字符会报错。 Query failed (#20220720_091551_00087_mkhun): Illegal base64 character -1a 所以想要自定义一个unbase64函数。 实施 idea新…
2022-7-29 12:56
|
391
|
|
382 字
|
7 分钟
python3 pandas 实现mysql upsert操作(唯一键更新)
from urllib import parse import pandas as pd from sqlalchemy import create_engine db_info = {'user': 'test', 'password': parse.quote_plus('t…
2022-7-29 12:55
|
358
|
|
35 字
|
2 分钟
sqoop mysql update AUTO_INCREMENT 自增主键重复增长问题
sqoop export \ --update-key unique_index_columns \ --update-mode allowinsert 问题描述: 用上述模式 sqoop 导入数据更新 mysql 数据,无论导入的数据与mysql里数据相比有没有更新,mysql表的 AUTO_INCREMENT 的PRIMARY KEY 例如 (…
2021-12-17 14:26
|
1,145
|
|
183 字
|
1 分钟内
脚本执行spark-shell scala文件退出
脚本 #! /bin/bash source /etc/profile set +o posix # to enable process substitution when not running on bash scala_file=$1 shift 1 arguments=$@ ##### scala 文件后加 sys.exit spark-s…
2021-12-17 14:24
|
830
|
|
58 字
|
2 分钟
kudu-spark KuduContext java.io.InvalidClassException 解决
背景: 线上kudu 集群版本为1.11.0版本, spark 使用 kudu-spark2_2.11-1.7.0.jar, 为了使用新版本中的 val wo = new KuduWriteOptions(ignoreNull = true) 特性,升级至 kudu-spark2_2.11-1.11.0.jar 版本,但是报错 java.io.In…
2021-12-17 14:22
|
1,021
|
|
473 字
|
3 分钟
phoenix-client-4.14.1-HBase-1.4.jar jar包冲突解决
项目用到phoenix,使用了这个jar包phoenix-client-4.14.1-HBase-1.4.jar,这个jar包导致的jar包冲突很多,一番摸索,解决了,解决如下。 先jar命令解压jar包,然后删除以下内容。然后在jar命令打成jar包。 rm -r javax/ rm -r com/jayway/ rm -r org/apache…
2021-12-17 14:21
|
916
|
|
108 字
|
1 分钟内
spark 读取 hive date 分区表 奇怪的报错
当 hive 表的分区字段 是 date 类型时,用如下方式读取会发生报错。 val targetDay = "2020-08-20" spark.read.table(tableName) .where(s"targetday in (" + s"date_sub('$targetDay…
2021-12-17 14:21
|
846
|
|
112 字
|
2 分钟