FlinkSQL写入Hive报ClassNotFound. org.apache.hadoop.mapred.JobConf


场景 在flinksql-client下创建hive的表,读取kafka数据写入分区时报错 Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/JobConf at java.lang.Class.getDecl

FlinkSQL用例


FlinkSQL用例 PV|UV 数据准备 mysql示例 CREATE TABLE MySQLTable ( ... ) WITH ( 'connector.type' = 'jdbc', -- 必选: jdbc方式 'connector.url' = 'jdbc:mysql://local

Flink SQL 数据sink到mysql时,非空列存在null值问题


flink sql 数据sink到mysql时,非空存在null值,插入mysql报错,配置下面的参数进行解决: -- 默认值error table.exec.sink.not-null-enforcer 对表的NOT NULL列约束强制执行不能将空值插入到表中。 Flink支持“error”(默

如何实现web接口提交flinkSQL


开发思路 Schema信息 hive的catalog保存管理已有schema信息 任务模式 yarn的资源管理,并且每个SQL任务独立,任务失败后Application自动结束 优先思考的问题

Atlas下载编译安装


源码下载 https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz 解压,修改pom.xml,添加repositories(依赖无法获取) <repository>

HDFS supergroup superuser


默认情况下 hdfs 的namenode启动用户为 superuser 当程序实际运行中,获取进程/线程的用户,UGI的用户信息进行权限认证 其他用户需要超级权限,则需要加入supergroup Hadoop本身的用户和组的关系,都是同步Linux系统中的,但是HDFS和Linux的超级用户组又有一

flink写入Es报Limit of total fields [1000]


ElasticsearchSinkFunction class StringData { private String data; } StringData data = new StringData(jsonData); IndexRequest indexRequest = R

Flink异步读取外部数据(Mysql、Redis)


使用 SingleOutputStreamOperator<String> sream = AsyncDataStream.unorderedWait(stream, new AsyncMySQLRequest() , 20000, T

Spark性能优化之Whole-stage code generation


一、技术背景 Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Model(火山迭代模型)。一个查询会包含多个Operator,每个Operator都会实现一个接口,提供一个next()方法,该方法返回Operator

大数据架构详解


大数据架构详解 从数据获取到深度学习 常用linux调优命令和工具 top 监控Linux的系统状态 CPU、内存的使用情况 vmstat 获取有关进程、虚拟内存、页面交换空间及CPU活动的情况 iostat 丰富的I/O状态数据 nmon 免费的图形化数据采集展示工具 MPP DB的适用场景 扩展