生活学习记录

FlinkSQL写入Hive报ClassNotFound. org.apache.hadoop.mapred.JobConf

大数据数据

场景在flinksql-client下创建hive的表,读取kafka数据写入分区时报错 Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/JobConf at java.lang.Class.getDecl

大数据数据

FlinkSQL用例 PV|UV 数据准备 mysql示例 CREATE TABLE MySQLTable ( ... ) WITH ( 'connector.type' = 'jdbc', -- 必选: jdbc方式 'connector.url' = 'jdbc:mysql://local

大数据数据

flink sql 数据sink到mysql时，非空存在null值，插入mysql报错，配置下面的参数进行解决: -- 默认值error table.exec.sink.not-null-enforcer 对表的NOT NULL列约束强制执行不能将空值插入到表中。 Flink支持“error”（默

大数据数据

开发思路 Schema信息 hive的catalog保存管理已有schema信息任务模式 yarn的资源管理，并且每个SQL任务独立，任务失败后Application自动结束优先思考的问题

大数据数据

源码下载 https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz 解压，修改pom.xml，添加repositories（依赖无法获取） <repository>

大数据数据

默认情况下 hdfs 的namenode启动用户为 superuser 当程序实际运行中,获取进程/线程的用户,UGI的用户信息进行权限认证其他用户需要超级权限,则需要加入supergroup Hadoop本身的用户和组的关系，都是同步Linux系统中的，但是HDFS和Linux的超级用户组又有一

大数据数据

ElasticsearchSinkFunction class StringData { private String data; } StringData data = new StringData(jsonData); IndexRequest indexRequest = R

大数据数据

使用 SingleOutputStreamOperator<String> sream = AsyncDataStream.unorderedWait(stream, new AsyncMySQLRequest() , 20000, T

大数据数据

一、技术背景 Spark1.x版本中执行SQL语句，使用的是一种最经典，最流行的查询求职策略，该策略主要基于 Volcano Iterator Model（火山迭代模型）。一个查询会包含多个Operator，每个Operator都会实现一个接口，提供一个next（）方法，该方法返回Operator

大数据数据

大数据架构详解从数据获取到深度学习常用linux调优命令和工具 top 监控Linux的系统状态 CPU、内存的使用情况 vmstat 获取有关进程、虚拟内存、页面交换空间及CPU活动的情况 iostat 丰富的I/O状态数据 nmon 免费的图形化数据采集展示工具 MPP DB的适用场景扩展