如何实现web接口提交flinkSQL


开发思路 Schema信息 hive的catalog保存管理已有schema信息 任务模式 yarn的资源管理,并且每个SQL任务独立,任务失败后Application自动结束 优先思考的问题

Atlas下载编译安装


源码下载 https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz 解压,修改pom.xml,添加repositories(依赖无法获取) <repository>

HDFS supergroup superuser


默认情况下 hdfs 的namenode启动用户为 superuser 当程序实际运行中,获取进程/线程的用户,UGI的用户信息进行权限认证 其他用户需要超级权限,则需要加入supergroup Hadoop本身的用户和组的关系,都是同步Linux系统中的,但是HDFS和Linux的超级用户组又有一

flink写入Es报Limit of total fields [1000]


ElasticsearchSinkFunction class StringData { private String data; } StringData data = new StringData(jsonData); IndexRequest indexRequest = R

Flink异步读取外部数据(Mysql、Redis)


使用 SingleOutputStreamOperator<String> sream = AsyncDataStream.unorderedWait(stream, new AsyncMySQLRequest() , 20000, T

HIVE FIRST_VALUE和LAST_VALUE


FIRST_VALUE, 返回序列中第一个值 LAST_VALUE,用于返回序列中最后一个值。 last_value返回异常 hive on spark 中可能存在 oracle相同的问题 order by 时 取的值为当前行之前的最后一个值。 解决方案 使用first_value 逆序排列取值 参

MySQL运行原理


SQL执行过程 连接 进程间通信方式 TCP/IP 命名管道和共享内存 Unix域套接字文件(socket文件) 解析与优化 查询缓存 编译 词法分析 语法分析 语义分析 谓词下推 动态编译 生成执行计划 优化 向量优化 Join优化 执行代价 成本计算 执行计划优化 规则优化 查询重写 存储引擎

mysql插入数字都变成2147483647的解决方法


【转】mysql插入数字都变成2147483647的解决方法 https://blog.csdn.net/lxcboke/article/details/53762587

percentile函数和percentile_approx函数


hive 计算千分位数: percentile函数和percentile_approx函数: 其使用方式为percentile(col, p)、percentile_approx(col, p,B), .返回col列p分位上的值。B用来控制内存消耗的精度。实际col中distinct的值<B返回的时

Spark性能优化之Whole-stage code generation


一、技术背景 Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Model(火山迭代模型)。一个查询会包含多个Operator,每个Operator都会实现一个接口,提供一个next()方法,该方法返回Operator