生活学习记录

如何实现web接口提交flinkSQL

大数据数据

开发思路 Schema信息 hive的catalog保存管理已有schema信息任务模式 yarn的资源管理，并且每个SQL任务独立，任务失败后Application自动结束优先思考的问题

Atlas下载编译安装

大数据数据

源码下载 https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz 解压，修改pom.xml，添加repositories（依赖无法获取） <repository>

HDFS supergroup superuser

大数据数据

默认情况下 hdfs 的namenode启动用户为 superuser 当程序实际运行中,获取进程/线程的用户,UGI的用户信息进行权限认证其他用户需要超级权限,则需要加入supergroup Hadoop本身的用户和组的关系，都是同步Linux系统中的，但是HDFS和Linux的超级用户组又有一

flink写入Es报Limit of total fields [1000]

大数据数据

ElasticsearchSinkFunction class StringData { private String data; } StringData data = new StringData(jsonData); IndexRequest indexRequest = R

Flink异步读取外部数据（Mysql、Redis）

大数据数据

使用 SingleOutputStreamOperator<String> sream = AsyncDataStream.unorderedWait(stream, new AsyncMySQLRequest() , 20000, T

HIVE FIRST_VALUE和LAST_VALUE

数仓开发数据

FIRST_VALUE, 返回序列中第一个值 LAST_VALUE，用于返回序列中最后一个值。 last_value返回异常 hive on spark 中可能存在 oracle相同的问题 order by 时取的值为当前行之前的最后一个值。解决方案使用first_value 逆序排列取值参

MySQL运行原理

数据库数据

SQL执行过程连接进程间通信方式 TCP/IP 命名管道和共享内存 Unix域套接字文件（socket文件）解析与优化查询缓存编译词法分析语法分析语义分析谓词下推动态编译生成执行计划优化向量优化 Join优化执行代价成本计算执行计划优化规则优化查询重写存储引擎

mysql插入数字都变成2147483647的解决方法

数据库数据

【转】mysql插入数字都变成2147483647的解决方法 https://blog.csdn.net/lxcboke/article/details/53762587

percentile函数和percentile_approx函数

数仓开发数据

hive 计算千分位数: percentile函数和percentile_approx函数: 其使用方式为percentile(col, p)、percentile_approx(col, p,B)， .返回col列p分位上的值。B用来控制内存消耗的精度。实际col中distinct的值<B返回的时

Spark性能优化之Whole-stage code generation

大数据数据

一、技术背景 Spark1.x版本中执行SQL语句，使用的是一种最经典，最流行的查询求职策略，该策略主要基于 Volcano Iterator Model（火山迭代模型）。一个查询会包含多个Operator，每个Operator都会实现一个接口，提供一个next（）方法，该方法返回Operator