大数据架构详解
从数据获取到深度学习
-
常用linux调优命令和工具
- top 监控Linux的系统状态 CPU、内存的使用情况
- vmstat 获取有关进程、虚拟内存、页面交换空间及CPU活动的情况
- iostat 丰富的I/O状态数据
- nmon 免费的图形化数据采集展示工具
-
MPP DB的适用场景
- 扩展性 理论上为 1000节点以上,实际上100 以内
- 并发性 单查询的表现优异, 一般查询场景 并发只能达到 50左右
结论: MPP DB更适合小集群 100以内 低并发(<50)的场景
-
SQL on Hadoop
计算存储分离型
impala+kudu/presto+kudu/ -
OLAP & OLTP
OLTP | OLAP | |
---|---|---|
面向应用 | 日常交易处理 | 明细查询、分析决策 |
访问模式 | 简单小失误,操作少量数据 | 复杂聚合查询,操作大量数据 |
数据 | 当前最新数据 | 历史数据 |
数据规模 | GB | TB~PB |
数据更新 | 实时更新 | 批量更新 |
数据组织 | 3NF | 反范式、星形模型 |