大数据架构详解

从数据获取到深度学习
  1. 常用linux调优命令和工具

    1. top 监控Linux的系统状态 CPU、内存的使用情况
    2. vmstat 获取有关进程、虚拟内存、页面交换空间及CPU活动的情况
    3. iostat 丰富的I/O状态数据
    4. nmon 免费的图形化数据采集展示工具
  2. MPP DB的适用场景

    1. 扩展性 理论上为 1000节点以上,实际上100 以内
    2. 并发性 单查询的表现优异, 一般查询场景 并发只能达到 50左右
      结论: MPP DB更适合小集群 100以内 低并发(<50)的场景
  3. SQL on Hadoop
    计算存储分离型
    impala+kudu/presto+kudu/

  4. OLAP & OLTP

OLTP OLAP
面向应用 日常交易处理 明细查询、分析决策
访问模式 简单小失误,操作少量数据 复杂聚合查询,操作大量数据
数据 当前最新数据 历史数据
数据规模 GB TB~PB
数据更新 实时更新 批量更新
数据组织 3NF 反范式、星形模型