首页 大数据百科正文

一图简述大数据技术生态圈

  下面是一张生态图,主要的组件都是为了方便大家从底层的MapReduce模型中脱离出来,用高层语言来做分布式计算,下文将分别为你作简述。

一图简述大数据技术生态圈

  1、HBase

  是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。

  2、Hive

  Facebook领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询,不需要学习其他编程接口。

  3、Pig

  Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

  4、Cascading/Scalding

  Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。

  5、Zookeeper

  一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。

  6、Oozie

  一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

  7、Azkaban

  跟上面很像,Linkedin开源的面向Hadoop的开源工作流系统,提供了类似于cron 的管理任务。

  8、Tez

  Hortonworks主推的优化MapReduce执行引擎,与MapReduce相比较,Tez在性能方面更加出色。

  注:本文由ETHINK提供,作者:不可错过的大数据,版权著作权属原创者所有,编辑:Fynlch(王培),数据观微信公众号(ID:cbdioreview),欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网tyczcgw.261sun.com)进入查看。

责任编辑:王培

分享:
延伸阅读
    速读区块链
    贵州

    贵州大数据产业政策

    贵州大数据产业动态

    贵州大数据企业

    更多
    大数据概念_大数据分析_大数据应用_大数据百科专题
    企业
    更多
    网站地图 太阳城娱乐官方网 太阳城SUNBET官网 菲律宾太阳城娱乐官方网
    澳门网上娱乐打牌 申博sunbet彩赢 太阳城娱乐138申博 太阳城会员开户
    2000彩官方网直营网 双赢彩票网江西11选5 678彩安徽快三 申博博彩
    太阳城微信充值 菲律宾太阳城娱乐官方网 太阳城网址打不开 太阳城游戏站
    太阳城公司 太阳城可靠网 申博现金网娱乐 太阳城总代理
    na138.com 8ZZS.COM 787sunbet.com 131ib.com XSB878.COM
    726SUN.COM 55sbsun.com rq138.com 976SUN.COM 179sj.com
    989sunbet.com 958PT.COM 157psb.com 131sj.com 153sun.com
    917psb.com 729XTD.COM 295SUN.COM 979sj.com 658PT.COM