•  Hadoop构建数据仓库实践

    Hadoop构建数据仓库实践

    本书共13章,主要内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训学校相关专业的师生教学参考。

    75条评论

    王雪迎 /2017-07-01 /清华大学出版社

  •  HAWQ数据仓库与数据挖掘实战

    HAWQ数据仓库与数据挖掘实战

    16条评论

    王雪迎 /2018-04-01 /清华大学出版社

  •  Kettle构建Hadoop ETL系统实践

    Kettle构建Hadoop ETL系统实践

    Kettle易用性好,编码工作量小,功能完备,基于Java,允许多线程与并发执行以提高效率。本书以CDH作为Hadoop平台,结合销售订单示例,详细介绍并演示如何使用Kettle完成Hadoop数据仓库的ETL过程。本书适合大数据分析系统发、数据仓库系统设计与发、DBA、架构师等相关技术人员阅读。

    66条评论

    王雪迎 /清华大学出版社

  •  Greenplum构建实时数据仓库实践

    Greenplum构建实时数据仓库实践

    本书详解Greenplum构建实时数据仓库,涉及的具体技术包括: MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数据来源。 Canal Server实时获取增量MySQL binlog,并将其传Kafka消息队列。 Kafka将消息持久化,同时提供可伸缩、高吞吐的消息服务。 Canal ClientAdapter负责消费Kafka中的消息,将数据流传输到Greenplum。 Greenplum提供实时ETL功能,自动维护操作数据存储、维度表与事实表。 Greenplum数据库权限与角色管理、数据导导出、性能优化、监控与维护。 Greenplum集成机器学习库MADlib,对数据行分析与挖掘。

    14条评论

    王雪迎 /清华大学出版社

  •  MySQL高可用实践

    MySQL高可用实践

    网上关于MySQL的资料比比皆是,但大部分都是针对单一具体问题的解答,例如如何配置MySQL双主复制等,全面系统讲述MySQL高可用这方面的资料并不多见。而且,这些资料大多只给出简单的实现方法,缺少相应的理论背景知识和分析验证过程。这是我写这本书的第二个原因,希望能填补缺口,让读者不但知其然,也知其所以然。 从2000年至今的20年里,我一直从事各种数据库相关的应用发和管理工作,尤其是近年来一直跟MySQL数据库交道。从*简单的单实例,到各种复制,再到集群以及与中间件的配合,在其使用上积累了一些经验和心得。这是我写这本书的第三个原因,希望将它们加以归纳和总结,汇集成书与读者分享。

    40条评论

    王雪迎 /清华大学出版社

广告