

1.MongoDB团队成员撰写,带你门主流NoSQL数据库; 2.第1版、第2版累计发行5万册,第3版对TTL和聚合管道等新特性行了讲解,还增加了配置MongoDB的章节; 3.内容适合MongoDB 4.2及以上版本。 如果你希望使用支持现代应用程序发的系统来管理数据,那么MongoDB是不错的选择。作为面向文档的NoSQL数据库,MongoDB功能多、灵活且易于扩展,在DB-Engines数据库流行度排行榜上名列前茅。 本书是由MongoDB团队成员撰写的门指南,涵盖从发到部署的各个方面,内容适合MongoDB 4.2及以上版本。无论你是NoSQL新手还是有经验的MongoDB用户,都可以在查询、索引、聚合、事务、副本集、分片、监控和安全等方面收获新的知识。 ●使用MongoDB执行写操作、查找文档并行复杂的查询 ●对集合行索引,对数据行聚合,在应用程序中使用事务 ●配置本地副本集,并了解复制机制如何与应用程序交互 ●创建

1.本书作者均来自Spark的母公司Databricks。他们将带你始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。 2.第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。 3.Spark项目创始人Matei Zaharia、Spark PMC成员Reynold Xin力荐。 毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。 * 学习使用Python、Java、Scala的结构化数据API * 理解Spark SQL引擎的原理 * 掌握Spark应用的优化技巧 * 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC等 * 使用Structured Streaming分析批式数据和流式数据 * 使用Spark和Delta Lake构建湖仓一体的系统 * 使用MLlib发机器学习流水线

1.本书以一个虚构的餐厅评应用程序为例,完整地展示了图应用程序的构建过程。 2.本书示例采用企业级应用程序的常用语言Gremlin,在不同图数据库产品之间具有较强的可迁移性。 3.完整清晰的学习结构,通过11章内容帮助读者从门到实践,再到阶学习图数据库: 门:掌握基本概念、图数据建模、图遍历。 实践:使用图数据库构建 友聚 应用程序。 阶:分析性能,避免陷阱和反模式。 戴夫和乔希是成绩斐然的图架构师和发人员,我想不出还有谁能更好地引导你踏上理解图数据库的旅程并帮助你规划路线。 Ted Wilmes,JanusGraph技术指导委员会委员 这本书深浅出地介绍了图应用程序的构建过程。无论是对数据建模还是对数据库技术感兴趣的朋友,均可以通过此书领略图数据库的魅力。 付晓岩,IBM副合伙人

1.本书通过丰富的案例展示如何造完整的分析价值:收集正确、可靠的数据,合理分析,获得见解,并将见解融决策过程; 2.前华为中国区CIO杨通鹏、EXIN亚太区总经理孙振鹏联合推荐; 3.一线案例分析,助力数字化转型。 在数字化转型如火如荼的当下,企业必须努力造数据驱动型文化。这不只意味着拥有数据分析精英团队--如果缺乏前瞻性分析,即使生成再多的报表,也不是数据驱动组织。 - 理解数据驱动的真正含义 - 学习评估数据质量的各个指标 - 收集和分析可靠的数据 - 用数据讲故事 - 用A/B测试行数据驱动决策 - 造数据驱动型文化

1.Presto是由Facebook源的高性能分布式SQL查询引擎,其用户包括Netflix、Airbnb、LinkedIn、Twitter、Uber等知名公司。 2.作为高性能分布式SQL查询引擎,Presto能够针对不同的数据源高效、快速地执行交互式分析。大数据的兴起使得数据存储机制多样化。面对标准不一的存储系统,你可以利用Presto轻松破壁垒,连通数据孤岛。 3.本书由Presto项目创始成员参与执笔。你将学会用简单的Presto语句快速查询多个数据源,把握SQL-on-Anything的精髓。在任何规模、任何存储系统、任何环境中,你都能发挥SQL的威力。 - 门:探索Presto的用例,学习安装、配置和使用Presto。 - 阶:深理解Presto的架构,学习连器实例和SQL高级特性。 - 实践:了解如何在生产环境中使用Presto,保证安全性,与其他工具集成。




在大数据和人工智能的浪潮下,企业对数据分析师的需求与日俱增,要求也越来越高。本书犹如一本行动指南,将数据分析师面试与工作内容紧密结合,理论与实战兼顾。从数据到算法、从业务到创新,帮助读者造一专多能的数据分析技能树,对想要从事数据分析工作的人员而言是一份不可多得的资料。

本书系统、详细介绍了数据分析知识的框架,分别从数据分析的类型、作用、步骤等方面讲解了一名合格的数据分析人员应该掌握的知识与技能,而且也注重实务操作,有真实的案例分析,旨在帮助数据分析人员快速掌握数据分析核心知识,实现数据分析能力的大幅度提升。

以Python语言为基础,配合原理、方法、案例行讲解 专注预测专题,体系化介绍预测技术工程实施的技能 深度剖析预测原理,细致解读数据分析算法

《穿越数据的迷宫:数据管理执行指南》一书是DAMA(国际数据管理协会)强烈推荐的关于数据管理和数据治理的重要书籍,也是《DAMA数据管理知识体系指南(原书第2版)》( DAMA DMBOK2 )认证培训配套教材。该书重从管理层的角度阐述为什么数据管理很重要,数据管理包括了哪些内容,以及如何行数据管理,从而帮助管理层在了解数据管理的过程中不致迷失在技术术语的迷宫之中。

以Hadoop、Spark两大生态系统为基础,以大数据背景、软件、采集、存储、处理、分析、可视化、安全以及应用为线索,结合Flume、Sqoop、HDFS、HBase、Kafka、Kylin、Hive、Redis、MongoDB等主要组件技术,详解大数据技术基础。



信息和网络技术的高速发展使得大数据成为当前学术界和工业界的研究热,数据爆炸式的增长给人类社会带来了前所未有的机遇与挑战。一方面,基于大数据的处理、分析和共享等技术可以提高企业经济和社会效益。另一方面,隐私已经成为大数据应用领域亟待解决的重要问题。在大数据时代,如何做到获取和利用数据与个人隐私安全的平衡,已然成为当下亟需解决的一个时代命题。

透彻讲解Excel、SQL、Tableau、Python四项数据分析必会工具,数据分析工作者的案头工具书。 系统介绍数据分析的策略、方法(数据分析之道);实例讲解引导、快速掌握数据分析工具(数据分析之术);免费提供书中涉及的全部数据集文件、数据库源文件、程序代码(1GB)。 非常实用的数据分析学习用书。

本书以介绍思路为主, 通过丰富的案例讲解爬取数据的思路, 介绍数据分析、可视化的方法, 以及如何根据数据分析结果,发一个应用, 为读者提供一个从采集数据到应用数据的完整视角。

通过45实例来讲解,培养动手能力 涉及 MongoDB和 Redis 带着具体任务去动手,引领式学习 层次清晰、语句简洁,阅读流畅 大项目:搭建一个完整的问答网站

Python虽然是一门编程语言,但是在数据分析领域实现的功能和Excel的基本功能一样,而Excel又是大家比较熟悉、容易上手的软件,可以通过Excel数据分析去对比学习Python数据分析。本书将数据分析过程中涉及的每一个操作都对照讲解,让你从熟悉的Excel操作中去学习对应的Python实现,而不是直学习Python代码,大大降低了学习门槛,消除了大家对代码的恐惧心理。这也是本书的一大特色,让读者可以像学Excel数据分析一样,轻松学习Python数据分析。

只要学会数据思维,数据分析任你摆布 只要有想法肯动脑,有无基础皆可学会 只要懂得指标设计,项目落地信手捏来

大数据作为人工智能的基石,当前正站在计算机技术发展的风口, 而作为Apache*项目的HBase的优势是高性能读写、弹性伸缩、面向列族存储,能够轻松应对数据存储的爆发,提供对千万级QPS低延时需求支持,毫无疑问是企业搭建大数据在线实时应用的*。Hadoop生态系统的HDFS和MapReduce分别为大数据提供了存储和分析处理能力,但是对在线实时的数据存取则爱莫能助,而HBase弥补了Hadoop的这一缺陷,满足了在线实时系统低延时的需求。本书以精炼的语言介绍HBase基础知识,让初学者能够快速上手使用HBase,对HBase 的核心架构思想(如数据读取、数据备份等)有深的了解,并且剖析HBase源码,介绍HBase 1.X 以及2.0带来的新特性,让有经验的HBase发人员也能够循序渐地深理解HBase源码,以便更好地去调试和解决线上遇到的各种问题。本书更加专注于HBase在线实时系统的调优,同时不



1、选取知识核心实用,以互联网 实现终身学习2、以企业需求为设计导向,以任务驱动为讲解方式3、以案例为主线组织知识,以实战项目来提升技术4、充分考虑学习者的认知曲线,由浅深,边讲边练


数据产品设计快速门指南 详细介绍数据产品设计流程

数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面
讲解过程图文并茂,读者学习时更加轻松; 讲解详细,并安排了项目实例,使读者能够边学边练,在短时间内就可以有一个较大的提高。采用由浅深、简单实用的形式,方便读者快速掌握可视化软件的基本操作,并通过系统的案例使读者迅速掌握应用技巧。

分析和总结了工业大数据应用过程中的做法和经验,为实践提供指导。


本书共13章,主要内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训学校相关专业的师生教学参考。

决策与我们的生活和工作息息相关。改变人们命运的并不只是努力。比努力更重要的是决策。正是过去的一系列决策,决定了我们的现状;目前正在做和即将做的决策,注定将影响我们的未来。



从哲学、数学、物理、统计,到测量、实验、辩证、分析,用谈天说地的方式激发思考,归纳总结数据科学的实质及成就一位数据科学家所需要的基本素养。


揭秘网站运营本质和策略解析数据驱动运营的奥秘多行业经典案列深剖析分享真实的网站运营技巧

本书帮你从看流量到看懂流量,从看数据到看懂数据,从了解访客的浏览行为到理解用户的搜索请求。

本书是 大数据王 的个人专著。大数据时代是充满无限生机的时代,也是一切都有可能的时代。本书为人们提供了 柴郡猫 智慧的小样本。


1.作者建设了国内高校首个大数据课程教师培训交流基地,造了中国高校大数据教学知名品牌,已经在国内高校形成了广泛的影响力。2.作者建设了国内高校首个大数据课程公共服务平台,为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、实验指南、技术资料、授课视频等,资源丰富。

精通实时大数据分析! Druid项目主要创始人杨仿今、蚂蚁金服CTO鲁肃、饿了么CTO张雪峰、Testin云测总裁徐琨、 Druid中国用户组发起人陈冠诚、 TalkingData CTO肖文峰、 OneAPM创始人,董事长何晓阳、Cloudera大中华区技术总监刘隶放、神策数据公司创始人 CEO桑文锋、AdMaster(精硕科技)技术副总裁卢亿雷、微软中国研发中心,高级研发总监 Sherman Tong、AdHoc吆喝科技创始人CEO 王晔联合力荐!

Kyligence 联合创始人兼 CEO , Apache Kylin 项目管理委员会主席( PMC Chair )韩卿 武汉市云升科技发展有限公司董事长, 《 智慧城市 大数据、物联网和云计算之应用 》作者 杨正洪 万达网络科技集团大数据中心副总经理,《 Spark 高级数据分析》中文版译者龚少成 数据架构师, IT 脱口秀(清风那个吹)创始人,《开源大数据分析引擎 Impala 实战》作者贾传青 等等业内专家联合推荐 Apache Kylin 将传统的数据仓库及商务智能分析能力带入到了大数据时代,作为新兴的技术已经被广大用户所使用。作为创始作者,我非常欣喜能看到关于 Apache Kylin 相关书籍的出版, 这无疑对中国用户更好地使用 Kylin ,解决实际的大数据分析架构及业务问题有很大帮助。 韩卿 Kyl

数学菜鸟也能搞懂数据分析! 从零学起:没有深奥的理论和晦涩的知识 实际体验:免费软件RStudio 提供模拟数据 应用R语言轻松学统计: 平均值/直方图/t检验/卡方检验/相关/回归分析/逻辑回归分析/文本挖掘 商家的抽奖促销有猫腻? 面包店的面包缺金少两? 调查问卷的结果该怎么分析? 曾经的热销商品为什么不好卖了? 网络上的匿名中伤者找得出来吗? 坏事的发生是否能预测? 让数据告诉你答案!


《从1始 数据分析师成长之路》从简单的制作报表始和大家一起学习数据分析的五大模块:报表BI系统、异常数据分析、解决数据需求、项目性数据分析以及数据建模,为大家全方位、体系化地呈现数据分析到底是什么。



大规模在线应用、企业级基础服务、以及各种新型应用促使诞生了十万级甚至百万级服务器的大型数据中心。云计算、物联网、大数据等新型计算和应用推动了现代数据中心的快速发展,并使其成为国家和IT企业的核心信息基础设施。数据中心网络不仅是连接大规模服务器的桥梁,而且是承载网络化存储和网络化计算的基础,其网络互连结构的设计是影响网络性能的首要因素。现代数据中心的内部流量已从传统的 南北流量 为主演变为 东西流量 为主,导致数据中心的网络性能成为瓶颈,传统的树型互连结构已经不能满足新的需求。 近年来,研究人员从不同角度提出了很多新型数据中心网络互连结构,力求满足高带宽、高容错、高可扩展性和低成本的需求。虽然新型互联结构的研究不断提高数据中心的网络传输能力,但是对数据中心现有传输能力的高效利用同样重要

工业设计产业园区作为设计产业的公共服务平台,起到了承上启下的作用。对于工业设计园区的考察一定程度上反映了设计产业链的整体状况,并基于此进一步辐射至企业、设计师、各个行业中。设计园区*主要的特点就是 政产学研商 相结合,依托所在地的产业集群,在跨界、交叉学科、人才 集聚 的基础上,逐渐融合、构筑合理的产业链系统,以形成 园区 所在区域的产业创新机制的孵化温床。政府亦可通过 园区 这个公共服务平台,以 四两拨千斤 ,扶持、引导区域产业链中各个方面的对接与整合,加快经济转型升级的步伐。

数据新闻只是新闻报道中的一种形式,弥补传统新闻或叙事性新闻无法呈现的效果。数据新闻 采用可视化的方法将单调的数据用一种直观、便于理解和更具说服力的方法呈献给读者。数据,特别是大量的数据比采访几十个对象获取的抽样信息做出的结论更客观、更容易阐明观。

这是一个数据信息时代,每分每秒都在产生数不尽的数据。这些数据如何获取,有什么用途,如何与前沿的深度学习、机器学习等相结合,如何为我们所用,尽在本书中。 更多计算机好书请关注:电子工业出版社当当自营店

新增了大量实战案例的分析和讲解,并精选书中的部分案例由作者制作成视频教学资料(DVD光盘)随书附赠。

Spark被称为大数据处理王者技术Hadoop的真正挑战者。本书以丰富示例介绍Spark程序和数据挖掘算法设计,更好地帮助Spark开发者提高学习效率。

投资大师科斯托拉尼股市箴言 一段股市精彩人生的回放 一位*伟大的投资家的遗赠


Hadoop 是目前受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书基于新的 Hadoop ( CDH5 , ApacheHadoop 2.6 )版本介绍 Hadoop 技术的相关知识,不但详细介绍了 Hadoop 、 HDFS 、 YARN 、 MapReduce 、 Hive 、 Sqoop 和 HBase 等,还深探讨了 Hadoop 、 HBase 的运维和性能调优,并包含了一个具有代表性的完整的基于 Hadoop 的商业智能系统的设计和实现。 本书的大特是面向实践。基础篇介绍 Hadoop 及相关组件的同时,包含了大量动手实例,而应用篇包含的基于 Hadoop 的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的发过程。 本书由浅至深,从理论基础到项目实战,适合 Hadoop 的初学者阅读,也可以作为高等院校相关课程的教学参考书。 本书主要内容 包含了 Hadoop 新版本的几

这是一本场景时代的内容玩法书,也是提供新武器的运营魔法书;是一本写给内容产品经理看的书,也是一本全新的品牌传播秘籍。本书内容涉及内容产品化、数据新运用、用户新互动、运营新思路、传播新策略等多个领域,但读完本书你会觉得它们完全能够融合为一体,应该协同生产。想了解其中的奥秘吗?翻本书看一看吧!

本书用轻松话语讲述一线数据分析技术,既有统计方法与分析技巧,更有奇闻趣事和哲学感悟,为你的数据分析之路指点迷津。