
Python虽然是一门编程语言,但是在数据分析领域实现的功能和Excel的基本功能一样,而Excel又是大家比较熟悉、容易上手的软件,可以通过Excel数据分析去对比学习Python数据分析。本书将数据分析过程中涉及的每一个操作都对照讲解,让你从熟悉的Excel操作中去学习对应的Python实现,而不是直学习Python代码,大大降低了学习门槛,消除了大家对代码的恐惧心理。这也是本书的一大特色,让读者可以像学Excel数据分析一样,轻松学习Python数据分析。

重可平衡:数据中台为主讲解中台建设中的产经经理工作技巧,兼顾业务中台。 落地易操作:图解化理论,没有高高在上的说教,手把手教你如何操作。 以 案 促教:以阿里巴巴、58等中台应用较为成熟的公司为依托讲解。

金融行业已经以惊人的速度采用Python,一些大的投资银行和对冲基金使用Python来构建核心的交易和风险管理系统。本书可以帮助发人员和量化分析人员门Python,并指导他们掌握Python在计量金融学上的重要应用。 本书通过大量的实用示例并以一个大型的真实案例研究为基础,讲解如何为基于蒙特卡洛模拟的衍生品和风险分析发一个成熟的框架。本书大部分内容使用了交互式的IPython Notebooks,并包含了如下主题。 基础知识:Python数据结构,NumPy数组处理、用pandas行时间序列分析,用matplotlib可视化,用PyTables行高性能I/O操作,日期/时间信息处理和精选的实践。 金融主题:使用了NumPy、SciPy和SymPy的数学技术,例如回归和优化;用于蒙特卡洛模拟、风险价值、风险信用价值计算的推断统计学;用于正态性检验、均方差投资组合优化、主成分分析(PCA)和贝

Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。 本书由Spark发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。

通过45实例来讲解,培养动手能力 涉及 MongoDB和 Redis 带着具体任务去动手,引领式学习 层次清晰、语句简洁,阅读流畅 大项目:搭建一个完整的问答网站

大数据:挖掘数据背后的真相(学会数据分析,立破谎言,新时代大数据分析入门书,无须数学、统计学基础,轻松掌握!)
透过纷繁的数据,找到*有用的信息,读这一本书就够。 没有学科门槛,不擅长数学、不懂统计学的人也能读得懂。

本书系统、详细介绍了数据分析知识的框架,分别从数据分析的类型、作用、步骤等方面讲解了一名合格的数据分析人员应该掌握的知识与技能,而且也注重实务操作,有真实的案例分析,旨在帮助数据分析人员快速掌握数据分析核心知识,实现数据分析能力的大幅度提升。

Python语言在科学计算和数据处理领域应用前景广阔。大数据时代,催生了人们处理大量数据的实际需求。Python应用领域的拓展,越来越多的人将Python用于处理大型数值数据集,使用标准格式来行数据的存储和通信也显得越来越重要,而HDF5也正迅速成为人们存储科学数据的选择。本书会带你迅速了解使用HDF5对大小从GB至TB的数字数据集行存档和共享的细节、实践以及陷阱,体验在Python语言中用HDF5存储科学数据。通过真实世界的例子以及动手练习,你将依次学习科学数据集、层次性组织的组、用户定义的元数据,以及有互操作性的文件等主题。本书的例子对于Python2和Python3都适用。 本书包括以下内容:设置HDF5工具并创建HDF5文件。通过学习HDF5数据集对象来使用数据集。理解数据集分块和压缩等高级功能。使用组来学习如何利用HDF5层次性结构。使用HDF5的属性来添加元数


SAP 高性能分析应用软件(SAP High-Performance Analytic Appliance,SAP HANA)自2011年作为成熟的产品和解决方案向全球推广以来,引起了数据库领域非常强的一次震动。

介绍数据科学基本知识的重量级读本,Google数据科学家作品。 数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为 21世纪头号性感职业 。本书从零始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识 数学和统计学。 作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。通过阅读本书,你可以:学到一堂Python速成课;学习线性代数、统计和概率论的基本方法,了解它们是怎样应用在数据科学中的;掌握如何收集、探索、清理、转换和操作数据;深理解机器学习的基础;运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型;探索推荐系统、自然语言处



精通实时大数据分析! Druid项目主要创始人杨仿今、蚂蚁金服CTO鲁肃、饿了么CTO张雪峰、Testin云测总裁徐琨、 Druid中国用户组发起人陈冠诚、 TalkingData CTO肖文峰、 OneAPM创始人,董事长何晓阳、Cloudera大中华区技术总监刘隶放、神策数据公司创始人 CEO桑文锋、AdMaster(精硕科技)技术副总裁卢亿雷、微软中国研发中心,高级研发总监 Sherman Tong、AdHoc吆喝科技创始人CEO 王晔联合力荐!

关于数据中心运维管理的书籍很多,但本书不落俗套,令人耳目一新之处在于: 资深的主创团队本书支持单位和主创团队绝大多数参与过《数据中心场地基础设施运维管理标准》的编写; 业内罕见的揭秘深度本书由国内运维经营们联袂创作,其中不仅有成功经验,还有对挫折和教训的反思,甚至还有惊心动魄的数据中心火灾过程。 新颖的内容布局本书的两大部分, 运维人手记 和 关键设备运维指南 ,既有内容丰富有趣的小说,还有专业的运维知识介绍。


季昕华、徐羽作序,连城/胡熠/武泽胜/肖磊/靳志辉联袂推荐 腾讯专家首次分享Spark*实践 基于真实数据,用案例分析全面解读大数据应用设计

信息和网络技术的高速发展使得大数据成为当前学术界和工业界的研究热,数据爆炸式的增长给人类社会带来了前所未有的机遇与挑战。一方面,基于大数据的处理、分析和共享等技术可以提高企业经济和社会效益。另一方面,隐私已经成为大数据应用领域亟待解决的重要问题。在大数据时代,如何做到获取和利用数据与个人隐私安全的平衡,已然成为当下亟需解决的一个时代命题。

实用的Python源模块的大集合;简单易懂、示例丰富的数据分析教程;掌握数据可视化、机器学习等高端主题;新手变身数据分析专家的上好读本;




数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面
讲解过程图文并茂,读者学习时更加轻松; 讲解详细,并安排了项目实例,使读者能够边学边练,在短时间内就可以有一个较大的提高。采用由浅深、简单实用的形式,方便读者快速掌握可视化软件的基本操作,并通过系统的案例使读者迅速掌握应用技巧。

数学菜鸟也能搞懂数据分析! 从零学起:没有深奥的理论和晦涩的知识 实际体验:免费软件RStudio 提供模拟数据 应用R语言轻松学统计: 平均值/直方图/t检验/卡方检验/相关/回归分析/逻辑回归分析/文本挖掘 商家的抽奖促销有猫腻? 面包店的面包缺金少两? 调查问卷的结果该怎么分析? 曾经的热销商品为什么不好卖了? 网络上的匿名中伤者找得出来吗? 坏事的发生是否能预测? 让数据告诉你答案!

数据架构师无疑是计算机技术领域金字塔***的职位,技术门槛高,市场需求也旺盛,人才缺口很大,成熟的数据架构师**是人才市场上被疯抢的紧俏人才;而近年兴起的商业智能技术,其相关人才也是被广大HR青睐的对象。本书兼顾了计算机技术领域当前*热门的两种技术,作者在一线从业多年,给多个世界500强企业的IT系统做顶层设计,本书总结了作者这些年数据架构设计和商业智能实现的心得和技巧,特别适合那些希望提升自身价值的IT工作者和希望有更好就业前景的相关专业学生学习。 相关图书推荐 商业智能深浅出——Cognos,Informatica技术与应用 完美软件发:方法与逻辑 软件研发成本度量规范释义 Java代码与架构之完美优化 实战经典 SAP商务智能实用发与高级功能详解

本书是 大数据王 的个人专著。大数据时代是充满无限生机的时代,也是一切都有可能的时代。本书为人们提供了 柴郡猫 智慧的小样本。

Java微服务测试:基于Arquillian、Hoverfly、AssertJ、JUnit、Selenium与Mocki
微服务面临不可预知负载,分布式设计带来安全性能隐患,异步通信容器让挑战加剧。 内容涵盖自动化测试微服务系统集成测试以容器为中心的系统测试服务虚拟化 基于JVM微服务实现单元集成测试,实践高级混沌测试集成测试契约测试 ArquillianTomEE主创人员执笔,重磅企业场景测试实战力作首度问世 一切从用Java EEWildFly SwarmDocker来搭建微服务环境起步


数据新闻只是新闻报道中的一种形式,弥补传统新闻或叙事性新闻无法呈现的效果。数据新闻 采用可视化的方法将单调的数据用一种直观、便于理解和更具说服力的方法呈献给读者。数据,特别是大量的数据比采访几十个对象获取的抽样信息做出的结论更客观、更容易阐明观。

作者携手数据领域的强大智囊团为读者贡献的一本处理噪音数据的指南。本书囊括众多真实世界的应用案例以及高水平的方法和策略。本书汇集国外数据社区的技术骨干和活跃分子的集体智慧,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。噪音数据就是那些"给你惹麻烦的数据",从蹩脚的存储到糟糕的说明,再到令人误解的策略,有多重情况可能导致噪音数据。那么什么才是决定性因素呢?有人认为是技术方面的问题,比如缺失值或格式不对的记录,但是噪音数据包含更多的问题。本书介绍了多种有效的方式来应对噪音数据。在本书中,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。通过阅读本书,你将学会:测试你的数据,判断它是否适合分析;将电子表格数据转变成可用的格式;处理潜藏在文本数据里的编码问题;行一种

本书是完全来自于实践的Modeler数据分析与挖掘的实战型著作; 全书通过15个行业应用案例,介绍Modeler在数据分析与挖掘领域中的应用; 本书是作者在行业工作中的经验分享,因此所涉及到的案例具体很强的实用性,可以用来解决你在商业应用中的实际问题。


大规模在线应用、企业级基础服务、以及各种新型应用促使诞生了十万级甚至百万级服务器的大型数据中心。云计算、物联网、大数据等新型计算和应用推动了现代数据中心的快速发展,并使其成为国家和IT企业的核心信息基础设施。数据中心网络不仅是连接大规模服务器的桥梁,而且是承载网络化存储和网络化计算的基础,其网络互连结构的设计是影响网络性能的首要因素。现代数据中心的内部流量已从传统的 南北流量 为主演变为 东西流量 为主,导致数据中心的网络性能成为瓶颈,传统的树型互连结构已经不能满足新的需求。 近年来,研究人员从不同角度提出了很多新型数据中心网络互连结构,力求满足高带宽、高容错、高可扩展性和低成本的需求。虽然新型互联结构的研究不断提高数据中心的网络传输能力,但是对数据中心现有传输能力的高效利用同样重要

大数据之美:挖掘,Hadoop,架构,更精准地发现业务与营销
本书以基本概念和发展现状作为切,对多种大数据关键技术行逻辑性阐述和分析,同时结合典型应用领域,论述了大数据技术在通信、互联网中扮演的重要角色,系统地向读者阐述了大数据的内涵。



适读人群 :数据分析爱好者、统计分析专业人士 读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。

工业设计产业园区作为设计产业的公共服务平台,起到了承上启下的作用。对于工业设计园区的考察一定程度上反映了设计产业链的整体状况,并基于此进一步辐射至企业、设计师、各个行业中。设计园区*主要的特点就是 政产学研商 相结合,依托所在地的产业集群,在跨界、交叉学科、人才 集聚 的基础上,逐渐融合、构筑合理的产业链系统,以形成 园区 所在区域的产业创新机制的孵化温床。政府亦可通过 园区 这个公共服务平台,以 四两拨千斤 ,扶持、引导区域产业链中各个方面的对接与整合,加快经济转型升级的步伐。


本书共13章,主要内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训学校相关专业的师生教学参考。

Spark被称为大数据处理王者技术Hadoop的真正挑战者。本书以丰富示例介绍Spark程序和数据挖掘算法设计,更好地帮助Spark开发者提高学习效率。


本书从理论、系统、应用三个方面详细讲述了大数据的技术知识,并针对NoSQL数据库技术做了深的分享,是学习大数据技术的地图、指南手册。帮助读者跳出迷局,厘清思路,系统地做好相关知识储备,拥抱大数据时代!

现在越来越多的企业始利用数据科学来驱动业务,《数据科学实战指南》将依托TalkingData 在大数据领域的多年实践经验,从数据、人才、工具三个维度帮助企业数据团队完成端到端的数据科学项目部署。 《数据科学实战指南》内容包括数据科学项目的基础概念、准备工作、团队人才及端到端的实战案例等,适合正面临数字化转型的企业决策者、数据团队负责人,以及从事数据科学工作的数据分析师、数据科学家、数据工程师等阅读。

决策与我们的生活和工作息息相关。改变人们命运的并不只是努力。比努力更重要的是决策。正是过去的一系列决策,决定了我们的现状;目前正在做和即将做的决策,注定将影响我们的未来。



内容丰富:本书全面覆盖了TDengine的基础知识、运维管理、应用发到技术内幕,为读者提供一站式学习资源。 紧贴前沿领域:书中不仅介绍了TDengine的核心概念和功能,还深探讨了时序数据处理的最新趋势和技术创新,保持了内容的前沿性。 深浅出:本书以通俗易懂的语言解释复杂概念,通过逐步引导的方式,使读者能够轻松理解并掌握TDengine的高级特性。 理论与实践相结合:通过大量的实例演示和实践案例,本书将理论与实际应用紧密结合,帮助读者更好地将知识应用于具体场景。 TDengine官方出品:本书由TDengine官方具有丰富实战经验的行业专家撰写,确保了内容的专业性和权威性,为读者提供了可靠的学习指导。

大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。 本书是介绍写给程序员的一本数据挖掘指南,可以帮助读者动手实践进行数据挖掘、集体智慧并构建推荐系统。 本书作者采用在实践中学的方式,提供了Python的代码和案例,详细介绍如何应用数据挖掘技术,开发出实用的推荐系统。 本书英文版在网络上放出样章,得到很多业内知名人士的推荐和好评。 知名技术译者王斌老师译作,翻译质量上乘 数据挖掘一般是指通过算法搜索隐藏于大量的数据之中的信息的过程。众多的数据挖掘教材都专注于介绍理论基础,因而往往难以理解和学习。 本书是专门写给程序员的一本数据挖掘指南,可以帮助读者动手实践,进行数据挖掘、应用集体智慧并构建推荐系统。 全书共8 章,介绍了数据挖掘的基本知识和理论、协