ISBN/价格: | 978-7-302-57508-5:CNY79.00 |
---|---|
作品语种: | chi |
出版国别: | CN 110000 |
题名责任者项: | Python大数据处理库PySpark实战/.汪明著 |
出版发行项: | 北京:,清华大学出版社:,2021.03 |
载体形态项: | 310页:;+图:;+26cm |
提要文摘: | 本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。 |
题名主题: | 数据处理 |
中图分类: | TP274 |
个人名称等同: | 汪明 著 |
记录来源: | CN 人天书店 20210318 |