站长网 大数据 粉碎二八法则!每个数据科学家都得会一点SparkMagic

粉碎二八法则!每个数据科学家都得会一点SparkMagic

著名的帕累托法则,即80/20定律,告诉我们:原因和结果、投入和产出、努力和报酬之间存在着无法解释的不平衡。即使是21世纪最具吸引力的工作,数据科学依然逃不脱这一定律。 商业数据科学家80%的时间都花在查找、清洗和准备数据上,这是数据科学家工作中效

著名的帕累托法则,即80/20定律,告诉我们:原因和结果、投入和产出、努力和报酬之间存在着无法解释的不平衡。即使是21世纪最具吸引力的工作,数据科学依然逃不脱这一定律。

商业数据科学家80%的时间都花在查找、清洗和准备数据上,这是数据科学家工作中效率最低也是最可怕的部分。互联网为如何打破数据科学的80/20定律提供了许多的意见,但却收效甚微。

其实,数据科学家生产率低下的主要原因在于数据准备工作的双重性:

快速访问、合并和聚合存储在企业数据湖中的大数据

探索和可视化数据中具有复杂依赖关系的Python数据包中的数据和统计信息

大数据大多是非结构化的,常常存储在具有企业管理和安全限制的生产环境中。快速访问数据需要昂贵的分布式系统,这些系统由IT集中管理,必须与其他数据科学家和分析师共享。

Spark是用于分布式数据湖中处理数据的行业黄金标准。但是,要以经济高效的方式使用Spark集群,甚至允许多租户,就很难满足单个需求和依赖关系。分布式数据基础架构的行业趋势是临时集群,这使得数据科学家更加难以部署和管理他们的Jupyter Notebook环境。

很多数据科学家都在高规格笔记本电脑上进行本地工作,可以更加轻松地安装和持久保存Jupyter Notebook环境。那么这些数据科学家们如何将其本地开发环境与生产数据湖中的数据联系起来?通常,他们使用Spark实现了csv文件,并从云存储控制台下载了它们。

从云存储控制台手动下载csv文件既不高效,也没有特别强大的功能。如果能以终端用户友好且透明的方式无缝地将本地的Jupyter Notebook与远程集群连接起来,岂不是更好吗?

学好SparkMagic,打破数据科学二八法则的时间到了!

适用于Jupyter NoteBook的SparkMagic

Sparkmagic是一个通过Livy REST API与Jupyter Notebook中的远程Spark群集进行交互工作的项目。它提供了一组Jupyter Notebook单元魔术和内核,可将Jupyter变成用于远程集群的集成Spark环境。

本文来自网络,不代表站长网立场,转载请注明出处:https://www.zwzz.com.cn/html/shuju/2021/0527/6991.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部