
Hadoop、Spark、Hive究竟是什么,做算法要不要学?
最近我发现,很多萌新说着想要做算法工程师,但是却对这个岗位的要求以及工作内容一无所知。以为学一个Python,再学一些机器学习、深度学习的模型就可以胜任了。工作就是用Python不停地写模型。 显然,这样的想法是有问题的,如果真这么干,即使通过了面试

大数据集群开始 kerberos 认证后 Hive 作业执行失败
大数据集群开启 kerberos 安全认证后,HIVE ON SPARK 作业执行失败。通过客户端 beeline 提交作业,报错 spark client 创建失败,其报错信息是: Failed to create spark client for spark session xxx: java.util.concurrent.TimeoutException: client xxx

因HIVE元数据与HDFS上的数据不一致引起的问题修补
客户端报错如下: Unable to move source xxx to destination xxx 客户端报错 问题分析 客户端的报错信息,并没有完全展现问题背后的全貌。我们进入 hiveserver2 所在节点查看hiveserver2的日志,可以看到如下相关信息: 2021-09-01 11:47:46,795 INFO org.

Hive 和 Spark的爱恨情仇恩怨交织
最近在面试一些应聘大数据岗位的技术小伙伴时,发现不少朋友对业界 所谓的hive on spark和spark on hive分不太清楚;同时在日常工作中,也因为对这两个技术术语的理解不太一致,影响了进一步的技术交流。所以在这里,明哥想跟大家聊聊 hive 和 spark的爱恨情

Hive 与 Spark的爱恨情仇恩怨交织
最近在面试一些应聘大数据岗位的技术小伙伴时,发现不少朋友对业界 所谓的hive on spark和spark on hive分不太清楚;同时在日常工作中,也因为对这两个技术术语的理解不太一致,影响了进一步的技术交流。所以在这里,明哥想跟大家聊聊 hive 和 spark的爱恨情

大数据集群开启 kerberos 认证后 Hive 作业执行败北
进一步排查问题,需要 在理解作业的底层执行机制的基础上, 大胆猜想,小心求证。HIVE 作业的执行机制如下:终端业务用户比如 xyz 提交给 HIVESERVER2 的 SQL作业,经过 HIVESERVER2 的解析编译和优化后,一般会生成 MR/TEZ/SPARK 任务(之所以说一般,是因