本文翻译自Hadoop 官网,简要介绍YARN Capacity Scheduler (容量调度器) 及其主要配置。本文基于Hadoop 3.3.1。

阅读全文 »

本文简要介绍了在Hadoop集群(包括Hadoop、Hive与Spark)中使用S3(对象存储)文件系统的方法与注意事项。

阅读全文 »

本文简要介绍了NFS服务器的搭建以及在Kubernetes中的使用Storage Class进行NFS挂载的操作步骤。

阅读全文 »

本文简要讲述了如何使用Vagrant一键搭建Kubernetes集群。本项目有针对国内网络进行优化的版本。请在开始前先安装VirtualBoxVagrant

阅读全文 »

本文用实践的方式初步探索Apache HudiGitHub项目地址)表的底层数据结构。测试使用的版本为0.8.0,使用的集群为Docker自建,详见使用Docker搭建Hadoop + Hive + Spark集群(上)。你也可以使用Apache Hudi官方的Docker Demo

阅读全文 »

本文用实践的方式初步探索Delta LakeGitHub项目地址)表的底层数据结构。测试使用的版本为1.0.0,使用的集群为Docker自建,详见使用Docker搭建Hadoop + Hive + Spark集群(上)。请注意使用Spark 3.1.0及以上版本的YAML搭建集群。

阅读全文 »

本文简要讨论了一些常用的国内开源镜像,并简要讨论了使用方法。以后可能会有新的内容加入。

阅读全文 »

本文用实践的方式初步探索Apache Iceberg表的底层数据结构。由于Apache Iceberg项目在积极开发中,版本之间更新变动较大,本文内容可能会过时。

测试使用的版本为0.11.1,使用的集群为Docker自建,详见使用Docker搭建Hadoop + Hive + Spark集群(上)。请注意由于Spark 3.1.1与该版本有冲突,请使用3.0.2版本的 YAML 搭建集群。

阅读全文 »

本文探讨了使用Docker搭建Hadoop + Hive + Spark集群的方法,项目地址在此。在阅读本文前,建议先对Docker以及Docker Compose有基本的了解。

如果你没有阅读上篇,请移步使用Docker搭建Hadoop + Hive + Spark集群(上)

阅读全文 »

本文探讨了使用Docker搭建Hadoop + Hive + Spark集群的方法,项目地址在此。在阅读本文前,建议先对Docker以及Docker Compose有基本的了解。

阅读全文 »