Bambrow's Blog

Half as much, twice as elegant.

本文用实践的方式初步探索Apache HudiGitHub项目地址)表的底层数据结构。测试使用的版本为0.8.0,使用的集群为Docker自建,详见使用Docker搭建Hadoop + Hive + Spark集群(上)。你也可以使用Apache Hudi官方的Docker Demo

阅读全文 »

本文用实践的方式初步探索Delta LakeGitHub项目地址)表的底层数据结构。测试使用的版本为1.0.0,使用的集群为Docker自建,详见使用Docker搭建Hadoop + Hive + Spark集群(上)。请注意使用Spark 3.1.0及以上版本的YAML搭建集群。

阅读全文 »

本文简要讨论了一些常用的国内开源镜像,并简要讨论了使用方法。以后可能会有新的内容加入。

阅读全文 »

本文用实践的方式初步探索Apache Iceberg表的底层数据结构。由于Apache Iceberg项目在积极开发中,版本之间更新变动较大,本文内容可能会过时。

测试使用的版本为0.11.1,使用的集群为Docker自建,详见使用Docker搭建Hadoop + Hive + Spark集群(上)。请注意由于Spark 3.1.1与该版本有冲突,请使用3.0.2版本的 YAML 搭建集群。

阅读全文 »

本文探讨了使用Docker搭建Hadoop + Hive + Spark集群的方法,项目地址在此。在阅读本文前,建议先对Docker以及Docker Compose有基本的了解。

如果你没有阅读上篇,请移步使用Docker搭建Hadoop + Hive + Spark集群(上)

阅读全文 »

本文探讨了使用Docker搭建Hadoop + Hive + Spark集群的方法,项目地址在此。在阅读本文前,建议先对Docker以及Docker Compose有基本的了解。

阅读全文 »

本文探讨了一些如何在后台运行Linux命令,以及如何在终端关闭之后继续运行命令的方法。

阅读全文 »

最近突然发现Windows上的Docker Container时间滞后于Windows系统时间,这有时候会对Container造成不可预测的影响。因此在做了一番调研,解决方法记录如下。

阅读全文 »

本文简要介绍Linux中的定期执行程序crontab命令。

阅读全文 »

本文简要介绍了如何在Hexo静态博客里添加可折叠内容。网上的资料大多不适用于目前的最新情况,因此简单记录一下。

本文运行环境:

1
2
3
hexo: 4.2.1
hexo-cli: 3.1.0
NexT: 8.0.0-rc.4
阅读全文 »