About Me

0x00 关于我

数据工程师一枚,雅称:木东居士。

喜欢折腾、喜欢不定期学习和总结、喜欢写博客和分享知识、喜欢交朋友、喜欢体验各种新事物。

0x01 站点导航

本站内容,主要分为以下几个模块:

  1. 数据工程
  2. 数据仓库
  3. 数据算法
  4. 数据挖掘
  5. Code
  6. Life

经过这几年的积累,本站有几个阅读量较高的系列,分别如下:

DataTalk

18年初,在数据交流群中和朋友们一起交流数据仓库的设计时,我突然发现了一个问题:那就是微信聊天很容易被刷屏,而且一段时间后之前交流的内容自己可能就记不清了,想查找的时候又特别费劲。因此我就有了一个想法,能不能想办法记录大家在群里讨论的问题,不管是不是自己参与讨论的,只要是自己感兴趣的内容,就收集整理起来,每个问题自己都细细琢磨一下,以后这些就会变成自己的知识体系了。可以说这些内容是十分重要和有效的学习素材了。

因此,便有了这个 DataTalk 系列,我们有三四个小伙伴一起,遇到自己感兴趣的问题就略微整理一下放到Github中,然后在周末的时候整理成博客发出来供大家参考和学习。

本系列正在持续更新中:

数据仓库实践

数据仓库实践是2017年初至年中写的系列,其中大部分的内容是居士为了满足工作需要在周末学习后的笔记。

文章首发于简书,收到了很多朋友的反馈,因此再17年底的时候统一重新整理,加入了更多的个人理解后汇集于此。

本系列主要内容如下:

大数据算法

大数据算法是2017年中下旬整理学习的一些算法内容,主要包括Bitmap、Bloom filter、Roaring Bitmap,这些算法广泛地用于 Hadoop、Spark、Druid、ES 等大数据平台的实现中。

这些底层的算法或者数据结构对日常的工作其实并无太大帮助,但是当你需要对 Sql 调优、对集群深入理解的时候,他们就显得异常重要。

本系列主要内容如下:

你了解你的数据吗

在数据从业者的职业生涯中,不应只有编程、算法和系统,还应有一套数据相关的方法论,这套方法论会来解决某一领域的问题,即使你们的系统从Hadoop换到了Spark,数据模型从基本的策略匹配换到了深度学习,这些方法论也依旧会伴你整个职业生涯。

本系列名为《你了解你的数据吗》,是希望能够总结出一套和数据打交道的方法论,从数据研发、数据仓库、数据分析、数据挖掘、数据产品、数据可视化等各个方面来了解你的数据。

本系列主要内容如下:

程序员该如何管理后宫

这是一个设计模式系列,写于2016年底。写这个系列的主要原因是之前的博客内容都过于分散,大部分都是在写安装笔记和错误解决,这种博客不能达到自我总结和反思的效果,因此在2016年底的时候,笔者开始尝试用自己的语言来描述自己所掌握的知识点,此系列为博客生涯的一个最主要的转折点。

本系列主要内容如下:

Impala 实践

Impala实践系列记录了笔者在2016年初使用Impala的方方面面,有运维、有调优、有各种采坑和填坑,这部分内容最早发表于CSDN专栏,总计15篇,由于迁移成本,就没搬到个人博客中,现仍在CSDN中。

本系列主要内容如下:

其它

上面只列了几个系列,还有更多的系列欢迎大家点进来看,这里有不再做过多的介绍了: