bzip2 and MAPREDUCE-13270

少し前だけれど、HADOOP-13270について書こうと思う。 Hadoop MapReduceフレームワークはInputFormatというインターフェースを通じて様々なフォーマットのファイルを読むことができる。単純なテキストファイルを一行ずつ読んだり、Avroなどのシリアライゼーションフォーマットやgzipなどの圧縮フォーマットもサポートしている。 InputFormatはgetSplitsというメソッドで一つのファイルを複数のSplitという単位に分割することが要求される。 InputSplit[] getSplits(JobConf job, int numSplits) throws IOException; 1つのMapperは1つのSplitを読んで処理を行う...

Keep blogging is Fun

This blog was kept for 4 years. Of course there are some times when I stop writing. But anyway updating blog posts itself are kept for 4 years. I'm now considering keep blogging is difficult and tough work. But I found an practical article for keep blogging. This post describes the motivation and mentality for keep blogging. Want to blog?

Presto Driver,Split and Pipeline

Collecting workload metrics of distributed system is important task to improve performance and make it scalable. Presto is not exception. Presto is fast distributed SQL engine mainly developed by Facebook. Recently AWS start using Presto as backend of Amazon Athena. We are using Presto in daily analysis too. Just same as other distributed system...

Change Jekyll theme

久しぶりにJekyllのテーマを変えてみた。どのテーマも半年くらい経つと飽きが来るのか更新頻度にも影響するので定期的にテーマを変えるようにしている。 おかげでGitHub Pagesのリポジトリの入れ替えというか大掃除にも慣れてきた。 まず新しいテーマをcloneしてくる。 $ git clone [email protected]:LeNPaul/Lagrange.git CMSはJekyllでカスタムのドメインをGitHub Pagesで使っている場合は下記を最低限コピーしてくれば問題なく動く。 CNAME _posts _config.yml: ただしテーマによっては加筆修正必要。 テーマによっては各postのtagが読...

Contribution to Software Design from gihyo

The other day, I contributed a software magazine "Software Design" from 技術評論社. I wrote about Treausure Data Service internal as much as possible. My targets of this article are mainly software engineers who are struggling to develop and maintain data platforms. Treasure Data Service is a cloud base service for those people. So knowing how to ...