データ(基盤)エンジニアというブルーオーシャンな職種

AIや機械学習、またそれらを専門とするデータサイエンティストという職業がフューチャーされてる昨今だけど、その影で密かに需要が増えまくってるのがデータ(基盤)エンジニアというポジション。

 

実際、1年前に比べて明らかに求人増えまくってるのを実感してる。

 

というかなんでこんなに注目されないのか逆に不思議です。データサイエンスの領域にかなり近いというか、一部として含まれているのに、なぜか世間ではデータサイエンティストやアナリストばかりがオイシイ職種として毎度フィーチャーされる。

 

あんまいいたくないけど、競争率低い割に同じぐらい待遇良いし、参入障壁も高めのかなり堅牢な職種なのに。

 

データ基盤エンジニアという存在のイメージが浮かびにくいかもだけど、実際にデータを分析したり機械学習モデルを作ってそれを自社のサービスなり製品なりに活かそうと思えば、まずそれを支えるためのインフラが必要になるわけです。

 

インフラというのは具体的にはサーバーとか、その上で動かすDBとかDWHとか、分散処理基盤とか、生成されたデータを集計、加工し、DBなりDWHに流し込むためのデータパイプラインとか。

 

 

実際に現場でデータと日々戯れてる人たちにとっては周知の事実だけど、外からの印象だととりあえずデータ分析者にデータ渡しさえすれば良いんじゃないの、みたいな誤解もあり、中々データ基盤エンジニアという役割が取り上げられることは少ないのが実情。

 

だけど、実際には純粋にデータの分析をしたり機械学習のモデル作ったりするのは、全体の中のごくごく一部で、そのためのインフラの整備や運用、データの前処理、可視化ツールを作ったりするような地味で泥臭い作業の方が大半を占めてたりするわけです。

 

と、ここまで書いて、こんなん界隈で色んな人がすでに言ってるし今更自分が言う意味も無いな、と思ったのでこの辺で辞めときます。

 

そもそも誰に向けて何を書くのか、全然考えず暇つぶしに書き始めたわけで。

 

ほぼ誰も見ないだろうし、一般的な業界の実情なんて書くより、個人的に今これ勉強してるとか、データエンジニアとしての生存戦略とか、同じようなポジションで仕事してる人たちが見て多少なりともおもろいと思うようなことを書いていこう。

 

とりあえず適当に付けたタイトルに結論を合わせると、実はデータ基盤エンジニアというのは注目度低い割に需要が高く、専門性もそれなりに高い領域なので、結構な高給で職に有りつけるし、そこまで競争激しくないし、データ利活用のインフラというのは今後当面は需要が上がり続け、無くなることも無い、息の長い職種になっていくと思ってます。

 

正直、機械学習とかデータ分析とかの領域ってかなりレッドオーシャンだと思う。

 

今は高給なのが話題にもなって注目されてるから、素人でも機械学習エンジニアになれる!とかうそぶいて人かき集めてる人売り企業が湧いてたりして、こうなると偽モンが大量に紛れ込んでくるので、その中でちゃんとした待遇にありつこうと思えば偽モンではない証明が必要になるわけです。

 

例えば大学での研究実績だとか、論文通してたりだとか、kaggleとかのデータコンペで上位になったりだとか。

 

しかも、そういう偽モンがはびこりつつある中でも、トップの方には本当にガチの人たちがわんさか集ってたりもして、それこそ東大やら京大やらで研究者してたとかどこぞの研究機関でリサーチャーやってただとか、数学オリンピックで入賞しただとか、kaggle masterだとか、そういう天才達と勝負しないといけなくなるわけです。

 

お前、プログラム少しかけるぐらいで、大企業の研究職で自然言語処理10年やってました、みたいな人に敵うんか?って話で。

 

もちろん、年収500万ぐらいで良いなら、たぶん普通のプログラマでも機械学習エンジニアとしてTensorflowとかのAPIでシステム組むような普通のポジションには就けると思いますよ。ただそれでどこまで生き延びれるかは分からないけど。

 

話がそれたけど、とにかく機械学習の華やかさに誘惑され、ゴリゴリの理系カーストの頂点にいるような人たちが集うデータサイエンティストとかいうレッドオーシャンを目指すよりか、地味だけど実は面白いし、給料的にもオイシイ領域であるデータ基盤エンジニアとして息長くやっていくという選択肢もありなんじゃないでしょーか。

 

というところで、今回はこの辺で。