【5分でわかる】DatabricksでHello Worldするまで

データサイエンス

この記事ではDatabricksのユーザ登録方法と、Hello Worldする方法を紹介します。

Databricksの特徴

Databricks はApache Spark をベースにしたデータ分析プラットフォームです。Spark は分散処理フレームワークであり、大量のデータを高速に処理することができます。

Databricks では、Spark の機能を活用して、データの前処理、分析、機械学習モデルの構築、およびジョブ実行などができます。Databricks は以下のような特徴があります。

Databricksの特徴

  • コラボレーション:ノートブックを使用することで、チームでデータを共有して共同作業を行うことができます。
  • 統合環境:データの準備、分析、機械学習を、統合された環境で行うことができます。
  • 高速処理:Spark の分散処理機能を活用して、大量のデータを高速に処理することができます。

 
Databricks 自体は高機能で非常に便利なのですが、日本語の解説記事が少ない…。ということで、Databricks を初めて使う人向けに、登録からnotebook上でHello Worldするまでの最短手順をご紹介します。

Community Editionの登録

Databricks には無料のCommunity Editionがあります。以下の制限がありますが、個人が無料で試してみるにはちょうどよいかと思います。

Community Editionによる制限

  • 作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみ
  • ワークスペースに追加できるユーザー数は最大3名まで
  • クラスターのリージョンはus-westのみ
  • 使用できない機能
    • ジョブのスケジュール機能
    • クラスターのオートスケーリング機能
    • Git連携
    • MLflowの一部モデル管理機能(レジストリ、RESTサービング)
    • REST APIによるワークスペースの制御
    • セキュリティ、ロールベースのアクセス制御、監査、シングルサインオン
    • BIツール連携のサポート

使用期間の制限は無いので、安心して遊べますね!

Databricks のCommunity Edition登録手順は以下です。

  1. Databricks無料トライアルにアクセスし、必要事項を記入して「送信」をクリック
  2. ボックス下部にある「コミュニティ版を使ってみる」をクリック
  3. メールが送信されるので、記載されたリンクをクリックしてアカウントをアクティベート
  4. ガイドに従って設定していくとユーザ登録完了
    こんな感じの画面が表示されればOKです

Notebookの作成

Notebookを使用してデータ分析や機械学習を行うことができます。Jupyter Notebookと全く同じように使用できるので使い勝手がいいですね。ノートブックを作成する手順は以下です。

  1. Databricksにログイン
  2. 左側のメニューから「Create」をクリックし、「Notebook」を選択
  3. Untitled Notebookが作成されます

作成されたノートブックは、左側のメニューの「Workspace」から確認できます。

Hello Worldする

さっそく作成したNotebookでHello Worldしていきましょう。Notebookなのでベタ打ちでも変数の値を表示してくれます。

"Hello World"

いざ実行しようとすると、こういうポップアップが出てきます。

これは「Notebookを実行するには、compute resourceを紐づけてください」と言っています。

Databricksでは実際に処理を行うSpark実行環境のことをクラスターと呼びますが、登録しただけではまだクラスターは1つも存在しないので、「Create, Attach, & Run」を押して、作成から実行まで全部やってもらいましょう。

クラスターが作成されて起動中(「Starting」)となっていますので、おとなしく待ちます。

実行できました!

作成・起動したクラスターは、左側メニューの「Compute」から確認できます。

My Clusterが作成されてますね。

まとめ

今回はDatabricksのユーザ登録方法と、Hello Worldする方法を紹介しました。

Databricks自体は多機能ですが、各機能の説明は他に譲ります。

ぜひこの機会に試してみてください。

さらにDatabricksを学びたい方へ

Udemyのこちらの動画が勉強になります。(英語ですが字幕もあって分かりやすいです)
自分もこの動画で勉強しました。

Databricks Certified Data Engineer Associate – Preparation

Databricks Certified Data Engineer Professional -Preparation

Udemyの動画は結構高いものもありますが、セールで80%OFFになったりもするので、セールのタイミングで一気に購入してしまうのがおすすめです。

コメント

タイトルとURLをコピーしました