この記事ではDatabricksのユーザ登録方法と、Hello Worldする方法を紹介します。
Databricksの特徴
Databricks はApache Spark をベースにしたデータ分析プラットフォームです。Spark は分散処理フレームワークであり、大量のデータを高速に処理することができます。
Databricks では、Spark の機能を活用して、データの前処理、分析、機械学習モデルの構築、およびジョブ実行などができます。Databricks は以下のような特徴があります。
Databricksの特徴
- コラボレーション:ノートブックを使用することで、チームでデータを共有して共同作業を行うことができます。
- 統合環境:データの準備、分析、機械学習を、統合された環境で行うことができます。
- 高速処理:Spark の分散処理機能を活用して、大量のデータを高速に処理することができます。
Databricks 自体は高機能で非常に便利なのですが、日本語の解説記事が少ない…。ということで、Databricks を初めて使う人向けに、登録からnotebook上でHello Worldするまでの最短手順をご紹介します。
Community Editionの登録
Databricks には無料のCommunity Editionがあります。以下の制限がありますが、個人が無料で試してみるにはちょうどよいかと思います。
Community Editionによる制限
- 作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみ
- ワークスペースに追加できるユーザー数は最大3名まで
- クラスターのリージョンはus-westのみ
- 使用できない機能
- ジョブのスケジュール機能
- クラスターのオートスケーリング機能
- Git連携
- MLflowの一部モデル管理機能(レジストリ、RESTサービング)
- REST APIによるワークスペースの制御
- セキュリティ、ロールベースのアクセス制御、監査、シングルサインオン
- BIツール連携のサポート
使用期間の制限は無いので、安心して遊べますね!
Databricks のCommunity Edition登録手順は以下です。
- Databricks無料トライアルにアクセスし、必要事項を記入して「送信」をクリック
- ボックス下部にある「コミュニティ版を使ってみる」をクリック
- メールが送信されるので、記載されたリンクをクリックしてアカウントをアクティベート
- ガイドに従って設定していくとユーザ登録完了
こんな感じの画面が表示されればOKです
Notebookの作成
Notebookを使用してデータ分析や機械学習を行うことができます。Jupyter Notebookと全く同じように使用できるので使い勝手がいいですね。ノートブックを作成する手順は以下です。
- Databricksにログイン
- 左側のメニューから「Create」をクリックし、「Notebook」を選択
- Untitled Notebookが作成されます
作成されたノートブックは、左側のメニューの「Workspace」から確認できます。
Hello Worldする
さっそく作成したNotebookでHello Worldしていきましょう。Notebookなのでベタ打ちでも変数の値を表示してくれます。
"Hello World"
いざ実行しようとすると、こういうポップアップが出てきます。
これは「Notebookを実行するには、compute resourceを紐づけてください」と言っています。
Databricksでは実際に処理を行うSpark実行環境のことをクラスターと呼びますが、登録しただけではまだクラスターは1つも存在しないので、「Create, Attach, & Run」を押して、作成から実行まで全部やってもらいましょう。
クラスターが作成されて起動中(「Starting」)となっていますので、おとなしく待ちます。
実行できました!
作成・起動したクラスターは、左側メニューの「Compute」から確認できます。
My Clusterが作成されてますね。
まとめ
今回はDatabricksのユーザ登録方法と、Hello Worldする方法を紹介しました。
Databricks自体は多機能ですが、各機能の説明は他に譲ります。
ぜひこの機会に試してみてください。
さらにDatabricksを学びたい方へ
Udemyのこちらの動画が勉強になります。(英語ですが字幕もあって分かりやすいです)
自分もこの動画で勉強しました。
Databricks Certified Data Engineer Associate – Preparation
Databricks Certified Data Engineer Professional -Preparation
Udemyの動画は結構高いものもありますが、セールで80%OFFになったりもするので、セールのタイミングで一気に購入してしまうのがおすすめです。
コメント