MongoDB, PySpark, および Jupyter Notebook を簡単に使いこなす方法

オープンソースは未来だと私は強く信じています。現代のソフトウェア開発サイクルでは、オープンソースプロジェクトに対する関心が非常に高まっています。このアプローチは、開発コストの節約、より柔軟な開発、そしてイノベーションを促進するという事実に起因しています。

MongoDB:これは基本的に、構造化データと非構造化データ両方をJSONのような形式で文書を保存して使用することができるオープンソースの文書データベースです。
Jupyter Notebook:これはデータサイエンス環境を革新した一般的に使用されているオープンソースツールの一つです。コード、方程式、可視化を含む文書を作成し、共有することが簡単です。最近ではJupyter NotebookはJupyterLabに進化し、コマンドライン、ターミナル、エディタなどの追加機能を提供しています。

Pyspark:これは基本的にApache SparkのPython APIで、Sparkは分散コンピューティングという人気の概念のオープンソースのクラスタコンピューティングフレームワークです。

始めるために、まずMongoDB、pyspark、およびjupyterlabをインストールします。これらのツールはdocker-composeを使用して簡単にインストールできます。使用するすべてのサービスはこのファイルで定義されます。docker内のコンテナが効率的に通信するためには、カスタムネットワークを定義する必要があります。この場合、私はmy-networkとしてカスタムネットワークを定義しました。このネットワークはコンテナを外部ネットワークから隔離します。すべてのサービスはdocker-composeファイルに定義され、以下のようになります。dockerコンテナを作成するには、dockerファイルを格納しているディレクトリに移動し、docker compose up -dを実行します。これでセットアップは完了です。

MongoDBへのデータのロード
MongoDB compassを使って、MongoDBのコレクションへのデータのインポートおよびエクスポートは簡単です。MongoDB compassはCSVおよびjsonファイル形式の両方をサポートしています。私たちの例では、[(https://catalog.data.gov/dataset/electric-vehicle-population-data))]で見つかった電気自動車のデータセットを使用します。これは私たちのMongodb compassがデータをインポートした後の様子です。

こちらの記事はdev.toの良い記事を日本人向けに翻訳しています。
https://dev.to/ndurumo254/the-easiest-way-to-navigate-through-mongodb-pyspark-and-jupyter-notebook-3f4g