MongoDB - 集計とグループの例

MongoDB –集計とグループの例

mongodb-group-example

このチュートリアルでは、MongoDB集計関数を使用してドキュメント(データ)をグループ化する方法を示します。

1. テストデータ

JSON形式のデータは、Webサイトのホスティングプロバイダーを示します。

website.json

{ "_id" : 1, "domainName" : "test1.com", "hosting" : "hostgator.com" }
{ "_id" : 2, "domainName" : "test2.com", "hosting" : "aws.amazon.com"}
{ "_id" : 3, "domainName" : "test3.com", "hosting" : "aws.amazon.com" }
{ "_id" : 4, "domainName" : "test4.com", "hosting" : "hostgator.com" }
{ "_id" : 5, "domainName" : "test5.com", "hosting" : "aws.amazon.com" }
{ "_id" : 6, "domainName" : "test6.com", "hosting" : "cloud.google.com" }
{ "_id" : 7, "domainName" : "test7.com", "hosting" : "aws.amazon.com" }
{ "_id" : 8, "domainName" : "test8.com", "hosting" : "hostgator.com" }
{ "_id" : 9, "domainName" : "test9.com", "hosting" : "cloud.google.com" }
{ "_id" : 10, "domainName" : "test10.com", "hosting" : "godaddy.com" }

「ウェブサイト」コレクションにインポートします。

> mongoimport -d testdb -c website --file website.json
connected to: 127.0.0.1
Mon Jan 13 14:30:22.662 imported 10 objects

Note
コレクションが存在する場合は、--upsertオプションを追加してデータを上書きします。

> mongoimport -d testdb -c website --file website.json --upsert

2. グループ化の例

db.collection.aggregateおよび$groupを使用してデータのグループ化を実行します。

2.1次の例では、「hosting」フィールドでグループ化し、各ホスティングの合計を表示します。

> db.website.aggregate(
    {
    $group : {_id : "$hosting", total : { $sum : 1 }}
    }
  );

出力

{
        "result" : [
                {
                        "_id" : "godaddy.com",
                        "total" : 1
                },
                {
                        "_id" : "cloud.google.com",
                        "total" : 2
                },
                {
                        "_id" : "aws.amazon.com",
                        "total" : 4
                },
                {
                        "_id" : "hostgator.com",
                        "total" : 3
                }
        ],
        "ok" : 1
}

同等のSQL。

SELECT hosting, SUM(hosting) AS total
       FROM website
       GROUP BY hosting

2.2$sortでソートを追加します。

>  db.website.aggregate(
     {
    $group : {_id : "$hosting", total : { $sum : 1 }}
     },
     {
    $sort : {total : -1}
     }
  );

出力-「合計」を降順で表示します。 昇順の場合、$sort : {total : 1}を使用します。

{
        "result" : [
                {
                        "_id" : "aws.amazon.com",
                        "total" : 4
                },
                {
                        "_id" : "hostgator.com",
                        "total" : 3
                },
                {
                        "_id" : "cloud.google.com",
                        "total" : 2
                },
                {
                        "_id" : "godaddy.com",
                        "total" : 1
                }
        ],
        "ok" : 1
}

2.3$match条件を追加し、「aws.amazon.com」の場合のみ「hosting」でグループ化します。

> db.website.aggregate(
    {
    $match : {hosting : "aws.amazon.com"}
    },
    {
    $group : { _id : "$hosting", total : { $sum : 1 } }
    }
  );

出力

{
        "result" : [
                {
                        "_id" : "aws.amazon.com",
                        "total" : 4
                }
        ],
        "ok" : 1
}

More Examples
より高度な集計とグループの例については、この公式のMongoDB Aggregation guideを参照してください。

3. グループ化結果をCSVまたはJSONにエクスポートします

多くの場合、グループ化の結果をcsvまたはJSON形式でエクスポートする必要があります。 これを解決するには、グループの結果を新しいコレクションに挿入し、mongoexportを介して新しいコレクションをエクスポートします。

3.1グループの結果を変数に設定します。 この場合、変数名は「groupdata」です。

> var groupdata = db.website.aggregate(
    {
    $group : {_id : "$hosting", total : { $sum : 1 }}
    },
    {
    $sort : {total : -1}
    }
  );

3.2groupdata.toArray()を新しいコレクションに挿入します。

> db.websitegroup.insert(groupdata.toArray());

> db.websitegroup.find().pretty()
{ "_id" : "aws.amazon.com", "total" : 4 }
{ "_id" : "hostgator.com", "total" : 3 }
{ "_id" : "cloud.google.com", "total" : 2 }
{ "_id" : "godaddy.com", "total" : 1 }
>

3.3コレクション「websitegroup」をcsvファイルにエクスポートします。

c:\> mongoexport -d testdb -c websitegroup -f _id,total -o group.csv --csv
connected to: 127.0.0.1
exported 4 records

group.csv

_id,total
"aws.amazon.com",4.0
"cloud.google.com",2.0
"godaddy.com",1.0
"hostgator.com",3.0

3.4コレクション「websitegroup」をJSONファイルにエクスポートします。

c:\> mongoexport -d testdb -c websitegroup -o group.json
connected to: 127.0.0.1
exported 4 records

group.json

{ "_id" : "aws.amazon.com", "total" : 4 }
{ "_id" : "cloud.google.com", "total" : 2 }
{ "_id" : "godaddy.com", "total" : 1 }
{ "_id" : "hostgator.com", "total" : 3 }

4. 大規模なソート操作

Changed in version 2.6 –これを読むMemory Restrictions
MongoDBでは、メモリ内の並べ替えには1億の制限があり、大規模な並べ替えを実行するには、allowDiskUseオプションを有効にしてデータを書き込む必要がありますソート用の一時ファイルに。

sort exceeded memory limitエラーを回避するには、allowDiskUseオプションを有効にします。

db.website.aggregate(
[
    {$group : {_id : "$hosting", total : { $sum : 1 }}},
    {$sort : {total : -1}}
],
    {allowDiskUse: true}
);