MapReduceビューでCouchbaseに問い合わせる

MapReduceビューを使用したCouchbaseのクエリ

1. 概要

このチュートリアルでは、いくつかの簡単なMapReduceビューを紹介し、Couchbase Java SDKを使用してそれらをクエリする方法を示します。

2. メーベン依存

MavenプロジェクトでCouchbaseを操作するには、Couchbase SDKをpom.xmlにインポートします。


    com.couchbase.client
    java-client
    2.4.0

最新バージョンはMaven Centralにあります。

3. MapReduceビュー

Couchbaseでは、MapReduceビューはデータバケットのクエリに使用できるインデックスの一種です。これは、JavaScriptのmap関数とオプションのreduce関数を使用して定義されます。

**3.1. map関数**

map関数は、各ドキュメントに対して1回実行されます。ビューが作成されると、バケット内の各ドキュメントに対してmap関数が1回実行され、結果がバケットに保存されます。

ビューが作成されると、map関数は、ビューを段階的に更新するために、新しく挿入または更新されたドキュメントに対してのみ実行されます。

map関数の結果はデータバケットに保存されるため、ビューに対するクエリのレイテンシは低くなります。

typeフィールドが“StudentGrade”と等しいバケット内のすべてのドキュメントのnameフィールドにインデックスを作成するmap関数の例を見てみましょう。

function (doc, meta) {
    if(doc.type == "StudentGrade" && doc.name) {
        emit(doc.name, null);
    }
}

emit関数は、インデックスキー（最初のパラメーター）に格納するデータフィールドと、インデックス付きドキュメントに関連付ける値（2番目のパラメーター）をCouchbaseに指示します。

この場合、ドキュメントのnameプロパティのみをインデックスキーに格納しています。また、特定の値を各エントリに関連付けることには関心がないため、値パラメータとしてnullを渡します。

Couchbaseはビューを処理するときに、map関数によって発行されたキーのインデックスを作成し、各キーをそのキーが発行されたすべてのドキュメントに関連付けます。

たとえば、3つのドキュメントのnameプロパティが“John Doe”に設定されている場合、インデックスキー“John Doe”はそれらの3つのドキュメントに関連付けられます。

**3.2. reduce関数**

reduce関数は、map関数の結果を使用して集計計算を実行するために使用されます。 Couchbase Admin UIは、組み込みのreduce関数“_count”, “_sum”,および“_stats”をmap関数に適用する簡単な方法を提供します。

より複雑な集計のために、独自のreduce関数を作成することもできます。チュートリアルの後半で、組み込みのreduce関数の使用例を示します。

4. ビューとクエリの操作

4.1. ビューの整理

ビューは、バケットごとに1つ以上の設計ドキュメントに編成されます。理論的には、設計ドキュメントごとのビューの数に制限はありません。ただし、最適なパフォーマンスを得るには、各設計ドキュメントを10ビュー未満に制限することをお勧めします。

デザインドキュメント内に最初にビューを作成するとき、Couchbaseはそれをdevelopmentビューとして指定します。 developmentビューに対してクエリを実行して、その機能をテストできます。ビューに満足したら、設計ドキュメントをpublishし、ビューはproductionビューになります。

4.2. クエリの作成

Couchbaseビューに対してクエリを作成するには、そのデザインドキュメント名とビュー名を指定してViewQueryオブジェクトを作成する必要があります。

ViewQuery query = ViewQuery.from("design-document-name", "view-name");

実行すると、このクエリは、ビューのすべての行を返します。キー値に基づいて結果セットを制限する方法については、後のセクションで説明します。

開発ビューに対してクエリを作成するには、クエリの作成時にdevelopment()メソッドを適用します。

ViewQuery query
  = ViewQuery.from("design-doc-name", "view-name").development();

4.3. クエリの実行

ViewQueryオブジェクトを取得したら、クエリを実行してViewResultを取得できます。

ViewResult result = bucket.query(query);

4.4. クエリ結果の処理

ViewResultができたので、行を繰り返し処理して、ドキュメントIDやコンテンツを取得できます。

for(ViewRow row : result.allRows()) {
    JsonDocument doc = row.document();
    String id = doc.id();
    String json = doc.content().toString();
}

5. サンプルアプリケーション

チュートリアルの残りの部分では、等級が0〜100の範囲に制限された、次の形式の学生の等級ドキュメントのセットのMapReduceビューとクエリを作成します。

{
    "type": "StudentGrade",
    "name": "John Doe",
    "course": "History",
    "hours": 3,
    "grade": 95
}

これらのドキュメントを「example-tutorial」バケットに保存し、すべてのビューを「studentGrades」という名前のデザインドキュメントに保存します。クエリを実行できるように、バケットを開くために必要なコードを見てみましょう。

Bucket bucket = CouchbaseCluster.create("127.0.0.1")
  .openBucket("example-tutorial");

6. 完全一致クエリ

特定のコースまたはコースセットのすべての学生の成績を検索するとします。次のmap関数を使用して、「findByCourse」というビューを作成しましょう。

function (doc, meta) {
    if(doc.type == "StudentGrade" && doc.course && doc.grade) {
        emit(doc.course, null);
    }
}

この単純なビューでは、courseフィールドを発行するだけでよいことに注意してください。

6.1. 単一のキーでのマッチング

履歴コースのすべての成績を見つけるために、keyメソッドを基本クエリに適用します。

ViewQuery query
  = ViewQuery.from("studentGrades", "findByCourse").key("History");

6.2. 複数のキーのマッチング

数学と科学のコースのすべての成績を検索する場合は、keysメソッドを基本クエリに適用して、キー値の配列を渡すことができます。

ViewQuery query = ViewQuery
  .from("studentGrades", "findByCourse")
  .keys(JsonArray.from("Math", "Science"));

7. 範囲クエリ

1つ以上のフィールドの値の範囲を含むドキュメントをクエリするには、目的のフィールドを出力するビューが必要です。クエリの下限または上限、あるいはその両方を指定する必要があります。

単一のフィールドと複数のフィールドを含む範囲クエリを実行する方法を見てみましょう。

7.1. 単一のフィールドを含むクエリ

courseフィールドの値に関係なく、grade値の範囲を持つすべてのドキュメントを検索するには、gradeフィールドのみを出力するビューが必要です。「findByGrade」ビューのmap関数を書いてみましょう。

function (doc, meta) {
    if(doc.type == "StudentGrade" && doc.grade) {
        emit(doc.grade, null);
    }
}

このビューを使用してJavaでクエリを作成し、「B」文字の成績（80〜89を含む）に相当するすべての成績を見つけましょう。

ViewQuery query = ViewQuery.from("studentGrades", "findByGrade")
  .startKey(80)
  .endKey(89)
  .inclusiveEnd(true);

範囲クエリの開始キー値は常に包括的として扱われることに注意してください。

すべてのグレードが整数であることがわかっている場合、次のクエリは同じ結果をもたらします。

ViewQuery query = ViewQuery.from("studentGrades", "findByGrade")
  .startKey(80)
  .endKey(90)
  .inclusiveEnd(false);

すべての「A」グレード（90以上）を見つけるには、下限を指定するだけです。

ViewQuery query = ViewQuery
  .from("studentGrades", "findByGrade")
  .startKey(90);

そして、すべての失敗グレード（60未満）を見つけるには、上限を指定するだけです。

ViewQuery query = ViewQuery
  .from("studentGrades", "findByGrade")
  .endKey(60)
  .inclusiveEnd(false);

7.2. 複数のフィールドを含むクエリ

ここで、成績が特定の範囲に入る特定のコースのすべての学生を検索するとします。このクエリには、courseフィールドとgradeフィールドの両方を発行する新しいビューが必要です。

複数フィールドビューでは、各インデックスキーは値の配列として出力されます。クエリにはcourseの固定値とgrade値の範囲が含まれるため、各キーを[course、gradeの形式の配列として出力するmap関数を記述します。）s]。

ビュー「findByCourseAndGrade」のmap関数を見てみましょう。

function (doc, meta) {
    if(doc.type == "StudentGrade" && doc.course && doc.grade) {
        emit([doc.course, doc.grade], null);
    }
}

このビューがCouchbaseに入力されると、インデックスエントリはcourseとgradeで並べ替えられます。「findByCourseAndGrade」ビューのキーのサブセットを自然順で示します。

["History", 80]
["History", 90]
["History", 94]
["Math", 82]
["Math", 88]
["Math", 97]
["Science", 78]
["Science", 86]
["Science", 92]

このビューのキーは配列であるため、このビューに対して範囲クエリの下限と上限を指定するときは、この形式の配列も使用します。

つまり、数学コースで「B」グレード（80〜89）を取得したすべての学生を見つけるには、下限を次のように設定します。

["Math", 80]

および上限：

["Math", 89]

Javaで範囲クエリを書いてみましょう。

ViewQuery query = ViewQuery
  .from("studentGrades", "findByCourseAndGrade")
  .startKey(JsonArray.from("Math", 80))
  .endKey(JsonArray.from("Math", 89))
  .inclusiveEnd(true);

Mathで「A」グレード（90以上）を取得したすべての学生を検索する場合、次のように記述します。

ViewQuery query = ViewQuery
  .from("studentGrades", "findByCourseAndGrade")
  .startKey(JsonArray.from("Math", 90))
  .endKey(JsonArray.from("Math", 100));

コース値を「Math」に固定しているため、可能な限り高いgrade値の上限を含める必要があることに注意してください。それ以外の場合、結果セットには、course値が辞書式順序で「Math」より大きいすべてのドキュメントも含まれます。

そして、すべての失敗した数学の成績を見つけるには（60以下）：

ViewQuery query = ViewQuery
  .from("studentGrades", "findByCourseAndGrade")
  .startKey(JsonArray.from("Math", 0))
  .endKey(JsonArray.from("Math", 60))
  .inclusiveEnd(false);

前の例と同様に、できるだけ低いグレードで下限を指定する必要があります。それ以外の場合、結果セットには、course値が辞書式順序で「Math」よりも小さいすべてのグレードも含まれます。

最後に、5つの最も高いMathグレード（タイを除く）を見つけるために、Couchbaseに降順ソートを実行し、結果セットのサイズを制限するように指示できます。

ViewQuery query = ViewQuery
  .from("studentGrades", "findByCourseAndGrade")
  .descending()
  .startKey(JsonArray.from("Math", 100))
  .endKey(JsonArray.from("Math", 0))
  .inclusiveEnd(true)
  .limit(5);

降順の並べ替えを実行する場合、Couchbaseはlimitを適用する前に並べ替えを適用するため、startKeyとendKeyの値が逆になることに注意してください。

8. 集計クエリ

MapReduceビューの主な強みは、大きなデータセットに対して集計クエリを実行するのに非常に効率的であることです。たとえば、学生の成績データセットでは、次の集計を簡単に計算できます。

各コースの生徒数
各学生の単位時間の合計
すべてのコースでの各学生の成績平均点

組み込みのreduce関数を使用して、これらの各計算のビューとクエリを作成しましょう。

**8.1. count()関数の使用**

まず、各コースの学生数をカウントするビューのmap関数を記述しましょう。

function (doc, meta) {
    if(doc.type == "StudentGrade" && doc.course && doc.name) {
        emit([doc.course, doc.name], null);
    }
}

このビューを「countStudentsByCourse」と呼び、組み込みの“_count”関数を使用することを指定します。また、単純なカウントのみを実行しているため、各エントリの値としてnullを出力できます。

各コースの生徒数を数えるには：

ViewQuery query = ViewQuery
  .from("studentGrades", "countStudentsByCourse")
  .reduce()
  .groupLevel(1);

集計クエリからデータを抽出することは、これまで見てきたこととは異なります。結果の行ごとに一致するCouchbaseドキュメントを抽出する代わりに、集計キーと結果を抽出します。

クエリを実行して、カウントをjava.util.Mapに抽出しましょう。

ViewResult result = bucket.query(query);
Map numStudentsByCourse = new HashMap<>();
for(ViewRow row : result.allRows()) {
    JsonArray keyArray = (JsonArray) row.key();
    String course = keyArray.getString(0);
    long count = Long.valueOf(row.value().toString());
    numStudentsByCourse.put(course, count);
}

**8.2. sum()関数の使用**

次に、各学生の試行されたクレジット時間の合計を計算するビューを作成しましょう。このビューを「sumHoursByStudent」と呼び、組み込みの“_sum”関数を使用することを指定します。

function (doc, meta) {
    if(doc.type == "StudentGrade"
         && doc.name
         && doc.course
         && doc.hours) {
        emit([doc.name, doc.course], doc.hours);
    }
}

“_sum”関数を適用する場合、各エントリの合計値（この場合はクレジット数）をemitする必要があることに注意してください。

各学生の単位の総数を見つけるためのクエリを書いてみましょう。

ViewQuery query = ViewQuery
  .from("studentGrades", "sumCreditsByStudent")
  .reduce()
  .groupLevel(1);

それでは、クエリを実行して、集計された合計をjava.util.Mapに抽出しましょう。

ViewResult result = bucket.query(query);
Map hoursByStudent = new HashMap<>();
for(ViewRow row : result.allRows()) {
    String name = (String) row.key();
    long sum = Long.valueOf(row.value().toString());
    hoursByStudent.put(name, sum);
}

8.3. 成績平均点の計算

得られた成績とコースの価値がある単位時間数に基づく従来の成績点スケールを使用して、すべてのコースにわたる各学生の成績平均点（GPA）を計算するとします（A =単位時間あたり4点、B =クレジット時間あたり3ポイント、クレジット時間あたりC = 2ポイント、クレジット時間あたりD = 1ポイント）。

平均値を計算するための組み込みのreduce関数がないため、2つのビューからの出力を組み合わせてGPAを計算します。

各学生が試行した単位時間数を合計する“sumHoursByStudent”ビューがすでにあります。ここで、各学生が獲得した評点の合計数が必要です。

受講した各コースで獲得した成績ポイントの数を計算する“sumGradePointsByStudent”というビューを作成しましょう。組み込みの“_sum”関数を使用して、次のmap関数を減らします。

function (doc, meta) {
    if(doc.type == "StudentGrade"
         && doc.name
         && doc.hours
         && doc.grade) {
        if(doc.grade >= 90) {
            emit(doc.name, 4*doc.hours);
        }
        else if(doc.grade >= 80) {
            emit(doc.name, 3*doc.hours);
        }
        else if(doc.grade >= 70) {
            emit(doc.name, 2*doc.hours);
        }
        else if(doc.grade >= 60) {
            emit(doc.name, doc.hours);
        }
        else {
            emit(doc.name, 0);
        }
    }
}

次に、このビューをクエリして、合計をjava.util.Mapに抽出しましょう。

ViewQuery query = ViewQuery.from(
  "studentGrades",
  "sumGradePointsByStudent")
  .reduce()
  .groupLevel(1);
ViewResult result = bucket.query(query);

Map gradePointsByStudent = new HashMap<>();
for(ViewRow row : result.allRows()) {
    String course = (String) row.key();
    long sum = Long.valueOf(row.value().toString());
    gradePointsByStudent.put(course, sum);
}

最後に、各生徒のGPAを計算するために、2つのMapsを組み合わせてみましょう。

Map result = new HashMap<>();
for(Entry creditHoursEntry : hoursByStudent.entrySet()) {
    String name = creditHoursEntry.getKey();
    long totalHours = creditHoursEntry.getValue();
    long totalGradePoints = gradePointsByStudent.get(name);
    result.put(name, ((float) totalGradePoints / totalHours));
}

9. 結論

Couchbaseでいくつかの基本的なMapReduceビューを作成する方法と、ビューに対してクエリを作成および実行し、結果を抽出する方法を示しました。

このチュートリアルで紹介するコードは、GitHub projectにあります。

公式のCouchbase developer documentation siteで、MapReduce viewsとquery them in Javaの方法について詳しく知ることができます。

TOC