2015年7月28日

キャッシュフレンドリーな二分探索ーデータ構造を再考する

(2015-06-25)by Joaquín M López Muñoz

本記事は、原著者の許諾のもとに翻訳・掲載しております。

現代のコンピュータのアーキテクチャに搭載されている高速のキャッシュメモリは、 参照の局所性 に優れた(＝一連のものとしてアクセスした要素が、互いに近いメモリのアドレスに配置されている)データ構造を好みます。これは、 Boost.Containerの平坦な（ツリー状ではない）連想コンテナのようなクラスを陰で支えている理論的根拠です。要素を連続的に（かつ順序だてて）保存すると同時に、標準的なC++ノードベースの連想コンテナの機能性をエミュレートします。以下にあるのは、要素が0から30の範囲の時、 boost::container::flat_set の中で二分探索がどのように行われるのかを示した例です。

探索で目的の値を絞り込むにつれて、アクセスされる要素は次第に近くなっていきます。そのため、最初のうちは大きな距離を飛び越えていくような感じであっても、参照の局所性は このプロセスの最後の部分では 非常に良くなっています。概して、このプロセスは基本の std::set （アロケータの気まぐれで、要素はメモリのあちこちに散らばっています）での検索よりもキャッシュフレンドリーで、結果として探索時間もより改善されます。しかし、それよりもさらにキャッシュフレンドリーな方法があります。

0から30までの値を持つ、古典的な赤黒木の構造を考えてみてください。

そしてその要素を、次のような木の幅優先（レベル順）の連続した配列に並べます。

この レベル順ベクトル では、次の例が示すように、最初にある要素（根）から二分探索を始め、”左”あるいは”右”の子にジャンプしていきます。

このジャンプのパターンは、 boost::container::flat_set: とは違いますね。最初にアクセスされる要素は互いに近くにあり、ジャンプはだんだん長くなります。ですから、参照の局所性は プロセスの最初の部分で 良くなっています。先ほどと正反対ですね。この新しい配置によって楽になるとは思えないでしょう。でも実際はそうなのです。 boost::container::flat_set: の ヒートマップ を見てみましょう。

この図から、平均的な二分探索の操作によって、与えられた要素がアクセスされる頻度が分かります（”より熱い”ことを示す赤色の濃い方が、ここではより頻繁にアクセスされていることを意味します）。全ての検索は中央にある要素15から始まるので、この要素を訪れる頻度は100％となり、要素7と23を訪れる頻度は50％といった具合です。一方で要素をレベル順に並べ直し、同じようなヒートマップで示すと様子が全く異なります。

この並び順では、熱い要素がより近くに集まっているのが分かります。キャッシュ管理のメカニズムでは熱いエリアをより長くキャッシュ内に保持しようとするので、このレイアウトにすれば全体的なキャッシュミスがほとんどなくなることが期待できます。つまり、グラフの冷たい要素のエリアを利用して、熱い要素での参照の局所性を改善しているのです。

実際にこのデータ構造を検証してみましょう。プロトタイプのクラステンプレート levelorder_vector<T> を記述しました。これはレベル順にコンテンツを保存し、二分探索のためのメンバ関数を提供します。

const_iterator lower_bound(const T& x)const
{
  size_type n=impl.size(),i=n,j=0;
  while(j<n){
    if(impl[j]<x){
      j=2*j+2;
    }
    else{
      i=j;
      j=2*j+1;
    }
  }
  return begin()+i;
}

テストプログラムがあり、これを用いて std::set 、 boost::container::flat_set 、 levelorder_vector などの1万から300万までの要素数（ n ）となるコンテナに対する値のランダムシーケンスで lower_bound の実行時間を測定します。

WindowsのMicrosoft Visual C++

テストを、Microsoft Visual Studio 2012のデフォルトのリリースモード設定を使ってビルドして、Intel Core i5-2520M CPU @2.50GHz環境におけるWindows boxで実行しました。値はマイクロセカンド／コンテナ内の要素数（n）で表されます。