大切な作業に表計算ソフトは使わないように(本当に!)

経済学者のことがうらやましいです。コンピュータ・サイエンティストとは違い経済学者は、革新的な研究をすればベストセラー本が出せるようです。ピケティの『21世紀の資本論』は良い例です。この本はその名の通り、マルクスの『資本論』を彷彿とさせます。まだ読んでいない方のためにお伝えすると、この本のメッセージはシンプルで、“資本から得られる所得は賃金の成長率より高い。すなわち、資本を有する層がより裕福に、よりパワフルになっていく”、ということです。人口の大半にとっては救いがない状況です。少数のエリートが全ての富を手にし、普通の人たちには何も残されない世界が現れることになります。この観測自体は目新しいものではありません。よく知られている富の集中という概念でも、同様の標語を掲げています。“富めるものはますます富み、貧しいものはますます貧しくなる”、です。

誰でも同じような声をあげることはできるでしょう。でも、実際証明するのは簡単なことではありません。反証をあげている経済学者もいます。(コプクヅク及びシュレイガーの論文によると、“高額の遺産を相続することによって富裕層に名を連ねることができる可能性は、1970年代に比べるとより少なくなってきているのが現状だ”、と述べられています。(研究詳細については、エドランド及びコプクヅクコプクヅク及びその他コプクヅク及びサエズを参照のこと)

ピケティの研究において最も注目すべき点は、この研究が幅広いデータと徹底的な分析に裏付けされているということです。しかし大変残念なことに、多くの人々と同じように、ピケティはまともなソフトウェアを作らず、代わりに表計算ソフトを使っていました。おかげさまで、彼のコードは公開されています。そしてあいにく、ピケティのコードには誤りや改ざん、その他いくつか問題があることが明らかになったのです。

しかしながら彼の表計算には、オリジナルソースからの転記ミスや誤った計算式が散見される。(中略)、フィナンシャル・タイムズが独自にデータをクリーンアップして確認した結果、ヨーロッパの数値については、1970年代以降の富の格差の拡大傾向を示す結果は見受けられなかった。不平等測定に関する外部の専門家もフィナンシャル・タイムズの懸念に同意を示している。(2014年5月23日付フィナンシャル・タイムズ)

 

ピケティ教授が取り上げたデータセット内のデータを再検証したフィナンシャル・タイムズに比べると、経済専門家たちはずいぶん寛容だ。1870年から1960年までの90年間においてアメリカでは、上位10%の富を表す過去の情報源が存在していない事実にも目をつぶっている。この期間について、ピケティ教授は単純に、彼が立てた上位1%の富に関する推定値に36%ポイントを加えている。(中略)フランスについても同様に注目すべきだ。ピケティ教授は、アメリカン・エコノミック・レビューに投稿した自身の2006年の論文を、フランスの数値の情報源として引用している。この論文の脚注32部分に対し、フランスでの20世紀における富の集中を示すためにもっともらしい数値がでっち上げられたのではないか、との疑いがあがっている。この論文では、「20世紀における所得の集中に関しては、1947年及び1994年の数値のみ国民推定値を採用している」と述べられている。今回の著書内では、2006年当時ピケティ教授と共同研究者を悩ませたこの問題についてどのように対処したのか、まったく言及されていない。(2014年5月28日付フィナンシャル・タイムズ)

 

結局何を手に取っているのだろうか、(中略)まとまりに欠けたデータ集合のような、はたまた新しくアップデートされていない数値群のような、とにかく泥だらけの水たまりのような状況だ。(中略)そして、“補正”やら再校正やらといった名の下で、作為的な傾向線形が描かれている。(中略)分析に厳密さが要求される重大なテーマを取り上げているにもかかわらず、この“商品”が有名な学術プレスから出版されてしまったのである。(歴史家マグネスのブログ)

 
驚くべきことではありませんね。昨年私は、ラインハート=ロゴフ論文のケースについてこの場で取り上げました。二人の著名な経済学者が、広範囲にわたる歴史的データの統計解析をもとに、負債の増大が経済成長の減退を招く、と結論づけていた事例です。残念なことに彼らもまた、表計算ソフトを利用していたのです。

単純に考えてみても、表計算ソフトはやっつけ仕事には使えますが、重要かつ信頼性が求められる作業を行うためのものではないのです。

  • あらゆる専門的なソフトウェアは、幅広い多くのテストで動作確認されるべきです。仮にテストが行われなかったとしたら、各機能が計画したとおり動いているのかどうか、どうやって確認できますか?反面、表計算ソフトではテストは特に必要とされていません。

  • 表計算ソフト上でコードのレビューを行うことは困難です。コードは何ダースもの、さもなければ何百もの小さいセルに散らばって隠されています。もしあなたがコードを注意深くレビューできないのならば、そしてもし他の人がレビューするのも難しい状況ならば、どうやって信頼性を確保できますか?

  • 表計算ソフトは、コピーアンドペーストのプログラミングやその場限りのごまかし作業を助長します。そうして生成されたコードをレビュー検証、維持し続けることは、より一層困難な作業となります。

学生の成績評価をしたり、退職後の貯蓄を見積もったり、去年支払った税金の額を計算したりする場合であれば、表計算ソフトで満足できます。しかし、銀行を経営したり、スペースシャトルの軌道を計算したりするというのであれば、私はマイクロソフトのExcelを絶対に使いません。表計算ソフトは便利ですが、しばしばエラーを引き起こします。このツールは、エラーが生じても結果にほとんど影響を与えない場合や、単純な計算をする場合にのみ有用なのです。しかし、ピケティが行ったデータ解析は複雑なものでした。しかも、その分析結果の精度に彼のキャリアがかかっていました。

ラインハートとロゴフのように、ピケティも問題があったことを否定してはいません。しかし彼は、(これもラインハートとロゴフのように)今回のミスは取るに足らないもので結論に影響するものではないと主張しています。

批判に対する第一声で、ピケティは立証責任を相手に押し付けました。「もしフィナンシャル・タイムズが私と逆の結論を示す統計と資産ランキングを得たというのなら、ぜひそれを見てみたいものだ。私は喜んで自分の結論を変える」と彼は言ったのです。

彼は論点を理解していません。正解が得られたらそれでいいという問題ではないのです。仮に、バグだらけのソフトウェアを搭載した飛行機があったとしましょう。そのソフトウェアを開発したプログラマが「バグは取るに足らないもので、安全には影響しない」といくら言っても、あなたはそんな飛行機に乗りたいと思いますか? 飛行機は無事に着陸するかもしれませんが、運によるところも大きいでしょう。

ピケティはコードが公開済みであるという点を強調していますが、これも焦点がずれています。もちろんこれは、彼が誠意を持って解析に取り組んだことを示す証拠にはなるでしょうが、だからと言って結論が正しいとは限りません。

人間は誰しも間違いを犯します。表計算ソフトであれ、アプリであれ、ソフトウェアをリリースすれば、必ず何らかのバグが含まれているものです。これは仕方のないことです。しかし、時間をかければ、バグを予防したり、発見したり、少なくしたりすることは十分に可能です。私は毎日プログラミングをやっていますが、作業時間のうち半分以上はバグを探すことに費やしています。ピケティや、ラインハート、ロゴフは、データ解析の精度をチェックするのにどれだけの時間を費やしたのでしょうか。表計算ソフトを使うくらいですから、精度なんてほとんど気にしていなかったのではないでしょうか。もちろん、敏腕の外科医であれば、タキシードを着ながら料理用ナイフで腫瘍を取り除くなんてこともやってのけるかもしれません。しかし、ミスなく手術が行われるという確信をあなたは持てるでしょうか。データ解析に基づく600ページもの本を書くつもりなら、用いる解析手法の評価、テスト、ドキュメント化に何ヶ月も費やすべきです。

今回の件がピケティの将来にどのような影響を与えるか見ものです。彼はいずれノーベル賞を取るだろうと多くの経済学者が言っているのを先週耳にしましたが、果たして今でも本当に受賞できるのでしょうか。その答えはおそらく、彼の解析にどれだけ欠陥があり、彼の研究結果が他の経済学者にどれだけのインパクトを与えるかにかかっていると思います。

ピケティは、経済学者としては膨大な量のデータを扱ったと言われています。これからの経済学者は複雑で大量のデータを扱わなければならなくなるでしょう。そうなれば、今よりずっと複雑なデータ解析が必要になります。彼ら経済学者が信頼性の高いツールと手法を使うようになることを望むばかりです。

参考サイト

追記:リチャード・トールという経済学者においても、データ解析に間違いがあることが最近になって指摘されました。彼もExcelを使っていました。

追記2:経済学者がExcelを使用するのがどれだけ一般的なのか私は知りません。実はそれほど一般的ではないのかもしれません。セルジオ・サルガドという経済学者は、「まともな統計解析をするなら、STATAかSASを使うか、最低でもRかFORTRANを使うものだ。Excelを使う者などいない」と書いています。