ビッグデータとFX
ビッグデータという言葉がはやりだしてだいぶたつ。大して専門知識があるわけではないのだが、今日はこれと金融の関係について考えてみたい。
まずビッグデータとはなんなのかを考える。通常のシステムでは処理できないような膨大なデータを扱うことが前提になる。そのサイズはたとえばテラバイトレベルではなくその上のペタとかヘキサバイトレベルを指すとしよう。
金融業者において、ビッグデータを用いて何がしたいかといえばあくまでも、収益を向上させるために活用できるかという一点に限る。それはディーリング収益の向上とより多くの優良顧客を獲得することにある。
ビッグデータにはさらに以下の2つの特性があるという仮説をもつ。一つは分散型に属するデータ。もう一つは回帰型である。顧客の個人情報、たとえば性別、年齢、住所、職業、資産レベルといった情報は分散型であり、おもにマーケティングに用いられる情報であると考える。回帰型が適応するのは相場情報である。各CPから配信される膨大なティックレートがそれにあたる。

業者個々のデータ単位で考えれば、ビッグデータと呼ぶほどのサイズになるとは思えない。しいて言えば、相場情報としての配信レートは過去10年以上さかのぼればそれにあたるかもしれない。仮に業界全体のそれらを束ねることができれば、個人情報もビッグデータとしての存在感を持つかもしれないが、50社以上ある業者が全員データを提供してくれるというアイデアがどこまで受け入れられるかは疑問の余地が残る。また、分散型に属するデータの信頼性という点においては5年以上古いデータはあまり参考になるとも思えない。
むしろ、個々の業者よりも、行政側である協会や金融庁のほうがビッグデータとして扱う価値は大きいかもしれない。彼らは業者のデータを取り込む権限がある。個人情報は記号化して個人を特定できないように加工さえすればセンシティブな問題は避けられるだろう。むろん行政側にとっての目的は収益ではなく、投資家保護と、市場の安定性や透明性というテーマになる。
ビッグデータを目の前にして仮説は必要ない。大切なのは手にしたデータが正確であることと、それぞれのデータが何を意味しているかを正しく理解することである。あとはその上のアプリケーションの質の問題となる。SASも一つのソルーションとして活躍している。そういったものを利用して、気が付かなかったXとYの相関性を見つけ出すとか、なにがしかの回帰性を見つけ出すところにこのアプローチの商品価値がある。
金融におけるビッグデータとしては、上記のような数字に依存するデータとは別に文字列をベースに構築されるビッグデータがある。日経ヴェリタス297号のFXSignalでも紹介されているが、それによればすでに米国では、EPU指数として2年前から公開されているそうである。キーワーとして経済、不透明、政策という分野に分けてそれに連関するキーワードを検索しカウントしてゆき、それと相場の動きとの相関性を導き出そうという試みである。それと同じことを日本語で行うというのは、すでにどこかの研究機関(大学)で行われているかいないか私は知らないが、だれかがやっていてもおかしくはない。米国のEPU指数に対して日本のEPU指数があれば、今度はそれらの間での相関性も検証でき、その結果としてのドル円の動きとの相関性も評価できるのではないだろうか。