Predictive Codingプレディクティブ・コーディング

人工知能エンジン「KIBIT」の基礎となる
自動文書解析技術

米国の民事訴訟には、実際の審理の前に、原告と被告がお互いに証拠を開示し合い、争点の整理を行うディスカバリという手続きがあります。証拠となりうる電子データや書類を適切な手続きに則り、裁判上の決められた期日までに提出しなければなりません。
とりわけ電子データを取り扱う開示作業がeディスカバリと呼ばれ、日本の企業であっても、米国でビジネスを展開していれば、日本の本社やデータセンターなどにある電子データ全てが、証拠として開示対象になってしまいます。

もし要求された証拠データを開示できなかったり、不必要なデータを開示してしまったりした場合、企業にとって訴訟上不利な状況を生み出すことに繋がりかねないため、ひとたび訴訟に巻き込まれた際、膨大な情報の中から、早急且つ適切に訴訟に必要な情報を抽出することが訴訟を有利に進めていく鍵になります。

しかし、今やITは企業活動の隅々にまで浸透しており、そこで取り扱われる電子データは増加の一途を辿っています。1台のパソコンに保存されている情報を紙に換算すると2トントラック4台分に相当するとも言われており、ひとつの訴訟で取り扱うデータ量が1テラバイトを越えることも珍しくありません。
従来、 eディスカバリにおける重要文書の調査・探索はレビューという工程において弁護士などが目視で行っていましたが、こうした手法ではもはや限界があることが明らかになってきました。
こうした状況に対する新たなソリューションとして開発した技術が、Predictive Codingなのです。

Predictive Codingとは

Predictive Codingとは、FRONTEOが独自開発した人工知能エンジン「KIBIT」によって実現される訴訟文書解析技術です。
Predictive Codingは、あらかじめベテラン弁護士が重要データだと判断するパターンをシステムに学習させることで、膨大なデータの解析作業を自動化し、重要文書を自動判別します。
そのスピードは人がおこなうレビューの4,000倍以上、また属人的な判断精度のばらつきもなく、その精度は90%以上の高さを実現しており、大幅な時間の効率化を実現しています。それは必然的にeディスカバリの工程で最も費用がかかるレビュー工程の大幅なコスト削減効果をもたらします。

また、従来のキーワード検索に加えPredictive Codingを用いれば、キーワード検索でのキーワードの設定ミスなどで抽出できなかった重要文書も漏れなく抽出することが可能であり、重要文書の抽出漏れによるリスクを低減することができます。

Predictive Codingのプロセス

Predictive Codingの基礎的なプロセスは大きく3つあります。

1.教師データの作成(人による判定)

調査対象の文書群から、サンプルドキュメントを複数ピックアップし、それが調査対象として重要なドキュメントであるか否かを判定します。(人の判断による教師データの作成)

2.教師データをもとにした評価軸の構築

上記教師データを対象として、そこで用いられているキーワードを全て抽出し、FRONTEO独自の手法でその重要度をさまざまな角度から算出、他のドキュメントを評価する際の評価軸となるデータを構築します。

3.Predictive Codingによるドキュメントごとのスコア算出

上記2を用いて、実際に調査対象の文書を評価し、その重要度のスコアを自動的に算出します。

Predictive Codingの独自性

FRONTEOのPredictive Codingは特許出願している複数の独自技術から成り立っていることはもちろんですが、日本語をはじめとするマルチバイトのアジア言語に対応している点も大きな特長です。米国の厳しい訴訟社会という失敗の許されない環境で「CJK TAR」を提供できることがその精度の証です。

※CJK TAR : Chinese, Japanese, Korean Technology Assisted Review

「KIBIT」の基礎となったPredictive Coding

近年、インターネットの普及とIT技術の進化により「ビッグデータの時代」の到来を迎え、データ(情報)は、企業の経営三大資源である3M「人(Man)・物(Material)・金(Money)」と同等の価値を持つと言われています。

FRONTEOが手掛けてきたeディスカバリという分野が扱う膨大な電子データはまさに「ビッグデータ」であり、FRONTEOの歩みは常に新たな「ビッグデータ」解析技術の開発というテーマと共にあったと言っても過言ではありません。

我々は、このPredictive Codingを磨き上げることで培った技術力を、人工知能エンジン「KIBIT」に結集させました。
今後FRONTEOは「KIBIT」を携え、訴訟以外のさまざまな分野の「ビッグデータ」解析に独自のソリューションを展開してまいります。

「KIBIT」による「行動情報科学」的アプローチ

我々は「ビッグデータ」を単なるデータの集積としてではなく、人間の思考や行動がもたらす結果の集合体ととらえています。そして、それらを分析するためのアプローチとして、新たに「行動情報科学」という概念を定義しています。
「行動情報科学」とは、「情報科学」(統計学・数学・データマイニング・パターン認識技術など)と「行動科学」(心理学・犯罪学・社会学など)を融合したものです。
従来型のアプローチが、過去のイベントを分析して「事実を抽出する」ことに留まるのに対し、我々が提案する行動情報科学では、人間の行動やコミュニティの生成パターンを通じて、より人間の思考に即して「未来を予測する」ことを可能にします。

こうした新しいアプローチの中で、これまで人間が行ってきたデータの準備や解析等の作業の大部分を「KIBIT」が担い、人間は、人間にしかできないコンサルティング業務、すなわち、分析結果に基づくビジネス戦略の立案等に注力できるようになるのです。
FRONTEOは「KIBIT」を携え、「ディスカバリ専門企業」から「AI関連企業」へと進化し、未来に大きな輝きをもたらす企業への飛躍を目指します。