辻井研究室 情報科学演習3

2010年度 東京大学理学部情報科学科 4年生前期の情報科学演習3の 辻井研究室 の演習内容の紹介ページです。

目次


はじめに

辻井研究室では、自然言語処理(あるいは計算言語学)に関する研究を行なっています。我々の最終的な目的は、以下の2つがあると考えています。

前者は、計算機を利用して、自然言語の「文法」や「意味」をモデル化しようというものです。自然言語を扱うアプリケーションを実現するためには、「文法的に正しい」「意味の通った」文を生成したり理解するといったことが必要になってきます。この「意味」というものを扱うことは哲学的な問題を含んでいて厄介なのですが、計算言語学の立場では、この「意味」という難物を「論理式」や「データ構造」を用いて表現していくことになります。また計算言語学では、このような形式的なモデル化と並行して、確率などの数理的手法を用いた自然言語のモデル化も行います。さらに、言語学・心理学や大脳生理学などの諸分野との意見交換・共同研究を行い、最終的には人間の知能や知識の構造,言葉の生得性など言語を巡るあらゆる問題に迫ります。

後者は、Webのような大規模な自然言語の文書のデータが増え続けている現在では、必要不可欠のものとなりつつあります。みなさんが目にするものとしては、例えばGoogleのような情報検索システムがあると思いますが、より高度なアプリケーション、例えば、Webをデータベースとして、ユーザの質問に対して自然言語の文で応答するようなQ&Aシステムなどもこの分野の最先端では実現されつつあります。その他にも、Speech-to-Speechの通訳システムだとか、文章の自動要約、Web文書や医学生物学論文からの情報抽出,マニュアルなどの多言語間機械翻訳、飛行機の予約などを支援する対話システム、おなじみの仮名漢字変換、などなど様々なアプリケーションが挙げられるでしょう。

課題一覧

演習3では、以上のような自然言語処理・計算言語学の研究の「さわり」となるようなことを課題とします。具体的には、以下の課題から一つを選んで実際にシステムを作ります。

全体への質問は松崎(助教) matuzaki at is.s.u-tokyo.ac.jpへどうぞ。

1. HPSG文法を書こう〜自然言語を解析するパーザの作成、およびその応用〜

辻井研究室で研究しているHPSGという理論に基づき、自然言語の文を解析するプログラム(パーザ)を作成します。さらに、そのパーザを利用して自動翻訳や対話システムのプロトタイプを構築することを目指します。

担当:花岡(D1) hkhana at is.s.u-tokyo.ac.jp、岩澤(M2) iwasawa at is.s.u-tokyo.ac.jp

2. 日本語の係り受け解析〜機械学習を応用した自然言語処理〜

最大エントロピー法、サポートベクタマシンといった最先端の機械学習アルゴリズムを応用して、自然言語の解析プログラムを作成します。人間の手をなるべく加えずに、自然言語の規則性をどれだけ自動学習できるか挑戦します。

担当:吉澤(M2) tomonari at is.s.u-tokyo.ac.jp

3. 統計的機械翻訳〜翻訳システムの作成とその改善〜

統計的機械翻訳と呼ばれる比較的新しい翻訳手法を用いて、人手による翻訳ルールの記述を 行わずに大量の対訳データから翻訳文を生成するシステムの作成を行います。さらに、その 翻訳結果から得られる問題点をもとにシステムを改善していくことを目指します。

担当:呉(特任研究員) wxc at is.s.u-tokyo.ac.jp

4. 文書クラスタリング 〜教師なし学習を利用した自然言語処理〜

ウェブや新聞記事のような文書集合を用いて、類似文書のセットを抽出するプログラムを作成します。明示的なルールや正解データを付与するのではなく、アルゴリズムやモデルを工夫することによって、良質な類似文書のセットを出力できるようにすることが目標です。

担当:松原(D3) matubara at is.s.u-tokyo.ac.jp

以上は代表的なテーマですが、その他にも自然言語処理や知識処理に関係するもの(WWWや新聞からの情報・知識獲得、ニューラルネットワークを使った自然言語解析など)であれば歓迎します。演習や課題の内容に関して、疑問等がある場合には、気軽に質問してください。


研究室TOPへ