「言語イニシアティブ調査」
JEITA 言語処理技術専門委員会
岩山 真 (日立/東工大)
黒橋 禎夫 (東大)
白井 清昭 (北陸先端)
知野 哲朗 (東芝)
福重 貴雄 (松下)
近年、自然言語処理に関する研究開発は、大規模な言語資源を用い、学習に基づいて行う手法が主流となっています。一方、言語資源の作成には、多くの時間、人手、費用が必要となり、作成された資源の共有化、標準化が重要な意味を持ちます。このため,世界中で言語処理/言語資源に関するさまざまな イニシアティブが誕生し,さまざまな活動が行われています。
このような状況の中で,言語処理技術専門委員会では平成13年度より世界の言語イニシアティブの調査を開始しました。関連情報をお持ちの方はeit2@jeita.or.jp までご連絡頂ければ幸いです。
言語資源イニシアティブ・プロジェクト
- GSK (1999-)
GSK(言語資源共有機構)は,音声・自然言語処理の研究開発に必要な言語資源を作成・共有し,それらの流通を促進することを目的とした機関である。1999年に発足した。現在は実質的な活動はなく,ボランティアによる準備が行われている段階である。事務局は産業技術総合研究所に置かれる予定。
(KS,01/10/26)
-
話し言葉の言語的、パラ言語的構造の解明に基づく「話し言葉工学」の構築
話し言葉の言語的・言語的構造の解明と,話し言葉工学の構築に資するために,(1)話し言葉固有の特徴に基づく意図理解,(2)700万語規模の話し言葉コーパスの開発,(3)話し言葉要約システムの開発,の3つのサブテーマでの研究を行う。
科学技術振興調整費による開放的融合研究制度によるプロジェクト。
(TC,01/11/01)
-
CICCによる国際研究プロジェクト (1987-1994)
CICC(Center of the International Cooperation for Computerization; 国際情報化協力センター)によって行われた機械翻訳に関する研究プロジェクト。中国,インドネシア,マレーシア,タイ,日本の5ヶ国の研究機関が参加し,これらの国々の言語を翻訳するシステムの開発が行われた。機械翻訳は中間言語方式で,中間言語の仕様の作成,各言語の電子化辞書およびコーパスの作成,機械翻訳システムの実証実験などが主な成果。資金は政府開発援助(ODA)によって提供された。(KS,01/11/1)
-
LDC (Linguistic Data Consortium)
言語リソース(データ・ツール・標準化)の作成と共有によって,言語に関連する教育・研究・技術開発を支援するコンソーシアム。会員(商用年会費US$20,000,非商用年会費US$2000)に対して,その年発行の音声・言語データが配布される。
1992年設立,ペンシルバニア大学にオフィスがあり,ARPAおよびNSFからのサポートを受けている。(SK,01/10/23)
- ELRA (European Language Resources Association) (1995-)
ヨーロッパにおける言語資源の集積・流通に関して、現在、中心的な役割を果たしている非営利組織である。ELRAは、RELATORプロジェクトの提言に基づき、ヨーロッパにおける言語資源の開発、評価、頒布を目的として、1995年に設立され、主にEU出資プロジェクトなどにより開発された言語資源を管理する。ELDA ( European Language resources - Distribution Agency ) は、ELRAの実務を担当する機関として、言語資源の収集、評価、配布を行なう 。
対象とするデータは、音声DB、( 単言語/多言語 )辞書、テキストコーパス、用語集である。テキストデータとしては、BNC, CRATER, ECI, MULTEXT, PAROLE, AMARYLLIS, EuroWordNet, LRsP&P, CLEFなどのプロジェクトの成果が利用可能になっている。
ELRA/ELDA は、フランスのAmaryllisプロジェクト、EUのCLEFプロジェクト、世界的なAuroraプロジェクトなどの評価プロジェクトに積極的に関与してきた。それらにおいて使用された言語資源のいくつかは、すでに配布カタログに掲載されているが、近く、評価関連ツールも追加される予定である。
隔年で開かれるLREC(1998,
2000,
2002)を主催。
(YF,02/03/05)
- TELRI (Trans European Language Resources Infrastructure) I(1995-1998) and II(1999-2001)
PECO/COPERNICUSプログラムの下で実施されたプロジェクトを基にしたイニシアティブで、ヨーロッパ全域およびNIS諸国の言語処理技術の拠点を結び多言語の言語資源を提供しようとするものである。第一期の活動は95年1月〜98年12月に行なわれた。第二期の活動は,、当初1999年1月〜2001年12月の3年間の予定であったが、2002年6月まで6ヶ月延長されている。
PAROLE/SIMPLEプロジェクトと共に、ELAN ( European Language Activity Network ) プロジェクト ( 1998-1999 ) の推進にも貢献した。
アーカイブとして、TRACTOR ( TELRI Research Archive of Computational Tools and Resources ) を有し、中・東欧の言語も含めた言語資源の作成・収集・管理・頒布を行なっている。扱っている言語は、ブルガリア語、クロアチア語、チェコ語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、ラトビア語、リトアニア語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スウェーデン語、トルコ語、ウクライナ語、ウズベク語。MULTEXTプロジェクトによるCES を中・東欧諸言語に適用したMULTEXT-EASTプロジェクトの成果CD-ROMもその中に含まれている。 TRACTORアーカイブについては、、収録データの単/多言語オンライン検索が計画されている。商業利用には、別途著作権者との交渉が必要。(YF,02/03/05)
- ACQUILEX (Acquisition of Lexical Knowledge)(1989-1995)
ESPRITプログラム(欧州委員会による情報技術促進プログラムの一つ)の一環として、多言語語彙知識データベース構築に取り組んだプロジェクト。第一期 ( 1989-1992 ) においては、既存の電子辞書からの多言語語彙知識データベース構築ツール作成、第二期 ( 199201995 ) においては、機械可読なコーパスからの語彙情報の抽出に取り組んだ。開発されたツール群が 公開されている。成果は、LRE(Linguistic Resources and Engineering)プログラムのプロジェクトなどで利用されている。
(YF,01/10/30)
- MULTILEX (A Multi-Functional Standardised Lexicon for European Community Languages) (1990-1993)
ヨーロッパの言語のための、汎用の標準的な辞書記述仕様を作成することを目的としたプロジェクト。
出版、機械翻訳、文字認識、音声理解、情報言語資源の再利用性の向上を目的とする。
単言語・多言語・用語辞書のための仕様記述である、MULTILEX internal format (MLEXd)を定義した。
MLEXdは、SGMLに則っている。MLEXdは、EUREKAプログラムにおける、汎用辞書記述形式開発を目指したGENELEXプロジェクト、
機械翻訳システムの開発を目指したEUROLANGプロジェクトでも採用された。利用のための数多くのソフトウェアも作成。
(YF, 02/03/05)
- GENELEX (1990-1994)
理論や応用によらない、共通の汎用の辞書形式を開発し、
仏、伊、西、ポルトガル語の既存の計算機用辞書からの変換方式を開発する
ことを目的としたEUREKAプログラムのプロジェクト。
まず、各言語の計算機用辞書のモデルを設計し、後に共通化を図るという方式を取る。
結果は、さらにPECO/COPERNICUSプログラムのCEGLEXプロジェクトにおいて、中欧4言語(チェコ語、ハンガリー語、ポーランド語)の辞書記述に
展開された。
(YF, 02/03/05)
- CEGLEX ( CENTRAL EUROPEAN GENELEX MODEL )(1995-1996)
GENELEXプロジェクトで開発された汎用の辞書モデルを基に、
中欧言語(チェコ語、ハンガリー語、ポーランド語)の辞書記述の標準を作ることを目的とした
PECO/COPERNICUSプログラムのプロジェクト。
形態素レベルのタグ付与プログラム開発を行なった PECO/COPERNICUSのGRAMLEXプロジェクトにおいて、形態素レベルでの結果が使われている。
(YF, 02/03/05)
- EAGLES (The Expert Advisory Group on Language Engineering Standards)(1993-)
テキストコーパス、計算機用辞書、音声コーパスなどの大規模言語資源、および計算言語学的形式化・マークアップ言語・各種ソフトウェアによる処理、および評価のための標準化推進を目的とした、LREプログラムのプロジェクトの一つ。
EAGLES Guidlines を提唱。
EAGLES Guidlinesは、PAROLE、SIMPLE、EUROWORDNETなど多くのプロジェクトで採用されており、コーパス記述のためのデファクトスタンダードとなっている。
1999年に終了し、活動は、ISLE ( International Standards for Language Engineering ) に引き継がれた。
(YF,02/03/05)
- DELIS (Descriptive Lexical Specifications and Tools for Corpus-based Lexicon building ) (1993-1995)
辞書作成を目的としたコーパスの効率的な構築、用例の検索のためのツール開発を目的とした、LREプログラムに属すプロジェクトの一つ。
フレーム意味論 (Frame Semantics)およびHPSG型の文法、型素性構造(Typed Feature Structures, TFS)を採用し、形態素および統語レベルでタグ付されたテキストコーパスからの、統語的な用例検索ツール(Search Condition Generator)を開発した。
Search Condition Generator は、English Constraint Grammar (ENGCG: Helsinki)に基づいた検索式を生成する。
また、英・仏・伊・蘭・デンマークの五ヶ国語における知覚・伝達動詞に対する意味的・統語的・形態論的な記述を行なった。
(YF, 02/03/05)
- MULTEXT (Multilingual Text Tools and Corpora)(1994-1996)
コーパスの記述および処理に関する標準・仕様作り、およびそれらに則ったツール・言語資源の作成を目指すプロジェクトの集まり。EAGLESのテキスト表現サブグループ、米Vassar大と仏CNRS ( Centre de National Recherche Sientifique ) の共同プロジェクトと共に、TEIガイドラインに従った
CES ( Corpus Encoding Stantard ) を作成した。CESは、EAGLES guidlineの一部となっている。(YF,02/03/05)
- Multext-East (Multilingual Text Tools and Corpora for Central and Eastern European Languages)(1995-1997)
MULTEXTプロジェクトのCESを中東欧の6ヶ国語( ブルガリア語、チェコ語、エストニア語、ハンガリー語、ルーマニア語、スロベニア語 )のコーパス作成に適用することを目的とした、PECO/COPERNICUSプログラムのプロジェクト。CESに対して、いくつかのフィードバックを行なった。
成果はTELRIから入手可能。(YF,02/03/05)
- RELATOR ( A European Network of Repositories for Linguistic Resources ) (1993-1995)
ELSNET, ESCA, EACLといったヨーロッパの主要な組織・学会からの代表と、各国の情報通信関連企業、出版社、通信業者、情報サービス会社などにより構成されるRELATOR運営委員会が参加した、LREプログラムのプロジェクトの一つ。
プロジェクトの目的は、
- 様々な既存の言語資源の、構造的で一般に公開されたカタログの作成
- 言語資源の所有者、作成者、ユーザ、資金提供者、国際機関、関連学会など主要な関係者との、
ニーズ、可能な解決方法、協調行動のための条件など、さまざまな側面からの議論
- 再利用可能な言語資源のヨーロッパにおけるデータセンタの構築・運営・管理、言語資源のさまざまなタイプのユーザへの頒布のための、組織上、技術上、法律上、財政上の、さまざまなレベルでの、選択肢の洗い出し、検討、評価
- ELSNETの分散ネットワークの利用およびCD-ROMの作成・配布の2方式による、既存の言語資源の収集・配布の実証評価実験
- 言語資源の収集、検証、管理、配布の中心となる組織の設立に向けた最終勧告の提出
である。
ELRAの設立の基礎を築き、またPAROLEなどの言語資源作成プロジェクトの開始にも関与した。
(YF, 02/03/05)
- MECOLB (Multilingual Environment for Corpus-Based Lexicon Building) (1994-1995)
機械可読辞書の作成と保守のための支援ツールの作成を目的とした、LREプログラムのプロジェクトの一つ。
以下を特徴とする。
- 言語処理のための、汎用性の高いソフトウェアの開発に重点が置かれた。
プロジェクト固有のモジュールを一般的なライブラリと組み合わせる構造により、
支援機能に共通のモジュールと、特定の目的のためのモジュールの区別が明確になった。
- 「モニタコーパス」という概念を実現し、各システム構築者が、いつでも、一般的なテキスト集合から、
問題に合わせて重み付けを行った独自の仮想テキスト集合を作り、目的に合った辞書作りに利用することができる。
これにより、目的に合ったコーパスの取得の問題を、仮想コーパスの定義の問題に振り変えることが可能となる。
- 言語独立のソフトウェアと、言語に関する最小の仮定に基づくソフトウェアの組み合わせの重要性を強調している。
言語特有の部分は、英、独、蘭、仏、伊、ポルトガル語に対応するための部分である。
プロジェクトの成果の基本的な部分は、大規模テキストコーパスの構造化と管理のためのCOSMAS II システムによって実現されている。
これによって、線形な、または入れ子を許すタグ付けが可能になっており、競合するタグ付けも可能となっている。
システム間の移行のための、TEI準拠のデータを対象としたデータ・プログラム変換ツールあり。
(YF, 02/03/05)
- PAROLE (Preparatory Action for Linguistic Resources Organization for Language Engineering)(1996-1998)
EU所属各国語の一般的な辞書、コーパスの作成を目的としたEUのプロジェクト。
コーパスは、MULTEXTプロジェクトのCES(Corpus Encoding Standard)準拠。辞書はGENELEXプロジェクトの基準を採用。成果はELRA(ELDA)から入手可能。
(YF,02/03/05)
- SIMPLE (Semantic Information for Multifunctional Plurilingual LExicons) (1998-2000)
PAROLEの後継プロジェクト。PAROLEの成果への意味情報の追加。(YF,01/10/30)
- ELSNET (the European Network of Excellence in Human Language Technologies) (1991-)
ヨーロッパにおける広義のHLT( Human Language Technologies ) 促進を目的とし、言語・音声技術および関連分野の研究・開発・応用に携わる人々の交流を促進するネットワークとして、各種セミナー、ワークショップの開催や、ウェブサイト、メイリングリストの運営を行う。実験用の言語資源の構築・配布も目的の一つとしている。1991年に ESPRITプログラムの下で設立された。現在、約20あるISTのNetwork of Excellenceの一つである。現在、ヨーロッパの26ヶ国をカバーしている。メンバは、言語および音声処理技術の開発・利用を目的とする、公的あるいは民間の研究機関、企業であり、約135のメンバのうち、60%が大学などの学術的機関であり、40%が産業界からの参加となっている。ウェブサイトは、http://www.elsnet.org/ 。
(YF,02/03/05)
- ELAN ( European Language Activity Network ) (1998-1999)
PAROLE と TELRI の協力により、ヨーロッパにおける既存の言語資源と、潜在的なユーザを結び付けることを目的とした、MLISプログラムのプロジェクト。
- 共通の検索言語 ( ELANCQL ) と、それを使った検索ソフトウェアの開発
- ユーザネットワークの実現による、意識向上のための手段、著作権に関する明確な方針、ユーザサポートの提供。
- 以下の諸言語の標準的な資源の作成:アルバニア語、ベルギーフランス語、ベラルーシ語、ブルガリア語、カタロニア語、クロアチア語、チェコ語、
デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイルランド語、イタリア語、
ラトビア語、リトアニア語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語
を行なった。
(YF, 02/03/05)
- EUROMAP Language Technologies ( = HOPE: HLT Opprotunity Promotion in Europe ) (2000-2003)
ヨーロッパにおけるHLT関連研究開発プロジェクトの成果の、実用のための市場への技術移転促進を主な目的とした、
ISTプログラムにおけるHLT関連プロジェクトの一つ。活動予定期間は、2000年〜2003年。
プロジェクトは、現在、英、仏、独、伊、西、オーストリア、ベルギー/オランダ、ブルガリア、デンマーク、フィンランド、ギリシャ、の11のNFP ( National Focal Points ) によって構成されており、各NFPの活動を基盤に、国際的な活動に高めて行くことを目指す。
主な目標は、以下の通り
- 実用レベルの成果を目標としたプロジェクトの推進
- HLT応用システム、サービス、応用製品の利点の宣伝
- 第一級の技術開発力を持つ企業の、研究プロジェクトへの参加推進
- プロジェクトの目標とユーザニーズの適合性向上のための調整
- ユーザや社会と協力したβテスト、デモ、実運用テストなどの促進
ELSNET, eContentプロジェクトと共に、 HLTCentral ( http://www.hltcentral.org/ ) というウェブサイトを運営している。
(YF, 02/03/05)
- ENABLER ( European National Activities for Basic Language Resources" ) (2001-2003)
各国におけるそれぞれの言語の言語資源開発活動の間の協力推進を図り、言語間における技術やツールの移植、多言語言語資源の構築を容易にすることを目的として、2001年12月に開始された、新しいプロジェクト。
プロジェクトの中心となる目標は以下のとおり:
- 各国の活動間のネットワーク構築、また、一般に開放されたデータセンタの構築
- プロジェクト間の調整、情報・データ・ノウハウの交換、ツールの共有、特定の課題に関する協力のための公式会議の開催
- 各国の活動成果の互換性と相互利用可能性の向上による、言語間の技術移転容易化。
- ツール、仕様、評価手段などの流通促進による、活動の重複や分散の回避
- 音声・テキスト・マルチメディア・マルチモーダルの言語資源のメタデータによる記述に関するEUにおける調整機関の設立への貢献
- 産業界での言語資源の利用の促進
- 言語資源の蓄積のための世界的な協力体制の実現の促進。
ISTプログラムのHLTプロジェクトの一つ。
(YF, 02/03/05)
- CLASS (Collaboration in Language and Speech Science and technology) (2000-2002)
ISTプログラムのHLT関連プロジェクト群に含まれる関連するプロジェクトどうしの結び付け(クラスタリング)による
活動の調整を目的とした、ISTプログラムのHLT関連プロジェクトの一つ。
クラスタ内およびクラスタ間の調整・意見交換・協力、外部との協力、国際的な活動および成果の普及促進、欧州委員会との連携を行なう。
主要な課題に関して、付加価値を生むようなプロジェクト間の協力を促進し、プロジェクトがより多くのよりよい成果を
もたらし、より大きな効果を生み、成果がより目に見えるようにすることを目指す。
研究の相乗効果、規模による効果の発揮、プロジェクト間の知識・経験・ノウハウの共有を図る。
次の4つのクラスタが作られている:
- 自然でマルチモーダルな対話
- 多言語知識管理
- 知的で対話的な情報提示
- 音声および言語処理技術の評価
メイリングリスト、ウェブサイトが運用され、HLT関連プロジェクトに関するデータも集積されている(らしい)が、データの利用は現在メンバに制限されている。
(YF, 02/03/05)
- Network-DC (
Network of Regional and International Data Centers ) (2000-2002)
ELDAと、LDCの協力による、全世界的な多言語言語資源ネットワークの構築を目指すMLIS
プログラムのプロジェクトの一つ。
研究および技術開発のための、大規模な音声ならびにテキストデータの作成、獲得、標準
化、正当化、配布を行なう。
NETWORK-DCでは、データセンタ間のネットワークを構築し、現在各地の様々なデータセン
タにおいて管理されている電子化された言語資源の利便性を向上することを目指す。
ELDA側は、最大5つのニュース放送の多言語コーパスを、LDC側は、Voice of Americaで放
送された45言語のデータの主要なサンプルを含む、言語的なコーパスを作成する予定で
ある。
(YF, 02/03/07)
- BALKANET (Balkan Word Net) (2001-2004)
EuroWordNetのモデルに基づいた、バルカン半島の諸言語のための意味的な多言語データベースの構築を目的とした、ISTプログラムのHLT関連プロジェクトの一つ。
対象とする言語は、ギリシャ語、トルコ語、ブルガリア語、ルーマニア語、チェコ語、セルビア語の6言語。
辞書学と最新の計算技術を効率的に組合わせ、語義を用いた意味的な関係の表現により、バルカン諸語の語彙的な情報の整理を試みる。
個々の言語のWordNetを開発し、それらを、一つの共通の語彙データベースの中で組合わせる。
ロマンス諸語とバルカン諸語の間の関係を探ることによる、EuroWordNetの概念の拡張も目指す。
(YF, 02/03/05)
-
TEI (Text Encoding Initiative) (1987-)
テキストの構造をエンコードするための標準的なスキームを設計し,それに従ってタグ付けしたテキストの公開を推奨することにより,検索などのテキスト処理を容易にすることを目的としたプロジェクト。TEIで設計されたテキストエンコーディングの
ガイドラインはwebで公開されている。3つの学会(
Association for Computers and the Humanities,
Association for Computational Linguistics,
Association for Literary and Linguistic Computing
)の後援を受けている他,US National Endowment for the Humanities, the European Union, the Canadian Social Science Research Council, the Mellon Foundation などから資金的なサポートを受けている。(KS,01/10/26)
-
TEI-C (Text Encoding Initiative Consortium) (2000-)
TEIの活動を受けて2000年12月に設立されたコンソーシアム。TEIの活動を組織的に管理すること,継続的な資金の獲得を主な目的とする。事務局はベルゲン(ノルウェー)にある。(KS,01/10/26)
- Project Gutenberg (1971-)
著作権の切れた文献(主に古典的な作品)を電子化し,web上で公開するプロジェクト。その歴史は古く,1971年にMichael Hartが中心となって活動が始められた。
ボランティアによる活動が中心で,電子化テキストの寄付も受けつけている。
(KS,01/10/26)
-
OTA (Oxford Text Archive) (1976-)
テキストを集積・分配することにより,テキスト作成者と使用者の両方の利便を図るプロジェクト。オックスフォード大学によって運営されている。Lou Burnardによって1976年に活動が始められた。OTAへのテキストの登録,OTAからのテキストのダウンロードは基本的にはフリーである。現在,25言語,2,500以上のテキストが登録されている。(KS,01/10/26)
-
OLAC (Open Language Archives Community) (2000-)
web上で言語資源を公開することを推奨し,言語資源のフォーマットの共通化や共通のカタログ作成などを通して,言語資源流通に関する国際的な協力体制を作り上げるためのプロジェクト。Unicodeの使用やXMLでの言語資源のマークアップの推奨,メタデータ(言語資源の名前,対象言語,作成者,作成日時,内容など,言語資源の内容に関する記述)のフォーマットの統一,言語資源のカタログの作成などが主な活動内容である。2000年12月に設立.NSFからサポートを受けている。(KS,01/10/26)
-
WordNet (1985-)
WordNetはフリーで公開されている英語のシソーラスである。プリンストン大学のGeorge A. Miller教授が中心となって開発が進められた。1985年から現在に至るまで改良が加えられている。最新のバージョンは1.7である。その活動の一部については,NSFからのサポートを受けている。(KS,01/10/26)
-
EuroWordNet (1996-1999)
EuroWordNetは,WordNetと同じ方式でヨーロッパ言語のシソーラスを作成するプロジェクトである。各ヨーロッパ言語のSynset(意味クラス)は,対応する英語のWordNetのSynsetへのリンクを持ち,これにより任意の言語対について同義語を検索することを可能にした。また,シソーラスの上位の構造は完全に共有されている。対象言語はオランダ語,イタリア語,スペイン語,ドイツ語,フランス語,チェコ語,エストニア語の7つ。1996年3月から1999年6月の約3年間,ヨーロッパのHuman Language Technologiesというプロジェクトの一環として活動が行われた。(KS,01/10/26)
-
ISLE (International Standards for Language Engineering) (2000-)
言語資源の国際的な標準化を目的としたプロジェクト。主に米国とEUの研究者が中心になって活動している。3つのワーキンググループがあり,それぞれ多言語辞書の構築,マルチモーダルコーパスのアノテーションの標準化,機械翻訳システムの標準的な評価基準の作成を目指している。活動期間は2000年1月から27ヶ月の予定。ヨーロッパのHuman Language Technologiesという巨大プロジェクトに含まれる。また,EAGLESが後援団体となっている。(KS,01/10/26)
-
COCOSDA (the International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques for Speech Input/Output
- LINGUAPAX Project
UNESCOによる世界の言語の多様性の擁護を目的とするプロジェクト。
(TC,01/11/01)
-
The Less Commonly Taught Languages (LCTL) Project
Minnesota大のCenter for Advanced Research on Language Acquisition (CARLA)による,英仏語独西語以外の言語の教育の支援および推進を目的とするプロジェクト。(TC.01/11/01)
- KORTERM
による研究プロジェクト (1998-)
KORTERM(Korea Terminology Research Center for Language and Knowledge Engineering)は、Terminologyに関する韓国の研究センターである。
KAIST(Korea Advanced Institute of Science and Technology)のChoi Key-Sun教授を中心に、韓国語の専門用語辞書の開発、流通、標準化などを主な活動内容としている。その研究計画は4つのフェーズから構成され、専門用語辞書の整備を段階的に進めている。また、
ISO/TC37
(専門用語およびその他の言語資源に関する種々の国際規格制定を目指すISOの技術委員会)の活動にも携わっている。(KS,02/01/10)
評価型プロジェクト
-
TIPSTER Text Program (1991-1998)
DARPA、CIA、NIST等によるプロジェクトで、産民学が協同してテキスト処理技術の向上をめざす。具体的には、以下の技術に焦点を絞る。
- 文書検索: 文書データベースおよび次々と配送される文書集合の中から所望の文書を見つける技術。
- 情報抽出: 固有名、出来事など特定の情報を文書から抽出する技術。
- 文書要約: 文書の主題を保持しつつ文書のサイズを圧縮する技術。
それぞれの技術発展を促進するためにTREC、MUC、SUMMACといったシステム評価型会議を開催する。各々の会議については各項目を参照されたい。システム評価型会議とは、同一の課題群を参加システムに与え、参加システムからの回答を比較し評価する会議のことである。システム間の競争というよりも、参加者間での技術交流を通して分野全体の技術発展をうながすことを目的としている。TIPSTERは1998年秋に終了し、TIDESに引き継がれている。(MI,02/01/23)
- TIDES (Translingual Information Detection, Extraction, and Summarization)
(DARPA site,
NIST site) (1999-)
TIPSTER Text Programの後継。Translingualという語に見られるように、TIPSTER以上に多言語という側面を強調している。多言語で提供される膨大な情報へ効率良くアクセスすることを目指し、文書検索、情報抽出、文書要約に加え機械翻訳も視野に入れる。現在、DUC、TREC、TDTを開催している。(MI,02/01/23)
- TREC (Text Retrieval Conference) (1992-)
情報検索に関するシステム評価型会議で、TIPSTERの一環として始まった。他の評価型会議と同じく、大規模テストコレクションの蓄積、参加システム間の技術交流、システム評価法の確立といった目的を持っている。当初は以下の二つのタスクで始まった。
- Ad hoc Task (随時検索タスク)
- 通常の文書検索のことである。参加者には事前に文書集合が与えられる。評価時には検索トピック(検索要求)が与えられ、参加システムは検索トピックと関連性の高い文書を文書集合から検索する。その後、参加システムの検索精度を精度(precision)/再現率(recall)で比較評価する。評価後は、各文書についての正解/不正解判定も公開される。
- Routing Task (文書分類タスク)
- SDIや文書フィルタリングを想定したタスクである。随時検索タスクとは逆に、事前に与えられるのは検索トピックとそれに対する幾つかの正解文書である。評価時には新しい文書集合が与えられ、参加システムは新しい文書集合から検索トピックに関連する文書を検索する。
以上が基本的なタスクであるが、回を追うごとにタスクの数も増えている。最新のTREC2001では、Web検索、多言語検索、フィルタリング、対話的検索、質問応答、ビデオ検索のタスクが行われた。扱う文書データもニュース記事を中心に、雑誌記事、特許、Webページなど多義にわたっている。(MI,02/01/24)
-
MUC (Message Understanding Conference) (1990-1998)
Tipsterの一環として始まった情報抽出に関する評価型会議で、MUC-7(1998)では以下のタスクが行なわれた。
- Named Entity Task
- 人名、組織名、場所名、日時などの固有名を抽出する。
- Template Element Task
- 固有名に関する属性的な表現を抽出する。
- Template Relation Task
- 固有名間の関係を抽出する。
- Co-reference Task
- 名詞(代名詞、固有名詞など)の参照関係を抽出する。
- Scenario Template Task
- 与えられたシナリオ(事故など)に関するイベントを抽出する。
- Multilingual Entity Task (MET)
- Named Entity Taskの多言語版。日本語も含む。
対象となる文書はニュース記事である。(MI,02/01/24)
-
SUMMAC (TIPSTER Text Summarization Conference) (1998)
文書要約(Summarization)に関する最初の評価型会議。要約の対象文書はTRECでも使われたニュース記事である。要約結果の評価についてはまだ合意がないため、幾つかの試行錯誤を行っている。
- Ad hoc Task
- 原文書のかわりに要約文書を使って検索結果の判定を行い、原文書を使った判定との比較評価を行う。判定は人が行う。検索要求という観点から要約を評価している点が特徴である。
- Categorization Task
- 原文書のかわりに要約文書を使って文書の分類を行い、原文書を使った分類との比較評価を行う。分類は人が行う。
- Q&A
- 原文書を読めば答えられるような質問を事前に用意しておき、要約を読んだだけでもそれらの質問に答えられるかどうかをチェックする。
一般に要約は、indicative(原文書を読むかどうかの指標として役立てばよい要約)とinformative(原文書のかわりになる要約)に分けることができるが、上記のad hoc task、categorization taskはindicativeな要約を評価し、Q&Aはinformativeな要約を評価していることになる。また、ad hoc taskとcategorization taskの違いは、検索要求といった特定の観点があるかないかであり、前者はquery-biased、後者はgenericと呼ばれることが多い。SUMMACはTIPSTER終了後、DUCに引き継がれている。(MI,02/01/29)
-
DUC (Document Understanding Conference) (2000-)
文書要約に関する評価型会議。SUMMACの後継で、DUC2000とDUC2001が開催されている。DUC2001では複数文書要約も取り入れられている。内容的に関連する約10個のニュース記事が原文書群として与えられ、システムはこれらの要約(400, 200, 100, 50語)を提出する。これらの要約とあらかじめ人間が作った要約とを比較してシステムを評価する。
(MI,02/01/29)
-
TDT (Topic Detection and Tracking) (1997-)
時系列で配送される情報(ニュースソースなど)を分類してスレッドを作ったり,新たなトピックの出現を検出することを目的とした評価型会議。対象は各種ニュース記事で扱う言語は英語と中国語(Mandarin)である。TDTでは以下の5つのタスクが用意されている。
- Story Segmentation
- 音声データを対象とし、ストーリの切れめを検出する。音声情報の他に、書きおこされたテキストも利用可能である。
- Topic Tracking
- いくつかのストーリが与えられ、それらに類似する以後のストーリをトラッキングする。
- Topic Detection
- 同じトピックのストーリを集める。通常のクラスタリングとは異なり、データが時系列順に与えられる点が特徴である。つまり、あるストーリを処理する際は、それ以前のストーリしか利用できない。
- First Story Detection
- Topic Detectionの要素技術。時系列順で与えられるストーリの中から新しいトピックの最初のストーリを検出する。
- Link Detection
- 二つのストーリがトピック的に関連しているかどうかを検出する。他のタスクの要素技術となる。
(MI,02/01/29)
-
CLEF (Cross Language Evaluation Forum) (2000-)
ヨーロッパ言語を対象とした検索に関する評価型会議であり、ヨーロッパ各国の研究機関から成るコンソーシアムで運営されている。CLEFで基本となるのは以下のタスクである。
- Multilingual Information Retrieval
- ある言語で書かれた検索トピック(選択可能)から多言語の文書を検索する。つまり検索対象は複数言語が混在している文書群である。
- Bilingual Information Retrieval
- ある言語で書かれた検索トピックから別の言語(英語)の文書を検索する。
- Monolingual Information Retrieval
- 検索トピックの言語と検索対象の言語が一致している検索。英語はTRECなどで盛んに行なわれているため英語以外の言語に注目する。
(MI,02/01/29)
-
IREX (Information Retrieval and Extraction Exercise) (1998-1999)
日本語を対象とした評価型会議で、固有表現抽出(NE),情報検索(IR)の二つの課
題で実施された。対象データは毎日新聞記事である。
- 固有表現抽出(NE)
- 毎日新聞記事から組織名、人名、地名などの固有表現を自動的に抽出する課題。トピックを限定した記事集合とトピックを限定しない記事集合を対象とする。
- 情報検索(IR)
- 毎日新聞記事(94,95年)から検索トピックに関連する記事を検索する課題。
正解作成や協力もふくめ45団体の参加があり成果発表会はNTCIR-1ワークショップと同時に開催された。(MI,02/01/29)
-
NTCIR(NII-NACSIS Test Collection for IR Systems)ワークショップ (1998-)
国立情報学研究所(NII)が主催する評価型会議。約1年半おきに開催され、現在はNTCIR-3が進行中である。基本的にはTRECの随時検索タスクに相当するタスクを行う。対象文書は、NTCIR-1では学会発表論文の概要のみであったが、NTCIR-2では科学研究補助金実績報告書の概要も加わった。また、文書集合の約1/3は日英の対訳となっているため、日英の言語横断検索も実行された。最新のNTCIR-3では、以下のタスクが提案されている。
- 言語横断検索タスク
- 検索対象、検索トピックともに多言語からなる検索タスク。中国語、韓国語、日本語、英語を扱う。検索対象は毎日新聞などの新聞記事である。
- Web検索タスク
- jpドメインから収集したWeb文書を対象とした検索タスク。
- テキスト自動要約タスク(TSC-2)
- 毎日新聞記事を対象とした文書自動要約に関するタスク。詳細はTSCの項参照。
- 質問応答タスク
- 提示された様々な質問に答えられるかを評価するタスク。システムは毎日新聞記事を利用して解答を作る。
- 特許検索タスク
- 特許を対象とした検索タスク。特許公開公報、日英対訳となっている特許要約を扱う。
2002年10月にNTCIR-3ワークショップの開催が予定されている。(MI,02/01/29)
-
TSC (Text Summarization Challenge) (1999-)
日本語を対象とした文書自動要約に関する評価型会議。NTCIRのサブタスクとして開催されている。TSC-1(NTCIR-2)では毎日新聞記事を対象に、重要文抽出による要約と自由形式の要約を評価している。評価法は、要約を直接評価する方法(intrinsic)とアプリケーション(検索)を介して評価する方法(extrinsic)の二種類を試みている。Intrinsicな評価では、人間が選んだ重要文とシステムが選んだ重要文との一致度を計算したり、人間が作成した要約とシステムが作成した要約との様々な比較を行ったりする。Extrinsicな評価では、SUMMACと同様、検索結果の正解判定を介して要約を評価する。つまり、要約を見ただけで、原文書を見たときと同じ判定が下せれば、その要約は良い要約とする。
現在進行中のTSC-2(NTCIR-3)では、単一文書の要約に加え、複数文書の要約も扱う。対象文書はTSC-1と同じく毎日新聞記事である。(MI,02/01/29)
-
SENSEVAL (1998-)
語の意味的曖昧性解消を対象とした評価型プロジェクト。第1回のコンテスト(SENSEVAL)は1998年夏に行われ,英語,フランス語,イタリア語を対象に,23研究グループが参加した。第2回目のコンテスト(SENSEVAL-2)は2001年春に行われ,英語,日本語を始めとする9言語を対象に,37研究グループが参加した。
(KS,01/10/26)
その他のプロジェクト
-
科研学術創成「言語理解と行動制御」
コンピュータの内部に機械的な制約を受けない,行動機能が豊富な3 次元のソフトウエアロボット(機械)を構築し,それを自然言語の対話により仮想空間内で動作させることを通じて,「言語理解と行動制御」に関する新しい学問分野の創出とその基盤を確立する。日本学術振興会からの研究費.2001年4月〜2006年3月。
(SK,01/10/23)
-
科研学術創成「人間同士の自然なコミュニケーションを支援する知能メディア」
人と人がコンピュータの存在を意識することなく,音声・表情・身振りなどの豊富なコミュニケーションスキルを使って自然にコミュニケーションできるようにするための新しいコミュニケーションメディア(知能メディア)として,会話型コンテンツという概念を導入し,その実現と活用のための技術体系の確立をめざす。日本学術振興会からの研究費.2001年4月〜2006年3月。(SK,01/10/23)
-
CREST「情報のモビリティを高めるための基盤技術」
非定形なテキストを明示的な背景知識(オントロジー)と結びつけることによる柔軟な情報検索の実現に関する研究プロジェクト。(1)情報抽出などの言語処理技術,(2)オントロジー・知識の管理技術,(3)ネットワ-ク探索ロボット,(4)対話による情報提示技術,の4つの技術分野の成果を活用することで,知的な情報・知識管理システムを構築することを目的とする。科学技術振興事業団からの研究費.2000年12月〜2005年3月。(SK,01/10/23)
- CREST「人間中心の知的情報アクセス技術」
人間への適応およびそれに基づく人間の能力の活用を通して,意味と状況の理解を人間と人工物が共有することにより,情報コンテンツに対してその意味内容と利用の文脈に即してアクセスする技術の確立を目指す。コンテンツの意味構造化の手法,意味構造化されたコンテンツの利用,ユーザモデルとインタフェース等について研究する。科学技術振興事業団からの研究費.2000年12月〜2005年3月。
(SK,01/10/23)
-
文部科学省COE 総合音響情報研究拠点 (CIAIR)
音と人間の関わりを,(1)空間の何処に音があるのか,(2)音の性質をどう分析合成するか,(3)音声と文字をどのように相互交換するか,(4)人間は音声でどのように対話するのか,(5)人は音をどのように解釈するのか,の5つの視点から総合的に研究する。文部省中核的研究拠点(COE)形成プログラムによる平成11年度より5年間のプロジェクト。(TC,01/11/01)
- 通信放送機構先端技術移転促進型プロジェクト適合型コミュニケーション技術の開発
-
Verbmobil Project
言語処理技術とその将来の産業応用において,ドイツの国際的ポジションを高めることを目的として実施された,同国のFederal Ministry of Education Research and Technologyの長期プロジェクト。(TC,01/11/01)
- ATR
-
C-STAR Project (Consortium for Speech Translation Advanced Research)
-
Digital Libraries Initiative (1994-)
-
日本語のための CHILDES プロジェクトJCHAT
言語獲得研究の為の,子供の話し言葉コーパスCHILDES (Child Lanuage Data Exchane System)データベースプロジェクトの日本語版開発に関連するプロジェクト。(TC,01/11/01)
-
ETHNOLOGUE Language of the World
世界の1,320言語について調査を行っているSIL International発行の世界中の言語に関するデータベース。(TC,01/11/01)
-
東京大学文学部東洋言語研究室の危機言語のホームページ
(TC,01/11/01)
-
UDCC(Universal Decimal Classification Consortium)
情報の内容に基づく分類・検索を目的にCommon Indexing/Retrieval Languge のための分類体系(System)を組織化・維持管理し,この体系をMRF(Master Reference File)として提供している.利用には著作権料が必要で,日本語版の権利者はUDC管理員会のメンバーである社団法人情報科学技術協会である.
(SK,02/1/10)
個別コーパス・リンク集
英語コーパス
- SEU (The Survey of English Usage)(1959-)
1959年にUniversity College LondonではじめられたSEUは、後述のBrown Corpusとともに、世界初の大規模な英語コーパスデータであって、コーパス言語学の始まりを示すものであるが、データの機械可読化は行われなかった。資料はすべて手作業でカードに記録され、最終的には様々なジャンルの各5,000語のテキスト200よりなる100万語のコーパスとなった。このうち話し言葉部分は、1975年に電子化されLLC(London-Lund Corpus of Spoken English)となった。
(TC,02/02/27)
- Brown Corpus (The Standard Corpus of Present-Day Edited American English)(1961-1964)
世界最初の英語電子コーパス、1961年出版の文献から、2,000語のテキスト500,計約100万語を集めたアメリカ英語のコーパス。本Corpusは、その後のコーパスデザインのモデルとなった。
(TC,02/02/27)
- LOB Corpus (The Lancaster-Oslo/Bergen Corpus)(1970-1978)
1961年出版のテキスト100万語を集めたイギリス英語の最初のコーパス。Brown Corpusのイギリス英語版。
(TC,02/02/27)
- Freiburg-Brown Corpus(1991-1996)
1991年以降のテキスト各100万語を収集したイギリス英語とアメリカ英語のコーパス。Brown Corpusの1991年版ともいうべきもの。30年間の英語の変化を見る目的で編纂。
(TC,02/02/27)
- Freiburg-LOB Corpus(1991-1996)
1991年以降のテキスト各100万語を収集したイギリス英語とアメリカ英語のコーパス。LOB Corpusの1991年版ともいうべきもの。30年間の英語の変化を見る目的で編纂。
(TC,02/02/27)
- Kolhapur Corpus(1986)
1978年の出版物から100万語を集めたインド英語のコーパス。Brown CorpusやLOB Corpusのインド英語版。
(TC,02/02/27)
- ACE (The Australian Corpus of English)(1988-1989)
1986年以降の出版物から100万語を集めたオーストラリア英語のコーパス。デザインはLOBに準拠。
(TC,02/02/27)
- WWC (The Wellington Corpus of Western New Zealand English)(-1994)
LOBをモデルにし、1986-1990年以間の出版物から100万語を集めたニュージーランド英語のコーパス。
(TC,02/02/27)
- ICE-GB (The British component of the International Corpus of English)(1990-)
世界の英語バリエーションの比較を目的として、1990年に開始され現在世界20ヶ国が参加するInternational Corpus of English (ICE)の英国英語パート。
(TC,02/02/27)
- IEC-EA (The East African component of the International Corpus of English)(1989-)
東アフリカ諸国(Kenya, Tanzania and Malawi, Nigeria and South Africa)の英語コーパス
(TC,02/02/27)
- Lancaster Parsed Corpus
LOB Corpusの各カテゴリから、計133,000語分について品詞標識をつけ、構文解析したコーパス。
(TC,02/02/27)
- COLT(The Bergen Corpus of London Teenager Language)
Londonの様々な地区の13〜17才の少年少女の自然な話し言葉を1993年に録音した50万語のコーパス。Teenagersの話し言葉による英語に関する最初の大規模コーパス。書き起しテキストとword class tagを持つ。現在はBNCの一部となっている。
(TC,02/02/27)
- CHILDES (Child Language Data Exchange System)(1984-)
子供の話し言葉(主として英語)を集めた言語習得研究用コーパス。
(TC,02/02/27)
- Helsinki Corpus of English Text : Dialect Part
現代イングランド方言のコーパス。1997年時点で40万語収録。
(TC,02/02/27)
- SEC (The Lancaster/IBM Spoken English Corpus)(1984-1991)
現代南部イギリス英語の話し言葉約52,000語を集めたコーパス。品詞標識、韻律・音声表記付き版あり。
(TC,02/02/27)
- MARSEC (The Machine Readable Spoken English Corpus)
現代南部イギリス英語の話し言葉約52,000語を集めたコーパスSECに音響信号を追加したコーパス。
(TC,02/02/27)
- LLC (The London-Lund Corpus of Spoken English) (1990)
1953-1988年に録音されたイギリス英語の話し言葉50万語のコーパス。
(TC,02/02/27)
- PoW (The Polytechnic of Wales Corpus) (1978-1984)
South Wales地域の6〜12才の約120人の子供の話し言葉約61,000語のコーパス。
(TC,02/02/27)
- SBCSAE (The Santa Barbara Corpus of Spoken American English)
アメリカ英語の話し言葉100万語コーパス。
(TC,02/02/27)
- WSC (The Wellington Corpus of Spoken New Zealand English)(1998)
1988-1994年間に収録された100万語のNew Zealand英語の話し言葉コーパス。内99%は90年代に収録。元ACCENZ(A Computerized Corpus of English in New Zealand)。
(TC,02/02/27)
- BOE (The Bank of English)(1991-1995)
COBUILD辞書編纂用に総語数約3億数千万語を有し、現在も語数を増やしているモニター・コーパス。
(TC,02/02/27)
- BNC (The British National Corpus) (1991-)
一億語のイギリス英語の書き言葉(90%)と話し言葉(10%)の品詞標識付きコーパス。大半は1990年代初期のテキスト。2002.02.21現在、the second edition of the BNC (the BNC World Edition) online版が有償公開されている。
(TC,02/02/27)
- ICE (The International Corpus of English)(1990-)
英語を母語または第二言語とする18の国・地域の1989年以降の英語を各100万語づつ(1990-1994年間の話し言葉(60%)と書き言葉(40%)のテキスト)を集めたコーパス。15の研究グループが協力して世界の英語のバラエティを収集し、言語ならびに音声研究資料として整備。
(TC,02/02/27)
- The Cambridge-Leeds Corpus of Early Modern English
1600-1800年間の初期近代英語構文のフルテキストコーパス。
(TC,02/02/27)
- COPC (The Century of Prose Corpus)
「散文の世紀」(1680-1780)の英語散文50万語を集めた文体研究用コーパス。
(TC,02/02/27)
- The Corpus of Early American English
1620-1720年間の初期アメリカ英語のコーパス。1987時点で約50万語規模。現在はHelsinki Corpusに組入れられている。
(TC,02/02/27)
- CEEC (The Corpus of Early English Correspondence)
1420-1681年間の私信のコーパス。1987時点で240万語規模。
(TC,02/02/27)
- CELT (The Corpus of Electronic Texts)
アイルランド英語史から現代までに渡るコーパス。
(TC,02/02/27)
- The Corpus of Late Modern English Prose(1992-1994)
1861-1919年間の私信10万語のコーパス。
(TC,02/02/27)
- Helsinki Corpus Diachronic Part(1984-1991)
世界最初の英語史コーパス。800-1710年間を3期(細区分11期)に分け、ジャンル別に細分化した約160万語のコーパス。
(TC,02/02/27)
- Helsinki Corpus Older Scot (start-end)
(1995)
1450-1700年間のスコットランド英語散文約80万語の通時コーパス。
(TC,02/02/27)
- Penn-Helsinki Parsed Corpus of Middle English
The University of Wales, Lampeter所蔵のTract Collection (1640-1740)のフルテキスト110万語のコーパス。
(TC,02/02/27)
- ARCHER (A Representative Corpus of Historical English Registers)
1650-1990年間のイギリス英語・アメリカ英語の話し言葉と書き言葉を集めた170万語の品詞標識付きコーパス。
(TC,02/02/27)
- ZEN (The Zurich English Newspaper Corpus)
最古の新聞資料(1671)から1791年までの新聞記事コーパス。
(TC,02/02/27)
- ICAMET (Innsbruck Computer Archive of Middle English)(1992-1999)
中英語散文129のコーパス。
(TC,02/02/27)
- Lampeter Corpus (start-end)
1640-1740年間に出版されたBritish英語文献のコーパス。
(TC,02/02/27)
関連学会
JEITA TOP
(C)Copyright JEITA,2001