ことばは人を育て、未来をきりひらく知の源です。三省堂はことばをみつめて135年 サイトマップお問い合わせプライバシーポリシー
三省堂 SANSEIDOトップページ 三省堂WebShop辞書総合サイト Wrod-Wise Web教科書総合サイト ことばと教科
辞書教科書電子出版六法・法律書一般書参考書教材オンラインサービス
書名検索漢字かな著者名検索漢字かな詳細検索
新刊・近刊案内
メディアでの紹介
本の注文
書店様専用
大学向けテキスト
卒業記念
名入れ辞書
品切れのご案内
「ぶっくれっと」アーカイブ
会社案内
採用情報
謹告
三省堂印刷
三省堂書店へ
三省堂書店はこちら
声に出して読めない日本語。
「ほぼ日刊イトイ新聞」
(『大辞林』タイアップ・サイト)
  日本語動詞の結合価


写真

監修 日本システムアプリケーション(JSA)

荻野孝野・小林正博・井佐原均 編著

定価 52,800円(本体 48,000円+税 10%)
[分売不可]
B5(4分冊、本文編 64頁、データ編 3冊 696頁・704頁・688頁) CD-ROM付き
978-4-385-36080-5

15万文規模の日本語文集合をもとに、「動詞がとりうる格と、その格を担う体言」について整備した、大規模な言語データ集。日本文の解析・生成を基盤とする言語処理、日本語教育、日本語研究など多方面の活用が期待される。

2003年12月15日 発行

使用許諾契約書 本資料の特色 序文 はじめに 著者紹介 推薦のことば 解説ページ 検索画面

 NTTデータベースシリーズ 日本語の語彙特性 CDーROM版


付属CD-ROMを使用するには、以下の環境が必要です。

● OS:Windows 2000/XP
● アプリケーション:Microsoft Excel 2000
● コンピュータ:クロック速度500MHz以上のIntel Pentium/Celeron系列、またこれらと互換性のあるプロセッサを搭載した機種
● メモリ:256MB以上推奨(Windows 2000の場合で、XPの場合は512MB以上推奨)
● ディスプレイ:1240×768ピクセル推奨 CD-ROMドライブ:4倍速以上推奨

※記載されている製品名、商品名、社名、は、それぞれ各社の商標または登録商標です。



 ●本資料の特色

(1)内容

 本資料は、「用言がとりうる格と、その格を担う体言部分」について、計算機による自動抽出および人手によるチェックを経て、言語データとして整備したものである。例えば「書く」についてみれば、「が、を、に」などの格をとり、そのうち「が」格が後続する体言部分には意味的に人や組織などに該当する単語がくることを、これらのデータを検討することによって導き出すことができる。

 これらのデータは、EDR電子化辞書を構成している共起辞書および共起辞書の元データとなったコーパスを用いて作成した、約15万規模の実際の日本語文の集合に裏付けられた言語データであり、表記および概念の組み合わせが異なるセットを1見出しと数えて約11,000異なりのデータからなるものである。

(2)本資料の持つ意味と可能性(現代日本語研究にとっての資料的価値)

 大きな特徴として、上記でもふれたように、作例ではない大量の生データから作成されていることがあげられる。これによって、「格パターンとして抽象化する以前の生データとしての様相」を明確に言語資料として提示することができる。また、「対象語彙数、各単語の事例数」は、ともにその多さにも充分な特徴があり、言語の統計的な検討にも対応できるレベルのものである。さらに本資料は一般的な表計算ソフトで参照することができる。以上のような言語資料としての特徴によって、多方面から言語資料としての活用が期待されるものである。

(3)既刊資料との違い

 従来の同種のものとして、用言ごとの格関係を記載した研究書などがある。しかし、既存のものは1用言1例というレベルで例数も少ないもの、あるいは人手によって格パターンとしてすでに加工されたものであった。従って、格パターンの参考にはできるが、実際の日本語文における格の省略などの状況を反映しているものではないので、基本パターンとそれらの差分の検討などには充分でない。一方本資料は、大量かつ日本語の現状を反映したデータとして、格に着目して形式化した用言データとして、その特徴がある。



 ●序  文

 EDR電子化辞書の開発が1986年に始まって開発期間9年間。その後、改良および独自プロジェクトでの展開期8年を経て2002年に日本電子化辞書研究所はその役目を終えた。継続して、通信総合研究所がこの「EDR電子化辞書」の権利を引き受け、保守改良および普及を担っている。EDR電子化辞書は、単独の辞書というものではなく、単語辞書の概念を出発点として、対訳辞書、共起辞書、概念体系辞書、概念記述辞書などからなる総合的な辞書システムと言える。

 本書の結合価データを監修、編集した荻野、小林らは、EDR電子化辞書の開発初期あるいは中期から、これらの辞書の開発にかかわってきた。一方でこれらの豊富な言語資源とも言うべき言語データを用いて、EDR時代から、自ら関心あるテーマに関する研究も行なってきた。本書はそれらの成果である。

 本書は、EDRコーパスと共起辞書を用いて、日本語動詞の結合価検討のためのデータを整備したものである。EDR電子化辞書の情報をさらに発展させて、言語分析に有効なデータとしてまとめあげ、言語処理分野に貢献できることを喜ぶ次第である。

 今後ますますパソコンなどの情報処理機器が一般に広く普及する時代を迎え、文書作成、情報管理、検索、知識の構築などの需要が高まるところである。またパソコンを使った教育現場での利用も期待される。こういったところで、文を解析したり、表現のために文を作成したりすることが情報処理のスタートとなる。日本語文の場合、「てにをは」は避けて通れない、もっとも基本的な構造を担う部分である。これらについて、本書はEDRコーパスという大量のデータ分析に基づいてまとめあげた貴重な言語データである。

 EDR電子化辞書とともに本書が多くの言語処理研究者や言語教育に携わる先生方、一般の日本語学習者に貢献できることを願うものである。

2003年10月

独立行政法人通信総合研究所けいはんな情報通信融合研究センター
自然言語グループリーダー
井佐原 均



 ●はじめに

 かつて、わが息子が小学生時代、授業参観に行っておもしろい授業をみた。先生は黒板に「走る」と書いた。
 そしてその左側に単語の一群を書いた。
「人,車,机、花、月、……」
「さあ、どの言葉なら『走る』にくっつくかな?○×をつけてみましょう」
「○人,○車,×机、×花、○犬、……」
「さあ、それじゃ、『歩く』はどうかな?」
「○人,×車,×机、×花、○犬、…」

 これは、動詞と名詞の単語の意味的な関係から表現の正しさをチェックする結合価そのものではないかと私はおもしろく思った。
本書で提供するデータは、まさに、この動詞を中心として係る語と係られる語の関係を単語の意味的なグループでとらえるためのデータである。
 これをここでは「結合価データ」と呼ぶ。

 結合価データとは、
 例  <容器>に入れる
     <容器>→{なべ、箱、袋、戸棚、いれもの、カバン,...}

に示すように、用言を中心とした解析で、用言に係る体言と、体言の後に続く格助詞の組み合わせで用言の特徴を記述するものである。これによって、係り受け関係を特定したり、意味によって表記に違いがあるものを限定したりすることができる。
 通常、結合価データは、述語になりうる単語のうち、格関係をとる動詞、形容詞、形容動詞(格関係をとる場合は名詞も結合価分析の対象となりうる)などについて記述するが、本書でのデータは上記のうち、動詞を主としている。よって、本文では結合価記述の係り先の単語を動詞として展開する。



 ●著者紹介

荻野孝野

1971年東京女子大学文学部卒業(財)計量計画研究所言語情報研究室を経て、86年 (株)日本電子化辞書研究所設立当初よりEDR電子化辞書開発に従事。現在、日本システムアプリケーション顧問、大東文化大学、明海大学、学芸大学非常勤講師。神戸大学自然科学研究科在籍。

小林正博

1978年東京理科大学卒業。同年日本システムアプリケーション入社。92年から(株)日本電子化辞書研究所出向にてEDR電子化辞書開発の計算機部門を担当。現在、日本システムアプリケーショングループマネージャーおよび取締役。

井佐原 均

1978年京都大学工学部電気工学第二学科卒業。80年同大学院修士課程修了。博士(工学)。同年通商産業省工業技術院電子技術総合研究所入所。95年郵政省通信総合研究所入所。現在、独立行政法人通信総合研究所けいはんな情報通信融合研究センター自然言語グループリーダー、同タイ自然言語ラボラトリー長を務め、自然言語処理、機械翻訳の研究に従事。神戸大学大学院自然科学研究科教授(併任)。国際日本文化研究センター教授(客員)。アジア太平洋機械翻訳協会理事。



 ●推薦のことば

コンピュータによる日本語意味理解の研究や日本語教育の現場で期待される結合価データ

東京工業大学教授 田中穂積

 電子化された文章が、オフィスに、家庭に、ネットワーク上に溢れている。必要な文書は、家庭やオフィスに居ながらにして即座に手に入れることが可能になってきた。必要な文書といっても、コンピュータが意味まで理解して、ピンポイントで必要な文書を見つけだしてくれるわけではない。機械翻訳システムにしても、システムが原文の意味まで理解して翻訳している訳ではない。したがって翻訳性能には自ずと限界がある。この種のシステムの限界を突破するためには、コンピュータに意味を理解させる必要がある。  ここで言語理解の過程を内省してみたい。たとえば動詞「あう」には、「会う」、「合う」、「遭う」、「逢う」など、さまざまな意味があることを知っている。さらに「会う」であれば、「人が」「人に」「会う」ことが、典型的な意味であることを知っている。後者は、「会う」を含む文の意味と形を特徴付ける言語知識であり、本書ではこれを動詞の結合価とよんでいる。結合価データはコンピュータによる意味理解の中核をなす言語知識の一つである。容易に想像できることであろうが、これはまた、言語学や日本語教育の現場でも大きな役割を果たす言語知識でもある。  このような日本語動詞に対する結合価データの有用性は叫ばれていたが、その作成には、動詞の緻密な分析を個別にしかも大量に行わなければならないため、これまで小規模のものはあっても、今回出版されたものほど網羅的で大規模な日本語結合価データは皆無であった。その意味で本書の出版が、コンピュータによる日本語意味理解の研究や言語学、日本語教育の現場で果たす役割は極めて大きいものがある。



 ●解説ページ

解説ページ1
解説ページ2



 ●検索画面

最初の画面
検索画面1

「走る」を検索 
検索画面2

⇒ エクセルでの検索結果画面

このページのトップへ