博士論文一覧

博士論文審査要旨

論文題目:PHRASAL ANALYSIS OF UNTAGGED CORPORA: ONLINE CONVERSATION AND WRITTEN LANGUAGE
著者:マルチェフ ミレン (MARTCHEV, Milen)
論文審査委員:中島 由美、森村 敏己、ジョナサン・ルイス、久保 哲司

→論文要旨へ

一、論文の構成

 本論文はインターネット上で行われる言語行動に注目し、その特徴の解明を目指すものである。マルチェフ氏の研究は概略以下のようなプロセスに従って行われている。
1) オンライン掲示板に投稿された言語データによる大規模コーパスを構築する。コーパスは「タグ無し」コーパスとする。インターネット掲示板は日本、ブルガリア双方から人気のあるものを選ぶ。
2) インターネット掲示板における言語行動の特異性を把握するために、これと対照的な近代文学散文作品コーパスを日本、ブルガリア双方について構築し、N-gramを応用したプログラムによって両者の差異を数値化する。
3) 日本、ブルガリア双方において、インターネット掲示板コーパスと散文作品コーパスについて得られたN-gramの頻度とその差異値を吟味し比較する。
4) 差異値の高いものを選別し、日本、ブルガリアそれぞれのインターネット掲示板の特異性を分析する。
5) 日本、ブルガリアそれぞれにおいて差異値の高いものに焦点を定めて、両者の対照分析を試みる。

 なお、以上のプロセスの中で、コーパスにN-gramを適用して得られた文字列を分析の基本材料とする方法をPhrasal Analysis(フレーズ分析)と定義している。論文の構成は以下の通りである。


Introduction
1. Corpora, N-grams and Phrasal Analysis
1.1. Review of related literature
1.2. Tagged and Untagged Corpora in Language Research
1.3. N-grams 12
1.4. Phrasal Analysis (PA) 17
1.4.1. N-gram processing for PA 17
1.4.2. Value in contrast: the Leech-Fallon coefficient 19
1.4.3. Words, concordances and N-grams 28
1.4.4. The importance of PA with special regard to Japanese 34
1.4.5. Some theoretical considerations 37
1.5. A note on Perl Programming 42
2. The Corpus Data 43
2.1. Online Message Boards 43
2.1.1. Japanese Message Boards 43
2.1.2. Bulgarian Message Board 44
2.2. Literary Prose 45
2.2.1. Japanese Prose 45
2.2.2. Bulgarian Prose 45
2.3. Processing and format of the data 46
3. Corpus Analysis: Japanese 49
3.1. Japanese online discussion: exclusive findings 49
3.1.1. Graphological observations 49
3.1.2. Colloquial elements 59
3.1.3. Vocabulary 62
3.1.3.1. Innovative and alternative 62
3.1.3.2. Medium-specific 63
3.1.3.3. Katakana Words 67
3.1.3.4. Sexually-oriented 68
3.1.4. Discourse Elements 70
3.1.4.1. Interactive elements 70
3.1.4.2. Opinion-related phrases 72
3.2. Japanese Prose: exclusive findings 74
3.2.1. Narrative deixis (ND) 74
3.2.1.1. Time ND 74
3.2.1.2. Space ND 76
3.2.1.3. Personal ND 77
3.2.1.4. Logical deixis ND 80
3.2.1.5. Other examples of ND 81
3.2.2. Vocabulary 82
3.2.2.1. Chinese character words 82
3.2.2.2. XYXY N-grams 85
3.3. Case-studies in Phrasal Analysis 91
3.3.1. Boundary patterns and Personal Pronouns 91
3.3.2. Ko-/So-/A- 111
4. Corpus Analysis: Bulgarian 119
4.1. Online Bulgarian: exclusive findings 119
4.1.1. Graphological Observations 119
4.1.2. Colloquial Speech 133
4.1.3. Elements of discourse 142
4.2.Bulgarian Prose: exclusive findings 150
4.2.1. Boundary patterns 150
4.2.2. Vocabulary 160
4.2.2.1. Archaisms and nonstandard vocabulary 160
4.2.2.2. An age of turmoil 170
4.3. Case-studies in Phrasal Analysis 171
4.3.1. Boundary patterns 172
4.3.2. A few gender observations 177
4.3.3. Why? 183
5. Cross-country boarding 191
5.1. The point score 192
5.2. Further down the track 199
5.3. Discourse, Time and Space 205
6. Conclusion 224
Bibliography 229, Appendix 1 JFOR Contents, Appendix 2 BgFor Contents, Appendix 3 JLIT Contents, Appendix 4 BgLit Contents, Appendix 5 CASPHY Contents, Appendix 6 PERL SCRIPTS


二、論文の概要
 第一章ではまず先行研究の検討が行われるが、本論文が挑戦する課題はどの部分をとってもまだ新しい分野であって、研究の蓄積が豊富とはいえない。そのため本研究の目的に多少なりとも関連するさまざまな分野の研究を渉猟することになったが、核心部分を成す言語学分野の研究はさらに少なく、また内容も偏っていることが明らかにされる。関係する分野は大別して次のようなものであるが、各分野の先行研究の詳細な検討を行いながら、同時に自らの採るべき方法への到達過程を描いている。
1) CMC(Computer-Mediated Communication)研究に関するもの
2) コーパス言語学一般に関するもの
3) N-gram分析の方法とその応用に関するもの

1) について
 今日の社会生活におけるコンピュータ依存度の高まりを反映して、さまざまな視点からのCMC研究が展開されるようになっている。しかし現在のところやはり心理学、人間行動学、情報学的なものが主流であり、言語学的観点からの研究は非常に少ない。CMC研究の拠点的雑誌として知られる The Journal of Computer-Mediated Communication (Indiana University) を見ても、同誌上で発表される研究成果のうち言語を取り扱ったものは全体の1割にも満たない。それらの中には、コンピュータ上でやり取りされる言語形式の特異性が豊富な事例とともに記述され、独自の視点による考察が展開されているものもあるとはいえ、全体としては主観的指摘が中心で、数量的な実証にまで至っていないのが実情という。
2) について
 近年のコンピュータ技術の高度化によって、大量の言語データを分析の対象とするコーパス言語学が試みられるようになった。わが国でも日本語コーパス構築を目指す大型研究プロジェクトがさまざまな研究機関において進行中であり、その将来性に期待が寄せられている。マルチェフ氏はこれらの動向を検討し、次のような問題点を指摘する。即ち、現在のところ多くのコーパス研究は所謂「タグ付き」解析法を採用している。この方法では、単語(非自立語も含む)ごとにその特性情報(品詞などの形態論情報や、シンタックス情報等)のタグが付される。データが大量化するに伴い、ある程度自動的に判定してタグを付けるプログラムも開発されるようになったが、基本的には人力に頼らざるを得ず、当然ながらエラーが多い。特に単語ごとに文字列が区切られていない日本語では切り分けが必要となり、その作業量は膨大なものとなる。それでもタグの付されていない生のコーパスは言語の分析にとって有用性に欠けるとの意見が主流であり、上述のような大型プロジェクトでもまずはタグ解析にエネルギーが割かれているのである。マルチェフ氏はこうした現状から、大規模データの有効活用のためにも、「タグ付き」解析によらずにコーパスを活用する方法に挑戦すべきであると主張する。
3) について
 「コーパスの中にどのようなものがどのくらい含まれるかを計測したい」、マルチェフ氏の問題提起はここから出発している。書記言語データは文字列からなっている。その文字列を任意の数の文字ごとに区切ってこれを1文字ずつ順次繰り返していく。abcdefghijkという文字列を1個ずつ区切れば11個の単位が得られ、2個ずつ区切っていけば ab, bc, cd, de, …のような文字列が、3個ずつなら abc, bcd, cde, def, …のようになる。こうして得られた文字列ごとに出現数を計算して高い数値を示すものがあれば、それは何らかの「意味を持った」文字列である可能性が高くなる。このような方法を重ねれば、文法や語彙などの前提による制約を一切受けずに、どのような文字列がどのくらいコーパスに多く含まれるかが算出できるというのである。独自のプログラム開発によってこの方法を自分なりに確立したマルチェフ氏は、それがN-gramと称される解析法に属するものであることを発見した。
 N-gramは、情報処理研究においてClaude Elwood Shannonが自然言語を一種の確率過程とみなし、その数学的モデル化にこれを適用したことから、後にこの名前で呼ばれるようになったものである("A Mathematical Theory of Communication", Bell System Technical Journal)。氏は
N-gramモデルの適用が自らの課題に最も相応しいことをShannonによって確認し、次のように述べる。
In my opinion, the time is ripe for a more active use of N-grams in language research. The processing of text involved was prohibitively laborious at the time of Claude Shannon. Nowadays we have reached a stage where even an average personal computer is powerful enough to do this work. Moreover, gathering texts in electronic format to serve as data in such linguistic analyses has never been easier or the quantity of available texts bigger.

 以上のような先行研究の検討から、マルチェフ氏はタグ無しコーパスの分析にN-gram分析を適用し、数量化によってコーパスの特徴を実証的に把握する方法の確立を自らの課題と定め、その検証に挑戦することを決意したのである。 

 第二章は本研究で扱うデータや分析手順の記述に充てられている。インターネット掲示板からのデータ構築はどのようにしてなされるのか、N-gramはどのように適用されるのか、特異性を数値化する方法はどのようなものなのか、といったさまざまな手順がここで明らかにされる。また、インターネット掲示板から自動的にデータをダウンロードし大規模コーパスを構築するためには、データ・アウトプットの効率化を図り、かつ余分なものを自動的に取り除けるよう、プログラムを整備する必要もあった。こうした技術的側面もここで紹介される。
 本研究の言語コーパスは日本語、ブルガリア語双方ふたつずつのデータ群から成っている。即ち、インターネット掲示板のデータと、電子化により公開されている近代作家の散文作品データである。ふたつのデータ群を用意したのは、上述のようにN-gramを適用してインターネット掲示板の言語の特異性を炙り出すために、他との比較による差異値を算出して示すという手法を取るからである。即ち両コーパスのすべてのN-gramについて次の項目を計算し、行列として出力する。
[N-gram]:[第1のコーパスにおける頻度]:[第2のコーパスにおける頻度]:[頻度差の係数]:[統計学的検定]
対比させたいふたつのコーパスにおけるN-gramの頻度差を表す係数としては Leech & Fallonによるものを採用し(Leech (Geoffrey) and Fallon (Roger) 1992. "Computer Corpora - what do they tell us about culture?" in Sampson & McCarthy 2004. "Corpus Linguistics: Readings in a Widening Discipline", Continuum.)、これをLFとする。
LF=Frq(1) - Frq(2)/Frq(1) + Frq(2); -1<LF<+1
Leech & Fallonでの英語コーパスの分析では語の頻度数が提示されているが、本研究はタグ無しコーパスの利点を生かすためにも、その単位をMilton & Freemanが定義する「句読点を含めた、単語あるいは記号の任意連続」( Milton (John) and Freeman (Robert) 1996 "Lexical variation in the writing of Chinese learners of English" in Carol Percy, Ian Lancashire, Charles Meyer ed. "Synchronic Corpus Linguistics: Papers from the Sixteenth International Conference on English" (1996) Rodopi.)としての「フレーズ」と定義する。句読点で区切らず、さまざまな記号などもすべて含めた文字列を分析の対象にすることが、ここでは重要となる。
 次にコーパスの内容であるが、日本語のインターネット掲示板は人気の高い「2ちゃんねる」および「ザ掲示板」のふたつよりデータが収集されている。このふたつを選んだ理由はどちらも人気が高く、投稿数の多さや扱う分野が広いことである。人気の高い掲示板は他にも多いが、サイトの設計によって投稿以外の余計な情報が多すぎるなど技術的な問題があるという。「スレッド」(ある特定の話題に関する投稿の集まり)と言われる掲示板の項目のうち、1千件以上の投稿数のあるスレッドから60個を選んだ。1個のスレッドからはすべての投稿を採用することとした。投稿分野は趣味、哲学、社会問題、ニュース関連など多岐にわたる。一方の散文作品データについてはインターネット電子図書館として評価の高い「青空文庫」から、代表的な作家の作品を選んだ。「青空文庫」では旧字旧仮名や新字旧仮名など、作品によって多様な表記が用意されていることがあるが、ここでは分析の便宜上、新字新仮名遣いによるテキストのみから選別している。分析に際しては表記の問題も当然検討対象となってはいるが、ローマ字、平仮名、片仮名、記号などカテゴリーの別でくくっており、それ以上の異なりには踏み込んでいない。
 ブルガリア語についても、同様の観点からデータソースを選定した。最終的に日本とブルガリアの対照を行う目的からすれば、できるだけ同質的なものを選ぶべきであるが、残念ながらブルガリアには「2ちゃんねる」ほどの大規模な掲示板は存在しないという。そこで投稿数やデータ量を揃えるために、人気の高いものや投稿が特定の狭い分野のみに限定されない掲示板に絞り、サイトの数を増やすなどして対処した。 "KALDATA", http://www.kaldata. com/forums/, "АБВ Форуми", http://forum.abv.bg/ など4つのサイトから収集している。日本、ブルガリアともに2006年~2007年のものを対象とした。散文データについては「青空文庫」同様、近代文学作品の電子化テクストが公開されているものから("Slovoto", http://www.slovo.bg) 代表的な作品を選択した。
 以上のような収集方式により次のような規模のコーパスが構築された。
 
日本語コーパス: インターネット掲示板(JFOR)  3,751,474文字
 (24,186投稿)
散文作品(JLIT) 3,033,429文字
 

ブルガリア語コーパス:インターネット掲示板(BgFOR) 1,844,867語
 (32,504投稿)
 散文作品(BgLIT) 1,783,829語
(日本語は文字数、ブルガリア語は語数で算出、投稿数はほぼ同じ、文字数としては1 word=2.5~3と想定)

 ちなみに「青空文庫」で公開されている散文作品は現行の著作権存続期間50年が過ぎたものであることから、ここで得られる散文作品は1800年代末期から1950年頃までのものから選ばれている。日本においては現時点でまとまった形で文学作品の電子化データを獲得できるサイトが「青空文庫」以外に殆どないという事情もあり、この時期の作品に偏らざるを得なかったが、実はブルガリアにおいても近代文章語が確立し活発な文学活動が展開されるようになったのはほぼ同じ時期である。従って各2群ずつの2言語のデータは、時間的な意味でもある程度対称を成す形になっていると言える。
 いずれにしてもマルチェフ氏が散文作品データを対比の対象として選んだのは、あくまでもインターネット掲示板における言語行動の特徴を探る差異値を算出するためであって、両者の質的な違いを論ずるためではない。従って、方法論の検証として日本・ブルガリア双方の対照分析にも挑戦したい氏としては、このようにそれぞれで対比されるデータ同士にあまり大きな差がないことがより重要と言えるであろう。

 続く第三章では日本語コーパス・データ、第四章ではブルガリア語コーパス・データの分析がそれぞれ別個に記述されている。ともにほぼ同じ手順、視点に従って並行的に分析結果の記述が展開されるので、ここでは日本語の分析を例にまとめ、第四章についてはブルガリア語のみに特徴的とされる点を補足するに止める。
 ご承知のように、「2ちゃんねる」についてはその特異な言語表現についてたびたび話題になり、用語辞典のようなものも出版されている。中には「2ちゃんねらー」と言われる掲示板利用者以外にも受け入れられ、市民権を得ているものもある。しかし全体として一体何が、どの程度の頻度で現れるのか、どういう部分が「特異」と言えるのか、N-gram分析はどのような結果をもたらすのだろうか。
 N-gramデータは下のような形で提示される。ここに得られるN-gramは「見る」で始まる任意の長さの文字列であるが、一見してわかるように、意味的ないしは文法的な切れ目を前提としていない。このようにまずは純粋に文字列として観察するこの段階の分析を、氏は「フレーズ分析(PA)」と規定し、各文字列を「フレーズ」とするのである。

p    χ2     LF    N-gram       JFOR   JLIT
.001  311    0.65     見る         129   608.4
.001  20.2    0.88     見る。        1.6    24.6
.05   6.4     0.88     見るが        0.5   7.8
.05   3.9     1      見るがい            3.9
.05   3.9     1      見るがいい           3.9
.001  12.8    0.56    見るこ        9.1    32.1
.001  12.1    0.55    見ること       9.1   31.3
.05   5.7     0.62     見ることが      2.9   12.2
.05   5.5     0.86     見ることが出     0.5   6.9
.05   5.5     0.86     見ることが出来   0.5   6.9
.05   4.4     1      見ることが出来た       4.4
.001   214    0.76     見ると        45.3   327.9
.001   168    0.87     見ると、       14.9   208.8

表中のJFORは日本語インターネット掲示板データ、JLITは散文作品データを表す。LFはJLITに対するJFORの出現頻度、χ2はカイ二乗の検定値、またそれによって計測されるp(頻度の分布が偶然である確率)を、それぞれ表す。

このようにして得られるデータは膨大な量になるので、フレーズ分析で差異値の大きなものにまず注目する。
 散文作品との対比において差異値-1を示すもの、即ちインターネット掲示板側のみに現れる特徴の中で、何よりもまず目に付くものは表記上の特異性であった。従来の書き言葉では使用されることの少なかった「!」「!」「?」「~」などの多用、それも「!!!!」のように重ねて使用する例が高い出現率を示すことはある程度予想されたが、その中で最高値を示したものは「!!」で、他の記号使用を圧する勢いであるという。掲示板において頻繁に見られるようになったこの種の記号使用は、最近では携帯メールのやり取りの中で常態化している観があるが、こうした傾向は本来表記できないさまざまな感情表現を書き表したいという意識が生み出したものであろう。インターネット上(携帯メールも含め)でやりとりされる言語形式に、話し言葉的傾向が強いことはよく指摘されることであるが、多種の記号の中でどの形が、どのように、どの程度出現するのかについて数値化したデータは稀である。例えば「(汗)」、「(涙)」などの表現も同じ傾向を顕著に示すものであるが、こうした表現も「( )」との併用がポイントとなっているので、記号をも文字列から排除せずに抽出できるN-gramは、こうした新しい表現には非常に適した方法であることがわかる。
 これらの記号、もしくは記号的形式は文末に現れる確率が高い。従ってこうした記号の前に何がくるのか、即ち文末表現としてどういった組み合わせが多いのかを見ることもできる。インターネット掲示板では文末表現に「よね。」「だろ」「です!」「すよ!」のような口語的表現が頻出する。そのこと自体は我々が経験的に認識している事実と言えるが、本研究の行う分析はそうした表現形式とそれに続く記号の組み合わせの頻度を数値化して示し、インターネット掲示板における言語表現の口語的性格を実証的に示すことに成功しているのである。
 この利点はさらに、次のような分析を我々に可能にする。タグ付きコーパスであれば、当然ながら「。」でくくられた部分を「文」という一個の単位として区切ることになるであろう。タグの中に含める「主語」や「述語」などといった統語論上の規定は、文という単位内で成り立つものだからである。しかしタグ無しコーパスにN-gramを適用する場合には、「。」も一連の文字列の中に含まれ、ここを境界と定めて切り離す必要はなくなる。それによって我々は「。」という記号の両側にどういうものがどのくらいの頻度で現れるのか、つまり従来の「境界」を越えたつながりをも知ることができるのである。
 我々は言語分析を行う際に、どうしてもセンテンスをひとつの区切りある単位として前提にしがちであるが、インターネット掲示板のような場においては、吟味・推敲し、論理をつなげながら書くのではなく、話の流れの中で感じたままをその流れのままに書き込んでいく形がより多くなると想像すれば、分節的枠組みでは捕らえきれない問題が生ずる可能性も高くなる。「これ」「それ」のようなダイクシスなども、センテンス区切りに縛られないディスコース分析的な視点が必要な部分と考えられるが、今後コンピュータの計算能力がさらに高度になれば、理論的には指示するものとされるものの配置の様子を、長い発話全体やスレッド全体の中で特定することが可能になるかもしれない。マルチェフ氏の処理方法の可能性に期待が持てる部分である。
 分析結果についてはほかに多くの注目すべき特徴が指摘されているが、日本とブルガリアで特に違いの大きい要素として、ジェンダーに関係する表現が取り上げられている。例えばブルガリア語では形容詞の語尾は男性形と女性形が区別される(「若い」という形容詞であれば、男性形mlad、女性形mlada ―キリル文字をラテン文字に転写して示す[評者])。従って、実際はともかく、投稿者の性別をこの語尾から確定することができる。議論の中で頻繁に使用される表現として「同意します/しません」があるが、これは動詞「同意する(s’glasi)から作られる形容詞形s’glasenを用いて「私は同意する(その通りだと思う)」のように使われる。その際に話し手が女性であればs’glasnaとなるわけである。ブルガリアの掲示板ではこの形について、女性形のほうが男性形の2倍近くの頻度で出現するという結果が得られた。興味深いことに、他の形容詞形(「確かである(siguren/sigurna)」など)ではあまり差がないか、わずかに男性形のほうが多いという。一方の日本語のインターネット掲示板コーパスでは、男女差が現れると予測される文末表現や人称代名詞などでも、特定できないケースが多いという。日本語の散文作品データでは「彼」「彼女」「男」「女」の使用に顕著な頻度の違いが現れる(「女は」は「男は」の約2.3倍、「彼は」は「彼女は・かの女は」の約2.6倍)という。近代文学作品においては男性の登場人物が多く、女性は登場しても単に「女」とされることが多いのでは、との氏の指摘であるが、これについては文学作品に特異なスタイルや、社会言語学的背景についてより掘り下げた分析が必要であると思われる。
 ブルガリアのインターネット掲示板では、正書法として学校で教育される形からの逸脱がかなりシステマティックに現れるという点も指摘されている。例えば「(私は)知らない」のような否定表現の際に、ne[否定辞] とznam[動詞「知る」の1人称・単数形]を離して表記するのが正しい書き方であるが、neznam のように続けて書かれた例が5割に近い頻度で現れるという。ブルガリア語の将来的な変化につながるものであるのかどうか、興味深い問題である。

 第五章では、三章、四章で行った日本、ブルガリアそれぞれの分析を元に、対照言語学への応用を試みている。即ち、前2章でN-gramによって頻度の確認できた要素を用い、これを鍵として日本語・ブルガリア語の比較を行っている。日本語とブルガリア語の言語構造的異なりを考えると、例えばタグ付きコーパスであれば文法要素ごとの対照が容易となる可能性もあるが、タグ無しコーパスの活用で果たしてどのような対照が、どの程度可能であるのか、マルチェフ氏の分析に対する期待は非常に大きい。
 対照は三章、四章の流れに沿って提示され、表記上の問題ではやはり日本のインターネット掲示板における記号使用の頻度とヴァラエティの多さの突出していることが指摘される。興味深いことに「?」単独の頻度は両者で殆ど差が見られないが、「!」や、「!」と「?」の組み合わせの頻度は大きく異なる。例えば「!!」はブルガリア側が日本の約3倍、「?」と「!」の組み合わせ(「?!」もしくは「!?」)は約3.5倍の出現率を示す。文末に使用する記号、もしくは「(涙)」のような記号的形式の多様な日本に比して、ブルガリア語では「.」や「,」を除けば記号は殆ど「?」「!」に限られるので、さまざまな感情的ニュアンスもこれらを駆使して表現する以外にはないということになるのであろう。
 対照分析はさらに議論における「~と思う、考える」等の表現や、話題転換のための接続表現、人称代名詞など多岐に亘っている。例えば時間に関係する「今夜」「今週」「今月」「今年」などの表現の頻度に日本とブルガリアで目立った差が観察され、日本の方がそうした表現を多用しているという。また、投稿に際し日本のほうが最初の開始時の挨拶が多く、ブルガリアのほうが終了の挨拶が多いという興味深い指摘もある。こうした指摘は現段階ではまだ差異値からの注目程度でしかないが、上述の「時間」表現の差からさらに投稿時間の違いなどにも注目している点など、本研究における方法が純粋に言語形式の比較対照から社会言語学的、あるいはインターネット行動論的研究にも適用可能であることを示唆するものと言える。こうした広がりが言語分析にフィードバックされて新しい知見につながることを期待したい。

 第六章では結びとして、全体を通しての問題点と今後の課題の確認がなされる。マルチェフ氏自身、本研究における分析結果の多くが、一般的にインターネット掲示板に対して多くの人が経験的に抱いているイメージの追認以上に至っていない側面のあることを自覚している。しかし、そのいずれもがこれまでこれほどの規模のコーパスによって実証的に示されたことのない問題であり、むしろ経験的イメージが数値的に確認できたことで、N-gramによる分析の有効性が示されたと言ってよいのではないか、その意味でタグ無しのコーパスによる分析の可能性自体は充分に検証できたと総括している。
Finally, let me conclude this paper on N-grams and N-gram comparison with a simile. Quantified phrasal patterns produced from a corpus of texts give us an objective snapshot of the language used in a given register, but it is very difficult to analyse this data in its entirety because of its very large volume (larger than the original corpus). An interesting and informative exercise in Phrasal Analysis could perhaps be better likened to a caricature - it is not the same as the real thing but the artist has picked out salient traits of the subject and juxtaposed them in such a way that they become easy to spot and convey in condensed form something arguably significant. My sincere hope is to have been able to highlight a few important socio-linguistic phenomena in this particular exposition.

  社会言語学は個々人の社会的属性と言語的差異の関係に注目してきた。しかしインターネット上ではそうした属性は殆ど意味をなさず、仮に情報があったとしても正確であるとは限らない。そこは極めて匿名性の高いコミュニケーション行動が展開する場なのである。従って、今後この新しいコミュニケーション行動に対して社会言語学はどのような取り組みをしていくのか、その際にN-gram分析はどのような貢献ができるのか、第五章に見えるさまざまな可能性の片鱗をつなげることが今後の課題と言えよう。


三、成果と問題点

 コーパス言語学の可能性が言われるようになって久しく、大型のプロジェクトも進められているが、いずれもまだ目覚しい成果を世に問うまでに至っているとは言えない。その原因のひとつとして、コーパスによって「どのような知見を」、「どのような形で」獲得したいか、といった問題意識とコーパス設計とが明確には関連付けられていないことが挙げられるのではないだろうか。高度なコンピュータ技術が我々人文科学研究者にも充分手の届くところに近づいた感のある今日、大規模コーパスの構築自体は我々にも決して不可能なことではなくなっている。本論文はまさにそうした状況で言語研究を目指す者が、「何が知りたいか」という強い探究心に動かされて、「どのような形で」知りたいことに到達するかを徹底的に追及した成果であると言える。プログラム設計などの技術的側面にかなりの知見・経験が必要となることは勿論避けられないが、それでもなお人文科学研究者が独自に取り組む意義は大きい。本論文の成果について、まず最初に言及したいのはこの点である。
 第二に、そのコーパスの扱いについて、敢えてタグ無しコーパスの活用に挑戦した点も、先端的研究として評価に値するものであることを強調したい。日本語学等の研究者の殆どがタグ無しコーパスを有用性なしと見なし、タグ設定に膨大な労力を割いている現状ではあるが、タグ無しコーパスの活用にも可能性のあることは本論文からも明らかである。それは、ただ単に人力によるタグ解析に依存せずに済むからだけではない。あらかじめ辞書的情報によって恣意的に単位を区切ってしまうと見えなくなるような問題があることを、本論文の分析は示している。マルチェフ氏の実践したフレーズ分析によって、例えば通常は言語記号に含めにくい記号なども文字列として観察の対象になること、さらにはセンテンス区切りを越えた配置も視野に入れることができることなどが明らかになった。本研究の範囲では計算量の限界を考慮して、N-gramとはいっても扱う文字列は8文字までに制限しているというが、今後コンピュータの処理能力がますます高まれば、より長い文字列を分析範囲に含めることもできよう。インターネット掲示板を例にすれば、ひとつの投稿全体や、さらにはスレッド全体に適用して、テーマの受け継ぎや発展の流れを観察したり、指示語や代名詞の機能を語用論的に解明することも可能になるかもしれないし、非連続的な文字列にまで適用する方法が開発されれば、さらに可能性は広がるであろう。また、タグの設定作業はどのように綿密に行ってもミスを完全になくすことは難しい上に、依拠する辞書的情報は現時点までのものであって、書き言葉に話し言葉的要素がますます増えると予想される今日、変化に対応しうる柔軟性を維持するという点では、タグ無しコーパスにこそ有用性があると言えなくもない。マルチェフ氏も言うように、タグ付きコーパスもタグ無しコーパスもそれぞれに優れた点があり、両方を並行的に行うことができれば理想的であろうが、少なくとも現時点でタグ無しコーパスの活用を排除すべき理由はどこにもない。
 以上述べたように、本論文は将来的可能性に満ちた方法論の提起であり、その果敢な挑戦と厳密な分析方法の模索は大いに評価すべきである。とはいえ、本論文にはまだまだ課題が多いことも指摘しておかねばならない。その第一は、性格の異なるコーパスとの対比という手法は確かに本研究の重要な枠組みであるが、対比するデータの性格によってどのような結果の違いが生ずるのかについてはまだ検証がなされていないことである。第二に、フレーズ分析の結果氏が見出したさまざまな問題点はいずれも興味深い事項であり、それぞれが個別に言語研究の新しい分野となる可能性を示唆するものであるが、いまだ問題点をさらに掘り下げて論ずる段階にまで至っておらず、興味深い観察結果の羅列に終始している部分もなくはないことである。その第三は、氏が日本語・ブルガリア語それぞれの分析を経て両者の対照に挑戦している点について、その試みは評価できるものの、どのような要素をどう比較対照するのかについて、枠組みのより充分な検討が望まれることである。現段階では対照文法の新しい方法を提起したとまで言えるレベルには達しておらず、もう一度両言語の構造分析に立ち返って基礎的枠組みを確認した上で、新たな取り組みが必要ではないかと思われる。
 このような課題はあるものの、いずれも本論文の成果を元に今後の研鑽によって克服し得るものであり、独自性・実証性ともに高いレベルに達している本論文の価値を揺るがすものではない。

四、結論

 審査員一同は、上記のような評価と、5月7日の口述試験の結果にもとづき、本論文が当該研究分野の発展に寄与するところ大なるものと判断し、本論文が一橋大学博士(社会学)の学位を授与するに値するものと認定する。

最終試験の結果の要旨

2008年6月11日

2008年5月7日、学位論文提出者マルチェフ ミレン氏の論文について最終試験を行った。試験においては、審査員が、提出論文「Phrasal Analysis of Untagged Corpora: Online Conversation and Written Language(タグ無しコーパスのフレーズ分析―オンライン会話と書き言葉―」に関する疑問点について逐一説明を求めたのに対し、マルチェフ ミレン氏はいずれも十分な説明を与えた。
 よって審査委員一同はマルチェフ ミレン氏が一橋大学博士(社会学)の学位を授与されるのに必要な研究業績および学力を有することを認定した。

このページの一番上へ