学習院大学 東洋文化研究所The Research Institute for Oriental Cultures

研究プロジェクト

一般研究プロジェクト

A21-1 唐宋八大家散文の計量言語学的研究(2021年度)

 

構成員
代表研究員 久保山哲二
研究員 莊卓燐
客員研究員 東英寿 宮原哲浩
(1)研究の目的・意義

本研究は,中国文学史上に大きな足跡を残した唐宋八大家について,その散文の特色を総合的に研究することを目的とする。唐宋八大家とは,中国の唐代の韓愈,柳宗元,宋代の歐陽脩,蘇軾,蘇洵,王安石,曾鞏八人の散文の大家で,彼らの文章は現在の中国の文章にも繋がる特色を有している。これまで,唐宋八大家については,個別の考察を除けば,唐宋八大家全体に論究する場合,その多くは概論,概説的考察に止まっていた。本研究では,まず,唐宋八大家散文の詳細なコーパスを構築する。次に,このコーパスを用いて唐宋八大家散文のテキストの類似性や経年変化を,統計的手法や機械学習の手法を用いて計量的に分析し,唐宋八大家散文の特色を考察する。例えば,唐宋八大家散文に見られる虚詞や対句数,文字数,文章に占める句数等に着目して統計的手法を用いて調査し,さらに,「記」,「書」,「論」等の作品ジャンルごとに,横断的に散文の特色を明らかにし,唐宋八大家散文の特色を多角的側面から明らかにする。これらを通して,唐宋八大家全体の散文の特色を計量的に明らかにする。
 このように詳細なコーパスを構築して唐宋八大家の散文全体の特色を遠読(計量的な分析)と精読(質的な分析)のアプローチを通して,見通す試みは,これまでの唐宋八大家の研究では行われておらず,ここ本研究の学術的独自性,創造性がある。また中国文学においては,唐宋八大家それぞれの個別の研究は数多いが,それらは全てを一体化させて,その特色を計量的に析出しようという研究は皆無であり,本研究は大きな意義を持つと言える。

(2)研究内容・方法

【唐宋八大家のテキストのコーパス構築】コーパスの構築にあったては,台湾の中央研究院を代表する漢籍のフルテキストデータベース『漢籍電子文献資料庫』(hanji.sinica.edu.tw),および,中国古典テキストの世界最大のクラウドソーシング翻刻サイトChinese Text Project(ctext.org)から,唐宋八大家のテキスト収集し,形態素解析ツールによってテキストを形態素に分解しデータベース化する。また,本作業の完全な自動化は困難であることから,人手による修正作業を行う。
【文書の特徴量設計】唐宋八大家を総合的に分析し,以下の2つの観点からテキストの特徴量の設計を行う。(1)唐宋八大家の各々の文人の文体の癖を特徴づけるテキストの特徴量を設計する。この特徴は,テキストのトピックとは独立していることが好ましい。たとえば,テキストに使われている「而」,「於」,「乎」等の助字の出現頻度や文長の分布を考える。(2)同じ著書による文体の時系列変化を考察するための特徴量を設計する。
【特徴量に基づく分析】設計した特徴量をもとに,機械学習の手法を用いて著者の推定を試みる。クラスタリングおよび,教師付き学習による著者推定により,特徴量を妥当性を検証し,著者ごとの文体の計量的な特徴を明らかにする。さらに,古文と対極に位置する文体である駢文の分析を通して,逆に古文の特徴を浮かび上がらせる。駢文は,四六文と言われるように四字句や六字句等の形式を重視するので,駢文の長文分布は分布中に不自然な偏りが生じる。当時,実用的文体には駢文が用いられていたので唐宋八大家も駢文を作成している。そこで,彼らの駢文に見られる偏りの度合をもとに両文体を計量的に考察し,同じ著者によるテキストの時系列変化を踏まえて,駢文と比較する手法で古文の特色を分析する。
【研究組織】以下の役割分担で研究をすすめる。
久保山哲二:機械学習・データマイニングを専門としており,本研究の中心的な方法論となる機械学習・統計的手法に基づく計量言語分析を総括する。
東英寿:唐宋時代の漢籍文体論の専門家であり,国内欧陽脩研究の第一人者である。2011年には欧陽脩の書簡96編をあらたに発見し,その真正性を示した業績で国際的にも広く知られている。従来研究で得られた知見に基づき,本研究の学術的な意味付けを行う。
莊卓燐:秦漢時代を専門としており,唐宋八大家が理想(モデル)とする散文に対して知見を有する。古典中国語の立場から,文体の特徴量設計における助言,および分析結果に考察を行う。
宮原哲浩:機械学習・データマイニングを専門としており,データ分析を担当する。