イスラーム地域研究 現地語資料の探し方(2015年版)

 

 

より精確に検索するために~アラビア文字、翻字、正規化の話

ここでは、もう一度、タイトル・著者名の検索に戻り、より精確に検索するために必要な、翻字や文字コードに関する情報について説明します。

CiNii Booksで検索することのメリットは、複数の機関の所蔵を一度に検索できるということだけではありません。図書検索システムに不可欠な正規化システムが、アラビア文字についても整備されており、このため、表記の揺れによる検索漏れを最小限に抑えることができます。

正規化とは?

私たちが日常生活の中で同じ文字だと認識している小文字のaと大文字のA、あるいは全角の「ア」と半角の「ア」は、コンピュータ上では別のコードを持った全く別の文字とみなされます。従って、「ムハンマド」と「ムハンマド」(半角)では検索結果に大きな違いが出てしまいます。

そこで、多くの検索システムでは、こうした表記の揺れによる検索漏れを抑える工夫をしています。NACSIS-CATにおいては、書誌データの登録時に、システム内部でひらがなや半角カタカナを全角カタカナに、ラテン文字の小文字や外字をASCII文字の大文字に置き換えて正規化された形の検索用インデクスを自動的に生成し、これによって検索を行っています。また漢字の旧字や異体字も正規化されます。

 

検索用インデックスの表

NACSIS-CATにおける検索用インデクスの例。出典:『目録システム利用マニュアル』第5版、国立情報学研究所、2003年、71頁。

 

 

 

多くの検索システムでは、このような処理が行われているために、私たちは大文字でも小文字でも同じ検索結果を得ることができるのですが、アラビア文字やあまり使われてないラテン外字についても正規化処理を行っているものは多くありません。CiNii Booksではアラビア文字についても正規化システムが整えられているので、アラビア文字資料の検索に適していると言えます。特に、アラビア文字の場合、母音符号や二重子音符号(シャッダ)の有無などによって、同じ単語が何パターンもの形で表記されうるため、正規化システムが欠かせないものになっています。

正規化なしDBの図

正規化処理がないと、表記の揺れにより検索がうまくいかない。

正規化処理を施すことで、ヒットしやすくなる。

正規化処理を施すことで、ヒットしやすくなる。

 

ローマ字で検索するときの注意点

既に説明したように、タイトルや著者名はローマ字とアラビア文字のどちらでも検索することができますが、研究書や論文の参考文献などを頼りに検索するときは、ローマ字で検索することが多いでしょう。しかし、それらの文献で用いる翻字方式は、図書館で用いられる方式とは異なりますので、そのまま入力して検索してもヒットしないことがあります。

例えば、先行研究の文献目録に、Ibn Ṭūlūn. al-Qalā’id al-Jawharīya fī Ta’rīkh al-Ṣālihīya. という資料が挙げられており、その資料を自分でも読んでみたいとき、このローマ字のタイトルをそのままCiNii Booksに入力して検索しても、見つけることはできません。

CiNii Booksでこれを検索するときは、これを原綴のアラビア文字に直すか、ALA-LC Romanization Tables(1)以下の URL から参照できます。http://www.loc.gov/catdir/cpso/roman.htmlに沿った翻字方式(以下、LC翻字)に直してやらなければなりません。アラビア語を例にとってみると、以下のように、LC翻字と研究論文等で使われる翻字方式には若干の違いがあります。

Cambridge History of Islam 風:
Ibn Ṭūlūn. al-Qalāʾid al-Jawharīya fī Taʾrīkh al-Ṣālihīya
② LC 翻字(アラビア語):
Ibn Ṭūlūn. al-Qalāʾid al-Jawharīyah fī Taʾrīkh al-Ṣālihīyah
Encyclopaedia of Islam (2nd “New” ed.)風: (2)尚、最新版である Encyclopaedia of Islam Three では Cambridge History 風翻字が採用されています。
Ibn Ṭūlūn. al-alāʾid al-Djawhariyya fī Taʾrīkh al-Ṣālihiyya

LC 翻字では、アラビア語の ة (ター・マルブータ)の部分を-ah と翻字します。次にくる語との接続関係によっては、-at と翻字することもあります。したがって、どちらでもヒットさせるには、jawhariya* のように、変化する可能性のある語尾の部分をアスタリスクに置き換え、前方一致検索をするとよいでしょう。

尚、この翻字規則は、アラビア語、ペルシア語、オスマントルコ語、ウルドゥー語、ウイグル語、etc.と、言語ごとに異なっています。それぞれの言語の翻字規則の概要を知っておくことは重要です。

その際、LC 翻字形を用いてCiNii Booksで検索する場合には、ā や Ṣ などの特殊文字は正規化されるので、aやsに置き換えて検索できます。またハムザやアインを表す「ʾ」や「‘」(NACSIS-CAT では「ʾ」と「ʿ」)は省くことができます。また、al-や bi-、li-など、ハイフンでつながれた冠詞や前置詞も省くことができます。

正規化によって検索が容易になっているとはいえ、翻字規則を正しく知らなければ、いくら検索しても目的の資料を見つけることはできません。また、書誌の翻字が間違っていれば、正しい形で検索してもヒットしません。このため、アラビア文字で検索してみることも忘れてはなりません。

アラビア文字で検索する方法

アラビア文字で検索する最大のメリットは、翻字規則を知らなくても良いということに尽きます。特に、ペルシア語のように、現代語の発音と翻字の母音体系が著しく異なる場合、翻字規則を考えるよりアラビア文字で検索するほうが手っ取り早いと言えるでしょう。

CiNii Booksにおいてアラビア文字で検索をする際には、タンウィーンやマッダ、シャッダ、また文字の上下についたハムザなどは省略できます。しかし、注意しなくてはならないのは、定冠詞や前置詞がついた語は、その通りの形でないとヒットしないということです。従って、ある単語をキーワードとして検索する際には、定冠詞や前置詞をつけた形とつけない形でそれぞれ検索しなくてはなりません。

   [ + ]

1. 以下の URL から参照できます。http://www.loc.gov/catdir/cpso/roman.html
2. 尚、最新版である Encyclopaedia of Islam Three では Cambridge History 風翻字が採用されています。

1 2 3 4

«