【デジこれ08】分野バランスに気を配ろう

デジタル辞書の現在とこれから」第8回は「分野バランスに気を配ろう」。“百科語と専門語”の話です。

※このブログ連載は、2022年7月の日本電子出版協会(JEPA)セミナー「デジタル辞書の現在とこれから」の内容を、(我ながら呆れるくらい駆け足でしたので)補足しながらまとめなおしたものです。

前の記事【デジこれ07】数で勝負するのはやめよう


百科分類

辞書事典の企画編集・(常時)改訂の中で、何かしらの分類体系基準をもち、ユーザニーズに気配りしつつ、各分野の比率や実数を把握・意識しながら編集(立項)していくことは重要です。

下の図は『日本大百科全書(ニッポニカ)』(小学館)の、収載14万項目に付与されている百科分類情報をグラフにしたものです(※許可を得て筆者が作成)。全体を俯瞰して「この分野が弱いのではないか」、特定の分類(中分類、小分類)に注目して「採録モレはないだろうか(AがあるのにBがない)」といった、分野バランスと要収録項目の気づきをここから得つつ、常時改訂の軌道調整を行っているものと推察できます。

百科事典のほかに、百科項目を多く含む大型の国語辞典なども、独自の分類体系をもつものが多いようです。学習系コンテンツでは教科分類を取り入れることもあります。また、百科の体系的な分類に併せて、人名という切り口や、地域分類(国名コードや全国地方公共団体コード)・時代区分(歴史学的時代や地質学上の時代)をクロスさせると、より実用的な多層分類が構築できます。

分野ラベル

英語をはじめとした外国語辞典の多くでは、専門用語(百科語)にラベルが付与されています。主にその専門分野でのみ使用される語であることを示したり、専門分野によって意味や訳語が異なってくることを示すのに用いられています。

ra・dix[réidiks]n. (pl. rad・i・ces,ra・dix・es)
 1〔数学〕基,基数:対数の底のように特定の数の系統の規準となる数
 2〔植物〕根(root).
 3〔解剖〕(脳・脊髄神経などの)根.
 4〔文法〕=root1 8.
 5〔哲学〕根原.
 [1571. <ラテン語 rɑ̄dīx 根. →ROOT1

『ランダムハウス英和大辞典 第2版』(小学館)より部分引用

ちなみに国語辞典ではこのようなラベルはあまり見かけません。「一般に、…」等に対して「哲学で、…」「サッカーやラグビーなどで、…」等と文章で示されることが多いようです。

さてこの専門分野ラベル、体系的に分類整理されたものは多くないようです。

A社
英和辞典
B社
英和辞典
C社
英和辞典
D社
英和辞典
ラベルの異なり数 1050 1247 1345 1246
出現数の多い
ラベル
1 化学 植物 植物 コンピュータ
2 植物 化学 化学 植物
3 海事 動物 動物 野球
4 病理 コンピュータ 海事 化学
5 物理 病理 生物 医学
6 法律 法律 病理 動物
7 医学 医学 法律 音楽
8 数学 言語 数学 生物
9 音楽 音楽 医学 法律
10 解剖 物理 電気 物理
1度しか使わ
れないラベル
367 549 532 555

上の表でベスト10に入った専門分野はいずれも1000回以上出現する王道ラベル。どうして〔海事〕はそんなに多いんだろうとか、D社はとにかく〔野球〕に詳しいのねとか、これだけ眺めていても楽しいです。

問題なのは、各辞書でのラベルの異なり数が多いこと(1000種類以上!)、そして1度しか使われていないラベルも多いことです。ラベルの異なり数の多さについては、〔ラクロス・ホッケー・バスケットボールなど〕とか〔米陸軍・米空軍・米海兵隊・英陸軍・英海兵隊〕とか複合ラベルが多いことも一因です。一方で、〔西洋すごろく〕〔ハイアライ〕〔ビー玉〕〔ラウンダーズ〕等々、1度しか出現しない“レア”ラベルも多く、専門分野ラベル≒「○○用語」の感覚で出会うと戸惑ってしまいます(楽しいんですけど)。

とはいえ、書籍であれ、デジタルであれ、その項目の記述内容を理解する上では大きな障害とはなっていないようです。〔キリ〕はキリスト教で〔クリ〕はクリケットね、とか、〔玉突〕…ああ、ビリヤードね、とか、なんとなくわかります。

ただ、デジタルの立場からすると、収録項目が10万を超えるようなコンテンツで、数千ものラベルを持っているのであれば、それは「コンピュータ用語辞典」「化学小辞典」「植物小辞典」を内包しているといっても過言ではなく、そのラベルを使って分野の絞り込み検索を実現したい、と考えてしまいます。実際に、最初に触れた百科事典や国語辞典ではそのような検索が可能なものもあります。

そのためにはもう少し分類ラベルを整理した方が良さそうです。表示は現状のままで、今あるラベルを頼りに表には出ない分類情報を付与しておく方法もあります。

それでも、ラベル名の“揺れ”は整えておいた方がいいでしょう。〔コン〕〔コンピ〕〔コンピュ〕〔コンピュータ〕〔コンピューター〕〔電算〕…これ、実際に1冊の辞書の中で使用されていたラベルの例です。

あとラベルの分類や出現頻度などの調整も。〔英教会法〕〔英刑法〕〔英森林法〕〔英税法〕〔英法〕〔英法史〕〔英法律〕〔主に英法律〕…これも1冊の辞書の中から拾ったラベルですが、「イギリス独自であること」「法律関連であること」「宗教や税務など特定分野に関連したもの」など様々な観点があります。このあたりを考慮するに、デジタル辞書では「大まかな分類」と「個別のテーマのハッシュタグ」といった組み合わせがあっても面白いかもしれません。

最後にもうひとつ。あたりまえのことなんですが、専門用語ラベルは“特記事項”として用いられていて、分類側の観点からは決して網羅的ではないことが挙げられます。例えば「book」では、〔音楽〕〔ジャズ〕〔演劇〕〔トランプ〕〔スポーツ〕〔証券〕〔鉱物〕〔サッカー〕〔簿記〕〔カトリック〕〔旧約〕〔ラグビー〕〔競馬〕〔会計〕〔野球〕〔コンピュータ〕〔野球〕等、様々なラベルが与えられていますが、誰もが思いつく意味での分類はありません。「出版関連用語集」とか「ホテル業界キーワード」等といった専門用語集を参照して“隠れ分類”を付け足していくのも“コンテンツのリッチ化”のひとつの選択肢だと思います。

類語辞典とのハイブリッド

分類体系の適用を突き詰めれば類語辞典に行き着きます。国語辞典や英和辞典など、収録項目のすべてに分類を適用する必要はないと思いますが、階層構造をもった分類体系を利用して“類語”群にアプローチできるインデクスや、任意の項目から類語や上位・下位の分類に遷移できるインタフェースは、是非デジタルで実現したいものです。ただ、類語辞典の一部として表示される語義語釈は従来の記述とは違ったものになってくると思います。そのあたりの対応もこれからの課題だと考えます。