【デジこれ07】数で勝負するのはやめよう

「デジタル辞書の現在とこれから」第7回は「数で勝負するのはやめよう」。“収録数とかサバ読まないで”という話です。

※このブログ連載は、2022年7月の日本電子出版協会(JEPA)セミナー「デジタル辞書の現在とこれから」の内容を、（我ながら呆れるくらい駆け足でしたので）補足しながらまとめなおしたものです。

「類書中最大、○万語を収録!」みたいな宣伝文句をよく見かけます。「辞書で調べてみたけど載ってなかった」という経験は誰にでもあり、その不安を事前に払拭して、特に他社商品との比較検討において優位に立とうという目的かと思われます。

さて、辞書コンテンツをデジタル化（XML化）すると、見出し語も、用例も、あらゆる要素が1桁単位で明確にわかるようになります。すると大抵、上の宣伝文句と数が合いません（もちろん、上の方です）。デジタル化後の詳細な数値が一般に公開されることはありませんが、少なくともコンテンツを提供するベンダーさんには説明しないといけません。

以前、某辞書をデジタル化したらとある要素の数が公称の71％しかありませんでした。いろいろ調べてみると、印刷会社さんに依頼したカウント（概数）が、編集部、宣伝販売部署と引き継がれていく中で四捨五入（もちろん切り上げ）されたようです。これが前版の話。改訂の際に、「これこれのボリューム（もちろん切り上げ）を増補したから」とそのまま加算。並行して削除されたものがカウントされないまま、部署間で数字が引き継がれていく中で以下同文。おおらかな時代にあった笑い話です。

現在では編集段階および組版システムのデジタル化がさらに進んでいるので、上で紹介したような笑い話のようなことは起きず、より正確な数字を読者・利用者に提示できるようになって、いま…す……あれ？

一般英語辞書の項目数（公称数／XMLでの実数）

辞書Ａ　118%
辞書Ｂ　114%
辞書Ｃ　109%
辞書Ｄ　111%
辞書Ｅ　120%
辞書Ｆ　 94%
辞書Ｇ　103%
辞書Ｈ　120%
辞書Ｉ　124%
辞書Ｊ　114%

５社10冊をランダムに並べています。公称数が実項目（派生語、複合語、成句等の子見出しも含めています）より1～2割多いのは、「theater, theatre」のような見出し語や、「That’s [It’s] all right.」のような成句を、それぞれ2つとカウントしてるからだな、きっと。

学習英語辞書の項目数（公称数／XMLでの実数）

辞書Ｋ　145%
辞書Ｌ　135%
辞書Ｍ　134%
辞書Ｎ　172%
辞書Ｏ　147%
辞書Ｐ　121%
辞書Ｑ　120%
辞書Ｒ　119%
辞書Ｓ　140%
辞書Ｔ　142%

こちらも５社10冊。公称数が実項目より2～5割多いのはどうしたものかと（7割多いのは論外）。変化形（複数、三単現、過去・過去分、現分等）をカウントしているのが大きいのだと思いますが、それにしても、各社各辞書独自のカウントルールに従っていたのだとしても、購入者が通常思い描く項目数と乖離していることは明らかです。

少なくとも学習辞典においては、すなわち、自分の学習目的や理解レベルに合った１冊を選べるほど辞書に慣れていない読者を相手にするのであれば、項目数のカウント方法をシンプルにした上でわかりやすい場所に明らかにすべきだと個人的には考えます。項目数や用例数について、学習辞書出版社間で統一ルールを作った方がいいのでは？とも思います。

最近の学習辞典は「オールカラー化」と「総ルビ化」の流れがどうしても目立ちますが、その内容・見せ方においても様々な工夫がなされていて、大人が読んでも学びと発見があるすばらしいコンテンツに進化しています。項目数の方が直接的にアピールしやすいのはわかるのですが、自分に合った１冊を見つけてもらうため、それぞれの特性・特長を、そこから得られる「調べる習慣」と「知る喜び」を、もっと強力にアピールしてもらいたいと思います。

オマケ：国語辞書の項目数（公称数／XMLでの実数）

一般国語辞書Ｕ　105%
一般国語辞書Ｖ　101%
一般国語辞書Ｗ　103%
学習国語辞書Ｘ　108%
学習国語辞書Ｙ　101%
学習国語辞書Ｚ　102%

比較的優等生でした。

【デジこれ08】分野バランスに気を配ろう