ベテランのMacユーザであり、専門分野であるイオンチャネルの分子薬理学研究の傍ら、ライフサイエンス辞書(LSD)プロジェクトを10年以上にわたって牽引されてきた金子先生にLSDプロジェクト、特に医師とっての利用価値について、そしてMacの利用法ついてお話を伺いました。
1日約70,000件のヒットを誇る「WebLSD」とは
インターネットで無料公開している電子辞書WebLSDの最大の特徴は、ベースとなる用語をNLM(アメリカ国立医学図書館:National Library of Medicine)のPubMed(オンライン医学文献検索サービスMEDLINEデータベースのインターネット版)で公開されている膨大な論文から統計的な解析によって、出現頻度の高い語句を抽出し、客観的な尺度で効率的に語彙カバー率をあげているという点にあります。金子先生によると、現在、1日にヒットする検索の数は土日も含めて平均約70,000件。「最近はプロキシサーバが多いため、ログを解析しても延べ人数で何人が使っているか把握できませんが、やはり大学からのアクセスが多い傾向がありますね。」(金子先生)。
今まで大々的なPR活動は行わず、学会でパンフレットを配ったり、知り合った研究者や学生に“布教活動”をすることでWebLSDの認知度を高めてきました。「WebLSDの認知率は、まだライフサイエンスを扱う研究者の半分まではいっていない」と金子先生。一方で生化学や医学、歯学、薬学以外の分野、例えば農学、工学などからのアクセスも想像以上に多いそうです。「WebLSDで新規に送られてくる言葉を見ると、我々もあまり詳しくない光学分野だったり、植物学の分野だったり。そう言う意味では非常に幅広い人たちに利用されていることが分かります」。
WebLSDの特徴をもうひとつ挙げるとしたら、「生きた辞書」であるということ。「『ステッドマン医学大事典(メジカルビュー社)』のような確立した標準辞書ではないものの、毎年、用語が更新され、前述したように各専門家からの新規登録も受け付けているため、つねに最新の状態が保たれているわけです。このところ、特に医学・薬学系ではゲノム科学の進歩が著しく、ゲノム関連用語が次々と出てきています。こうした新しい言葉をタイムリーに収録できるのがWebLSDの魅力と言えるでしょう」。
最近の進化著しいゲノム科学の日本語テキストの傾向を見て、金子先生が憂慮する点があると言います。それは全体の3割が漢字を使った“日本語”に訳されておらず、カタカナ外来語と英語でそのまま使っている語句が多いということです。「すべてを日本語にする必要はありませんが、これでは意味が伝わりにくく、教育にも使えない。何とかしないと日本の翻訳文化が破綻してしまいます」と金子先生。
始まりは「我々が使いやすい辞書を作ろう」
金子先生がLSDプロジェクトを始めたのは’93年です。当時からコンピュータを利用し、専門用語の漢字変換がスムーズに行われないことに不都合を覚えていた金子先生は、自らコツコツと用語を集め、NIFTY-Serveのパソコン通信で公開。そこに賛同した6人のパソコン通信仲間でプロジェクトをスタートする運びとなりました。また、内容もかな漢字変換から和英・英和や用法・用例へと拡大と遂げます。「当時は無料のPubMedはなく有料のMEDLINEでしたが、まず、MEDLINEから抽出した3年分の抄録を解析し、単語数を数えました。使用頻度の多い言葉から辞書に登録するのが最も効率がよいと考えたわけです。その結果、約22万語の単語がありました。次に、この22万語のうちどれくらいの言葉を集積したら学習者に十分な辞書になるか調べたところ、4万6,000語ぐらいを網羅すれば、抄録全体の98%がカバーできることが分かった。そこで、当面はその数を目標にしました」と金子先生。ちなみに各学会の用語集に載っている単語数が1万数千語、ステッドマン医学大辞典で10万語程度。「4万6,000語ならその中間ぐらいなので、実現可能なサイズだろうという結論に達したわけです。ただし10年かかりましたが」。
現在英和で約4万6,000語、和英で約4万語を揃え、まずは当初の目標を達成したLSDプロジェクト。現在は、LSDをベースに日本語のライフサイエンスコーパス作成とその解析、そしてPubMedのシソーラスであるMeSH(Medical Subject Headings)を参考にした対訳シソーラスの構築作業が進行中です。「日本語と英語を併記したシソーラスはあまり存在していない」という現状から、まずは実際に使われている英語と日本語を同時に集めるという基本スタンスで、MeSHの日本語マッピング作業も並行して行っています。現時点ではほぼMeSHとLSDの単語レベルでのマッチングを終了。MeSHのツリーには7万5,000語ぐらい登録されています。LSDプロジェクトではまず、そのなかの頻出4万語を網羅したい。LSDにはすでに4万語以上入っていますが、調べると、2万語ぐらいMeSHとの差分があった。そのかなりの部分が既に収録されている単語の組み合わせということも分かりました。例えば“Acute” “Myelogenous” “Leukemia”という単語はそれぞれ“急性” “骨髄性” “白血病”という日本語としてLSDに入っていますが、その組み合わせ“Acute myelogenous leukemia”、つまり“急性骨髄性白血病”という言葉として登録を追加する、といった作業が必要になります。これについては2年ぐらいかけて完成できればと思っています」(金子先生)
対訳シソーラス構築で日本語を再認識
対訳シソーラスを作る作業に入り、いくつかの問題に直面したとのこと。その原因は複雑な日本語をどう体系的に分類するかということにあったそうです。「シソーラスにはいろいろな考え方がある上、単純に体系づけられるものと、概念や現象のように体系づけにくいものがあります。例えば物質名や基礎科学から生まれた言葉はきっちりと体系付けられるものの、現象である病名は見方によって異なるため、例えばMeSH、ICD-10、MedDRAでそれぞれ考え方が違います。LSDプロジェクトのシソーラスはとりあえずMeSHをリファレンスにしてますが、LSDプロジェクトの立場はどれかに従うということでなく、すべてに対してリンクを張ればいい、という考え方です。ユーザが使う局面で選んでもらうのが一番だという考えがあるからです」
むしろシソーラスで難しいのは、日本の風土が持つ特異性と、日本語が持つ特性、いい意味で融通性がある、悪く言えばいい加減さにあると、金子先生。「英語と日本語が1対1関係にならなかったり、英語にない日本語があったり。例えば“生活習慣病”は人種や宗教上の違いによって生活習慣が全く違う欧米ではおそらく生まれない概念です。また日本で流行の“再生医療”は移植手術が広く行われているアメリカでは関心が低く “Regeneration”はあまり使われていません。このほかカタカナ、ひらがな、漢字の使い分け問題もあります。日本語の場合、“がん”は“癌” “ガン” “がん”のいずれも表記できます。日本では外国の言葉をもってくる場合、訳語を誰もコントロールしない、という文化を受け入れてきました。それが結果的に言葉を複雑にしているわけです。ただ、それを統一するのは現実的ではない。(LSDでは)なぜその訳語を選ぶか、という際の拠り所は出現頻度を大前提にしており、その上で逆にこのケースは漢字、こちらのケースではひらがな、といった個人の好みや意図も含めた使い分けをしてもらうことも可能です」

