「量子化学文献データベース」(Quantum Chemistry Literature Data Base, 略称 QCLDB) は、原子・分子の電子構造の非経験的理論計算を扱った原著論文を網羅する純国産の文献データベースシステムで、国内外でかなり利用されるようになってきている。1976 年、当時北海道大学理学部大野公男教授(現北海道情報大学)の呼びかけで、5〜6人の量子化学研究者が試行的に QCLDB の作成を開始した。現在は、量子化学データベース(QCDB )研究会がこの事業を続けている(代表:細矢治夫、副代表:山辺信一)。個人的なアクセスの他に、化学情報協会を通じて国内外の 70 以上の大学や研究機関にこのデータベースは頒布され利用されている。このシステムの発足以来、いろいろな問題をかかえながらも、国際的に公開提供できるデータベースを 15 年近くも維持できたことを、われわれ QCDB 研究会は誇りとにしてよいと思っている。この小論では、QCDB 研究会がこの QCLDB をどのように作製しているかの技術的な面と、このようなデータベースを継続させるための苦労話を紹介する。
手順、作業の流れを大まかに説明する。まず、非経験的波動関数を使った理論、計算機化学の研究を扱う文献を収集対象とする。現在毎年約 3000 件の原著論文が収集され、システム全体の論文数は3万件を超えている。これらの論文を多く含む雑誌(例:アメリカ化学会誌、Journal of Chemical Physics 等)をコアジャーナルとして選定する。現在、コアジャーナルは約20 誌ある。各雑誌につき、収集・査読者を指定する。当然彼等は、量子化学の研究者か、その周辺の大学院生である。収集者は担当の雑誌を詳細に通覧し、該当の文献を抽出する。この選び出された文献は、一定のフォーマットに書かれた QCLDBデータとして入力される。このフォーマット作製のための規則と入力データの例を表1に示す。
KATO S, MOROKUMA K / JCPSA6, 72, 206, 80 / C2H4F / 2 / 2 / 28 / POTENTIAL ENERGY
* PARTITIONING
NEBOT-GIL I, MALRIEU J-P / JACSAT, 104, 3320, 82 /
* C2H4 , C4H6 , C6H8 / 124 / 10 / 125
* / DIRADICAL OR IONIC TWISTED EXCITED STATES IN THE SINGLET
* CIS-TRANS ISOMERIZATION OF POLYENE
一つのファイルとして格納された QCLDB データは、各サイトより FTP で分子科学研究所電子計算機センターのワークステーション(ccdb というホスト名)のディスク上に転送される。この WS 上で、 QCLDB データは qcheck と呼ばれる誤入力を検査するプログラムにかけられる。表1の規則と合致しているか否かのチェックと同時に、過去に蓄積されたデータに見当たらない項目があった場合、警告メッセージが出され、査読者に注意が喚起される。また、化学的判断でおかしいと思われる項目にもできるだけ警告がでるように qcheck の機能を強化中である。例えばC2H25 という分子式があれば、普通は入力ミスであろう。そこで、分子式より電子数を機械的に計算する。この合計が奇数ならば、不安定な遊離基を意味するので疑ってよい。この電子数の偶奇性のチェックは予想以上に分子式のチェックに有用である。このような QCLDB 入力の生(なま)データは、ミスを点検修正され、別ファイルとして ccdb 上に格納し直される。同時に、収集者がめくった雑誌のページ数、及び拾い上げた QCLDB データ件数が記録され、これに基いて 収集者への謝金が計算される。収集者に課せられた作業を図1にまとめる。
査読者は、収集者によって格納され直したファイルの内容的な吟味を行う。例えば、論文の著者は固有名詞なので、形式的なチェックにかけられない。原論文にあたって、つづりミスの有無を調べるしかない。もちろん、収集者が拾い忘れた文献の追加も大事な作業である。このような内容的なチェックを受けた QCLDB 粗データがデータベースとしてコンピュータ上に載って来るのである。
次の段階は、コアジャーナル以外に含まれる QCLDB データの追跡である。CAS-on-line のキーワードの組み合わせで、 QCLDB データ「らしき」文献をリストアップする。これらの「らしき」文献を国会図書館等で複写し、 QCLDB を維持しているグループが分担して閲読する。これらをQCLDB データとして含めてよいか否かの判断と、含める文献の入力データ化の作業を行う。同時に、CAS-on-line で拾い上げられたコアジャーナルでの文献の書誌記録を収集者に連絡し、確認照合してもらう。
以上、 QCLDB 粗データが作製されるまでの収集・査読・CAS-on-line によるデータ補充という流れを述べて来た。 QCLDB は、検索プログラム付きのソフトの他に、オランダの Elsevier 社の Journal of Molecular Structure (THEOCHEM) という雑誌の1分冊というハードコピーのかたちで毎年印刷公表されている。そのため、オンライン検索用のデータ統合やハードコピー原稿作製のための筆舌につくしがたい作業が毎年夏にある。概要はまとめて図2に示した。
この過重な作業がデータベース更新の最終段階に存在する理由は、工程の構造上の問題ではない。本来最終段階は、かなりコンピュータ寄りの業務で、理想的な流れで QCLDB データが精製されて行けば発生しない問題である。雑誌を見てのデータ収集、あるいは査読という、人間が行う作業が不完全であるためのツケとして避けられないことなのである。この苦労を乗り越えて、 QCLDB 研究会の熱意と努力で何とかデータベースが今日まで継続されて来ている。以下、このデータベースの良い点、悪い点をあわせて列挙する。
[1]なぜ、この文献データベースが 13 年も継続できたか、また継続される必要があるのか? 一般に多くのソフトウエアやデータベースは、現状では確かに外国の製品に依存している。「日本は研究も加工貿易か」と外国人にイヤミを言われたことがある。上の状況がある限り、このイヤミに反論できないと感じた。何か、外国人が使おうとする国産の物が必要と思った。データベースでもソフトウエアでも何でもよかった。今や、QCLDB データベースシステムは、まがりなりにも海外へ輸出して、『日本のプライド』を保っていると思っている。QCLDB 研究会はこの意味で、打算ではなく、憂国の士の集団である。
[2]データ収集に参加する研究者、大学院生に謝金が支給されているが、わずかの額である。 『文献調査は研究の第一歩』の成果として QCLDB データが収集されることをモットーとしている。よって、システムを支えている人達は量子化学の研究者であり、データベースの専門家はいない!
[3]検索されたデータにおける特色は表1のVII の項目で挙げたコメント欄である。
この論文内容が一目で把握できる記述を旨としている。この項目が、他のデータベースにはないメリットであるが、同時にデータ収集が自動化できない原因でもある。
[4]収集基準の非経験的波動関数を使った理論計算の範囲はどんどん拡大している。 CAS-on-line でのチェックにもこの傾向は見られるし、たぶんこれ以外の文献もあるだろう。この状況を察知した段階で、次の重要な方針を立てた。『データベース維持に「完全」を期さない。約 90 パーセントの出来であればよい』。この意味で、データ収集の際に、載っている雑誌のquality (品質) を考慮することになった。すなわち、あまりにも local な雑誌での該当文献は切り捨てることとした。データベース収録開始時、及び維持に、この「あいまいさ」は不可欠である。完全さを求めれば、いずれ潰れる。
[5]データベースがまだ日本に定着していない頃からのスタートであったので、著作権や法的な問題があり、その identity がスッキリしない現状がある。また、この問題と関連して、宣伝不足との指摘がある。対外的に、もう一歩踏み出したいQCLDB 研究会の若手メンバーの気持ちがある。しかし、支えている人達がデータベースで飯を食っているわけではなく、かつ、[1]の「国粋主義」が駆動力であるので、踏み出しをためらっている。国粋主義の灯が消えれば、オシマイになる恐れがある。日本のプライドのため、この灯を消してはならないと、若い人達にどう伝えるか、QCLDB 研究会の老兵達の悩みである。
この小論を書くにあたり、いろいろお手数をかけたお茶の水女子大学理学部の細矢治夫氏、および図1、2の作成で御協力いただいた北海道教育大学釧路校の小原繁氏に感謝する。両氏ともQCLDB 研究会の主要メンバーである。


上から2、3段目の採録、qcheck は図1の作業。(A)の終了段階で、QCLDBデータが出揃っている。本文中の、筆舌に尽くし難い苦労とは、なかなか A のデータが出揃った状況に至らないことを指している。《”督促”の活字が踊っていることで、状況がおわかりいただけるであろう。》言い替えれば、(A)以降はかなりコンピュータ寄りの作業で何とか消化できる。図中、"final" では、syntax 、 spell、文献ページなど、読めない文字等のチェックを行う。次に、印刷用識別番号付けと印刷ファイルを作成する。