第7回ケモインフォマティクス若手の会
発表要旨集

タイトル

概要

QSPR/QSARモデルの適用範囲~基礎・応用事例・最近の研究内容~

QSPRやQSARにおいて、物性/活性が測定された化合物群を用いて、化合物の化学構造情報を数値化したものをX、物性/活性をyとして、物性/活性推定モデル y=f(X) が構築される。モデルを用いることで、Xつまり化学構造の情報のみからyの値を推定できる。しかし、使い方に気をつけなければならない。化学構造であればどんなXの値でも y=f(X) に入力できてしまうが、推定された y の値を信頼できるかどうかは話が別である。このあたりを議論するための概念がモデルの適用範囲である。本講演ではモデルの適用範囲の必要性について話した後、その設定の仕方や実際の使い方などを解説する。最後に、最近の研究内容に触れながら、モデルの適用範囲を考慮した物性/活性推定モデルのより良い活用方法について議論する。

創薬の現場で機械学習をどう活かすか?

AIが流行っているが、弊社もAIを使って創薬研究をしたい!でも何ができるのか?参加者の方々のご意見も伺いながら、活用事例紹介をする予定です(詳細は検討中)。

タンパク質超二次構造コードを用いたインターフェロンα、β、γの構造相同性アライメント解析

バイオメディカル分野の研究者に実験プロトコルとして利用されているSpringerProtocolsの出典本の一つ、Methods in Molecular Biologyのchapter執筆を進めている。今回はその内容の紹介もかねて、タンパク質超二次構造コードを用いたインターフェロンα、β、γの構造相同性アライメント解析について、ディープラーニングへの展開可能性を含めて議論させていただきたい。

Spresso - 超高速なタンパク質立体構造ベース創薬を目指して

創薬における構造ベースのバーチャルスクリーニングではタンパク質-化合物 ドッキング計算がよく用いられるが、ZINC等の化合物DB全体のドッキング計算を行うのは計算コスト上の困難を伴う。本研究では化合物を部分構造(フラグメント)に分割し共通部分構造の計算を1回で済ませることで、約200倍の高速化を達成した。

Grammatical evolution を用いた集団最適化による新規分子設計

遺伝的アルゴリズムの一種である Grammatical evolution を用いて SMILES 文字列を生成することで新規分子を設計する手法を提案する。本手法はドッキングスコアの最適化実験において既知の分子より優れたスコアの分子を設計することができた。設計された分子は既知の化合物とは異なっており多様性においても優れていた。論文: https://arxiv.org/abs/1804.02134

半教師あり学習の新規手法を提案

yの値があるデータ(教師ありデータ)が少なく、yの値がないデータ(教師なしデータ)が多く存在する状況は多々見受けられる。教師なしデータを有効活用する半教師あり学習は近年盛んに研究されており、本研究は半教師あり学習を行う際に使用する教師なしデータを選別する手法を提案する。

少数サンプルにおける活性予測モデルの性能評価および精度向上

サンプルが少ない場合、テスト用のデータでの検証ができず、モデル構築用データにのみ適合した予測性能の低いモデルが構築される危険性が高い。そこで、テストデータのない場合でも適切にモデルの予測性を評価できるダブルクロスバリデーション(DCV)を用い、DCV法による評価の検証と少数サンプルにおける高性能なモデルの構築を行った。

Generative Topographic Mapping(GTM)でデータの可視化・回帰分析・モデルの逆解析を一緒にやってみた

Generative Topographic Mapping(GTM)は変数間の非線形を考慮できる、データの可視化・低次元化手法である。例えば3次元の球面上に散らばったサンプルでも、適切に2次元平面上に写像できる。今回は、GTMでデータセットの確率密度分布を計算できることに着目して、データの可視化・回帰分析・モデルの逆解析を一緒に行う手法を開発したので報告する。

糖摂取後のヒト血中分子濃度の時間変動解析

本研究では、健常者に対して経口糖投与を行い、糖投与後4時間までの経時的な血液サンプルを取得した。これらのサンプルについて、糖代謝ホルモンや血中代謝物等、84種類の分子を網羅的に測定して時間変動データを得た。これらの測定の結果と、各血中分子濃度の時間変動データの解析結果も併せて報告する。