読み物:DNAライブラリの均一性が重要な理由

ベースボールカードの収集家、CRISPR研究者、抗体エンジニアには共通点があります。それは「クーポン収集者問題」と呼ばれる統計的なハードルに直面していることです。この問題は、限られた回数の試行で、特定のアイテムのセット全てを集めることがどれほど難しいかを示しています。この概念を理解するために、ベースボールカード収集家の例を考えてみましょう。

トレーディングカード市場は数十億ドル規模の価値があります。カード自体は光沢のある紙の長方形で、材料的な価値は1セントにも満たないものですが、最も希少なベースボールカードはオークションで数百万ドルで取引されることがあります。この市場が成り立つのは、製造業者がクーポン収集者問題を活用して販売を促進しているからです。

具体的には次のような仕組みです。仮に、集められるユニークなベースボールカードが100種類あり、1パックに1枚のカードが含まれているとします。この場合、全100種類を集めるためには、100パックをはるかに超える数のパックを購入しなければなりません。なぜなら、重複するカードが出る可能性が高まるからです。最初はどのパックにも新しいカードが含まれている確率が高いですが、1枚新しいカードを手に入れるたびに、次のカードがすでに持っているものと重複する確率が上がります。そのため、コレクションを完成させるまで、次々とパックを購入するモチベーションが高まります。

クーポン収集者問題を使うと、全てのカードを集めるために必要な試行回数を予測できます。全てのカードが均等な確率で出現する場合、100種類のカードを集めるにはおおよそ520パックが必要です。しかし、カード製造業者はさらに魅力を高めるため、カードに「レア度」を設定します。例えば、「コモン」カードを大量に印刷してプールを満たし、一方で特定のプレイヤーのカードはごく少数しか印刷しないことで「レア」なカードを生み出します。

別の言い方をすれば、ベースボールカードのプールは均一に分布していないということです。このように非均一な分布の場合、コレクションを完成させるために必要なパック数、つまりコストは大幅に増加します。

統計の話に戻ると、セットを完成させるために必要なサンプル(パック)の数は、2つの重要な指標によって定義されます。それは、セットに含まれるユニークな個体(カード)の数と、それらの分布(希少性)です。分布が均一であればあるほど、セットを完成させるために必要なサンプル数は少なくなります。

分子生物学におけるクーポン収集者問題

分子生物学者、抗体エンジニア、遺伝学者もまた、クーポン収集者問題に直面します。

例えば、大規模なCRISPRノックアウトスクリーニングを行いたい研究者を考えてみましょう。この実験では、数千種類のユニークなsgRNAプールが合成され、細胞に導入されてゲノム編集を行います。編集後、研究者は通常、レポーターシグナル(GFP発現など)に基づいて細胞を分離し、対象となる集団のサブセットをシーケンスします。しかし、sgRNAプールが均一に合成されていない場合—すなわち、一部のsgRNAが頻出し、多くのsgRNAが希少である場合—問題が生じます。分離した細胞集団をシーケンスしても、ほとんどの細胞が同じsgRNAを持つ可能性が高く、データセットにはほとんど新しい情報が追加されません。プール内の全てのsgRNAを正確に捕捉するためには、研究者はより多くの細胞をシーケンスする必要があり、「希少」なsgRNAを検出するためのコストが増加します。

この原理は、数十億個の候補抗体を含むライブラリをスクリーニングする抗体エンジニアにも当てはまります。抗体ライブラリの分布が均一でない場合、全ての候補をデータに含めるためには、より多くのリソースとコストが必要になります。

🤔 均一性 vs オンターゲット率
シーケンス効率により大きな影響を与えるのは、オンターゲット率か、それとも均一性か?このホワイトペーパーでは、この疑問について詳細な分析を行い、均一性がはるかに影響力が大きいことを示しています。詳細を知りたい方は、ぜひホワイトペーパー(日本語版 / 英語版)をご覧ください。

カード収集家と同様に、研究者がデータセットを過剰にサンプリングするために費やす時間とコストは、スクリーニングするライブラリの均一性に大きく依存します。ライブラリが均一であれば、一定のサンプリング率でもより多くのヒットを得ることができます。

Twist Bioscienceを活用してクーポン収集者問題に対抗する

クーポン収集者問題における均一性の重要性は、2020年にカリフォルニア工科大学の論文で強調されました。研究者たちは、マウスの脳に遺伝子を送達できる変異体を特定するため、アデノ随伴ウイルス(AAV)カプシドのライブラリをスクリーニングしました。このような高精度技術の開発は、効果的な遺伝子治療を実現するために不可欠です。AAVカプシドは、目的とする細胞タイプに対して高い特異性を持つように設計・選択される必要があります。

最初に、数十億個の候補カプシドがDNAライブラリとして生成され、脳細胞を標的とするための陽性選択圧がかけられました。このプロセスで数千の候補が特定され、第2ラウンドのスクリーニングに進められました。研究者たちは第2ラウンドのライブラリを生成するために、2つの方法を比較しました。一つは第1ラウンドの陽性サンプルからPCR増幅を行う方法、もう一つはTwist Bioscienceと協力して第1ラウンドの陽性配列を含むオリゴプールを合成する方法です。

Kumarら(2020)の図2cより改変。Twistのオリゴプール合成から作成されたAAVカプシドライブラリは、PCR増幅で作成された同等のライブラリと比べて、はるかに均一であることが示されました。

結果によると、PCR生成ライブラリは非常に偏りが大きく、一部の配列がプールの大部分を占め、多くの配列がほとんど含まれていない状態でした。一方、合成されたライブラリの分布は非常に均一でした。この違いは、2回目のスクリーニングで明確に表れ、PCR生成ライブラリでは700のヒットが得られたのに対し、Twistの合成ライブラリでは1700のヒットが得られました。

Kumarら(2020)より改変。Twistのオリゴプール合成から作成されたAAVカプシドライブラリは、PCR生成ライブラリと比較して、はるかに高い均一性を示しました。ここでは、理論上の完全な均一性(すべてのオリゴヌクレオチドが等しく分布する状態)を示すローレンツ曲線(黒線)を示しています。

オリゴプール由来のライブラリから、研究者たちは血液脳関門を通過し、他の組織を標的とせずに脳細胞を選択的に標的とするAAVカプシドを複数特定しました。また、研究者は、オリゴプールライブラリで同定されて第2段階の検証に進められた多くの配列が、PCR生成ライブラリには存在しなかったと報告しています。

高い均一性を持つDNAライブラリは、研究者がスクリーニングからより多くのヒットを得ることを可能にし、実験期間全体で時間とコストを節約します。Twist Bioscienceは、高精度かつ均一性の高いDNA合成を専門としています。当社のシリコンベースのプラットフォームは、何百万ものオリゴヌクレオチドを同時に合成することができ、その均一性と精度が高いのが特徴です。これらのオリゴは、カスタムCRISPRライブラリ、タンパク質バリアントライブラリ、ターゲットキャプチャNGSパネルに変換され、高精度なスクリーニング実験に使用されます。

均一性の高いライブラリを使用することで、データセットを代表するために必要なサンプリング量を最小限に抑えることができ、研究者はリソースを節約しながら自信を持ってスクリーニングを行うことができます。

詳細は以下をご覧ください:
Twistオリゴプールについてはこちら
Twistライブラリについてはこちら
Twistターゲットキャプチャソリューションについてはこちら