きっかけ
ニュースでよく新型コロナの変異株の名前が上がる。やれベータだのラムダだのシータだの。そこで「これらがどういう規則で名付けられてるのか」、「どれくらいの変異株が世の中にはあるのか」、「ギリシャ文字が枯渇するのではないか」、「以前の国名を使った株との違い(インド株など)」が気になったので調べてみた。
調べて分かったのだが新型コロナ感染症(=COVID-19)に関するソースは豊富なのだが、ウイルスの系統や名付けについての日本語ソースは非常に乏しいという壁にぶち当たった。
WHOの呼称
まずギリシャ文字を使った呼称はWHOが使ってるということだ。
彼らは沢山あるコロナ変異株のなかで懸念される変異株(VOCs; Variant of Concern)・注目すべき変異株(VOIs; Variant of Interest)についてギリシャ文字で名前をつけている。
これは2021年5月31日から始まったものであり、以前は地域名で呼ばれてたものの偏見の懸念から提唱されたものである。
ざっくばらんに言うと、報告された変異株のなかでこれはヤバそうだというものにWHOが特別に名前を与えているということ。
数多ある変異株
こちらは国立感染症研究所の資料
WHOが名付けている株だけでもこんなに沢山の変異株が2021年9月現在存在している。
そして調べると分かるのだが、実にこれの何十倍もの変異株が世の中には存在していることが分かる。(2021年1月時点だと512,000を超えるユニークな株を見つけている)
時間がある人は、この系統リストを見るといいと思う。世の中にはこんなに変異株がいるということが分かる。
そして私が一つ疑問に思ったことが、デルタ株と呼称する時、かなりの頻度でB.1.617.2と謎の英数字の羅列が併記されていることだ。
調べてみると、PANGO系統という名付け団体がいるらしいということがわかった。さて聞いたことない名前だ。
ちなみに表のGISAIDは2008年に設立されたもので、もともとは鳥インフルエンザのデータ共有のためにゲノムデータへのオープンアクセスを提供していた世界的団体。今回のパンデミックに対してもゲノムを共有・公開している。
PANGOLIN(PANGO系統)
さてこのPANGO系統、国立感染症研究所や厚労省の資料に度々名前が載ってる割に、それがなんなのか全く説明がない。
ひたすら調べた結果、ようやく少しわかった。これは2020年開発されたPANGOLINというソフトウェアツールと、そしてそのネーミングルールから規定されるということに。
PANGOLINはアンドリュー・ランボー(Andrew Rambaut, イギリスの進化生物学者)の教室のメンバーによって開発されたツールだそうだ。オープンソースソフトウェアでgithubにソースがある。またCLI(コマンドラインツール、プログラマみたいに文字をカタカタ打つやつ)以外に、Webアプリケーション(fastaファイル=ゲノムシークエンスファイルをアップロードすること)でも動作する。
非常に大雑把に説明すると、研究者がウイルスのゲノムシークエンスをアップロードしたら、それを比較・解析してくれて、既存の株かそれとも新種の株なのかを割り出してくれるツールである。
SARS-CoV-2のゲノム配列に対して、最も可能性の高い系統(Pango系統)を割り当てるということである。
初期のバージョンは最尤推定法というアルゴリズムを採用していたが、今では一般的にAIで知られる機械学習で系統を推定してくれる。
この系統の推定に大切なのが、名付けである。そしてその名付けはPango dynamic nomenclature system(パンゴ動的命名法とでも言おうか)に基づいている。↓Natureのソース
その命名ルールをお示ししよう。
- パンゴの系統名は、アルファベットの接頭辞と数字の接尾辞で構成されています。
- 標準的な血統の名前の接頭辞には、I、O、X の文字は使われていません。
- 数値接尾辞の各ドットは「~の子孫」を意味し、1人の祖先が明確に特定できる場合に適用されます。つまり、系統 B.1.1.7 は系統 B.1.1 の 7 番目の子孫であり、C.1 は系統 C の最初の子孫ということになります。
- 接尾辞は最大で3つの階層を含むことができ、1次、2次、3次の接尾辞と呼ばれます。
- 4段階以上の接尾辞を避けるために、新しい系統の接尾辞が導入されますが、これは別名として機能します。例えば、CはB.1.1.1のエイリアスであるため、B.1.1.1の子孫は(B.1.1.1ではなく)C.1と呼ばれることになります。このように、Cという名前が直接シーケンスに適用されることはありません。
↑これを翻訳したもの。これ以外にも組み換え変異株のネーミングルールが続きます(複雑なので割愛)
つまりデルタ株はB系統の617番目の子孫で、その亜系統であるB.1.617.2(インドで最初に確認されたためインド株と当初呼称されていた)についてWHOが決めた名前である。
まとめ
PANGOLINというgithubにも公開されているオープンソースのシステムが、このようなパンデミックに対して有効であることに驚いた。
世界中の叡智がインターネットによって共有され、そして即座に解析されるという非常に今どきな話。
従来の分子生物学的分類(ミスセンス変異)や公衆衛生的分類(WHOの分類など)も重要であるが、そのベースに進化生物学的分類(系統図)が非常に重要であることも確認された。
またこれらの系統分類が即座にできる裏側には、ゲノムシークエンス解析や機械学習の技術があることも感じられた。
新型コロナ感染症が収まることを願うばかりである。