Dönüm Noktası Büyük Dil Modeli, COVID Varyantlarını Tahmin Ediyor

Dönüm Noktası Büyük Dil Modeli, COVID Varyantlarını Tahmin Ediyor


Yüksek performanslı bilgi işlem tabanlı COVID-19 araştırması için Gordon Bell özel ödülü finalisti, genomik, epidemiyoloji ve protein mühendisliğinde içgörülerin kilidini açabilen büyük dil modellerine (LLM’ler) yeni bir dil – gen dizileri – öğretti.

Ekim ayında yayınlandıçığır açan çalışma, Argonne Ulusal Laboratuvarı, NVIDIA, Chicago Üniversitesi ve diğerlerinden iki düzineden fazla akademik ve ticari araştırmacının ortak çalışmasıdır.

Araştırma ekibi, genetik mutasyonları izlemek ve COVID-19’un arkasındaki virüs olan SARS-CoV-2’deki endişe çeşitlerini tahmin etmek için bir LLM eğitti. Bugüne kadar biyolojiye uygulanan LLM’lerin çoğu küçük moleküllerin veya proteinlerin veri kümeleri üzerinde eğitilmiş olsa da, bu proje ham nükleotid dizileri – DNA ve RNA’nın en küçük birimleri – üzerinde eğitilen ilk modellerden biridir.

Projeyi yöneten Argonne’deki hesaplamalı biyolog Arvind Ramanathan, “Protein düzeyinden gen düzeyindeki verilere geçmenin, COVID varyantlarını anlamak için daha iyi modeller oluşturmamıza yardımcı olabileceğini varsaydık” dedi. “Modelimizi tüm genomu ve evriminde ortaya çıkan tüm değişiklikleri takip edecek şekilde eğiterek, yalnızca COVID hakkında değil, yeterli genomik veriye sahip herhangi bir hastalık hakkında daha iyi tahminler yapabiliriz.”

Yüksek performanslı bilgi işlemin Nobel Ödülü olarak kabul edilen Gordon Bell ödülleri, bu hafta düzenlenecek törenle sahiplerini bulacak. SC22 dünya çapında yaklaşık 100.000 bilgi işlem uzmanını temsil eden Association for Computing Machinery tarafından düzenlenen konferans. Grup, 2020’den beri HPC ile COVID anlayışını ilerleten olağanüstü araştırmalara özel bir ödül veriyor.

Dört Harfli Dilde Yüksek Lisans Eğitimi

LLM’ler uzun süredir, genellikle on binlerce kelime halinde düzenlenebilen ve daha uzun cümleler ve paragraflar halinde birleştirilebilen birkaç düzine harften oluşan insan dilleri üzerinde eğitilmiştir. Öte yandan biyoloji dili, genler olarak farklı dizilimler halinde düzenlenmiş nükleotidleri temsil eden yalnızca dört harfe sahiptir – DNA’da A, T, G ve C veya RNA’da A, U, G ve C.

Daha az harf, AI için daha basit bir zorluk gibi görünse de, biyoloji için dil modelleri aslında çok daha karmaşıktır. Bunun nedeni, insanlarda 3 milyardan fazla nükleotitten ve koronavirüslerde yaklaşık 30.000 nükleotitten oluşan genomun, farklı, anlamlı birimlere ayrılmasının zor olmasıdır.

Ramanathan, “Yaşamın kodunu anlamak söz konusu olduğunda, genomdaki sıralama bilgisinin oldukça geniş olması büyük bir zorluktur” dedi. “Bir nükleotit dizisinin anlamı, insan metninde bir sonraki cümle veya paragraftan çok daha uzaktaki başka bir diziden etkilenebilir. Bir kitaptaki bölümlerin eşdeğerini aşabilir.”

Projedeki NVIDIA işbirlikçileri, LLM’nin yaklaşık 1.500 nükleotitlik uzun dizileri sanki cümleymiş gibi ele almasını sağlayan hiyerarşik bir difüzyon yöntemi tasarladı.

“Standart dil modelleri, tutarlı uzun diziler oluşturmakta ve farklı varyantların temel dağılımını öğrenmekte zorlanıyor,” dedi makalenin ortak yazarı, NVIDIA’da yapay zeka araştırması kıdemli direktörü ve Caltech’te hesaplama + matematik bilimleri bölümünde Bren profesörü olan Anima Anandkumar. “Gerçekçi değişkenler oluşturmamıza ve daha iyi istatistikler yakalamamıza olanak tanıyan, daha yüksek ayrıntı düzeyinde çalışan bir yayılma modeli geliştirdik.”

Endişenin COVID Varyantlarını Tahmin Etme

Ekip, Bakteriyel ve Viral Biyoinformatik Kaynak Merkezi’nden alınan açık kaynaklı verileri kullanarak, LLM’sini ilk olarak bakteriler gibi tek hücreli organizmalar olan prokaryotlardan 110 milyondan fazla gen dizisi üzerinde önceden eğitti. Ardından, COVID virüsü için 1,5 milyon yüksek kaliteli genom dizisini kullanarak modelde ince ayar yaptı.

Araştırmacılar, daha geniş bir veri kümesi üzerinde ön eğitim yaparak, modellerinin gelecekteki projelerdeki diğer tahmin görevlerine genellenebilmesini de sağladılar; bu da onu, bu yeteneğe sahip ilk tam genom ölçekli modellerden biri haline getirdi.

LLM, COVID verilerinde ince ayar yapıldıktan sonra virüsün varyantlarının genom dizilimlerini ayırt edebildi. Ayrıca, kendi nükleotit dizilerini üreterek, bilim adamlarının gelecekteki endişe varyantlarını tahmin etmelerine yardımcı olabilecek COVID genomunun potansiyel mutasyonlarını tahmin edebildi.

sıralanmış covid genomlarının görselleştirilmesi
Bir yıllık SARS-CoV-2 genom verileriyle eğitilen model, çeşitli viral suşlar arasındaki farkı anlayabilir. Soldaki her nokta, varyanta göre renk kodlu, sıralı bir SARS-CoV-2 viral suşuna karşılık gelir. Sağdaki şekil, bu suşa özgü viral proteinler arasındaki evrimsel bağları yakalayan belirli bir virüs suşunu yakınlaştırır. Argonne Ulusal Laboratuvarı’ndan Bharat Kale, Max Zvyagin ve Michael E. Papka’nın izniyle.

Ramanathan, “Çoğu araştırmacı, COVID virüsünün başak proteinindeki, özellikle de insan hücrelerine bağlanan alandaki mutasyonları izliyor” dedi. “Ancak viral genomda sık sık mutasyonlardan geçen ve anlaşılması önemli olan başka proteinler de var.”

Model aynı zamanda AlphaFold ve OpenFold gibi popüler protein-yapı-tahmin modelleriyle de entegre olabilir ve araştırmacıların viral yapıyı simüle etmelerine ve genetik mutasyonların bir virüsün konakçısına bulaşma yeteneğini nasıl etkilediğini incelemelerine yardımcı olabilir. OpenFold, dijital biyoloji ve kimya uygulamalarına LLM uygulayan geliştiriciler için NVIDIA BioNeMo LLM hizmetine dahil edilen önceden eğitilmiş dil modellerinden biridir.

GPU Hızlandırmalı Süper Bilgisayarlarla Yapay Zeka Eğitimini Güçlendirin

Ekip, AI modellerini süper bilgisayarlar üzerinde geliştirdi. NVIDIA A100 Tensör Çekirdekli GPU’lar – Argonne dahil Polaris, ABD Enerji Bakanlığı’nın Perlmutter’ı ve NVIDIA’nın şirket içi Selene sistemi. Bu güçlü sistemlere kadar ölçeklendirerek, eğitim çalıştırmalarında 1.500’den fazla exaflop performansı elde ederek bugüne kadarki en büyük biyolojik dil modellerini oluşturdular.

Ramanathan, “Bugün 25 milyara kadar parametreye sahip modellerle çalışıyoruz ve bunun gelecekte önemli ölçüde artmasını bekliyoruz” dedi. “Model boyutu, genetik dizi uzunlukları ve ihtiyaç duyulan eğitim verisi miktarı, binlerce GPU’lu süper bilgisayarların sağladığı hesaplama karmaşıklığına gerçekten ihtiyacımız olduğu anlamına geliyor.”

Araştırmacılar, modellerinin 2,5 milyar parametreli bir versiyonunun yaklaşık 4.000 GPU ile bir aydan uzun sürdüğünü tahmin ediyor. Halihazırda biyoloji için LLM’leri araştıran ekip, projeyi halka yayınlamadan önce proje üzerinde yaklaşık dört ay harcadı. kağıt ve kod. GitHub sayfası, diğer araştırmacıların modeli Polaris ve Perlmutter üzerinde çalıştırmaları için talimatlar içerir.

Şurada bulunan NVIDIA BioNeMo çerçevesi: NVIDIA NGC hub’ında erken erişim GPU için optimize edilmiş yazılımlar için, birden çok GPU’da büyük biyomoleküler dil modellerini ölçeklendiren araştırmacıları destekler. Bir bölümü NVIDIA Clara Keşfi ilaç keşif araçları koleksiyonu, çerçeve kimya, protein, DNA ve RNA veri formatlarını destekleyecektir.

Bulmak SC22’de NVIDIA.

Üstteki resim, araştırmacıların LLM’si tarafından sıralanan COVID suşlarını temsil eder. Her nokta, COVID değişkenine göre renk kodludur. Argonne Ulusal Laboratuvarı’ndan Bharat Kale, Max Zvyagin ve Michael E. Papka’nın izniyle.


Kaynak : https://blogs.nvidia.com/blog/2022/11/14/genomic-large-language-model-predicts-covid-variants/

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

SMM Panel PDF Kitap indir