Büyük Dil Modelleri Yapay Zekanın Ufkunu Genişletiyor

Büyük Dil Modelleri Yapay Zekanın Ufkunu Genişletiyor


2018 yılında, BERT insanların makine öğrenimi modellerinin okumayı ve konuşmayı nasıl öğrendiği hakkında konuşmalarını sağladı. Bugün, büyük dil modelleri veya LLM’ler hızla büyüyor ve her türlü uygulamada el becerisi gösteriyor.

Birincisi, araştırmaları sayesinde ilaç keşfini hızlandırıyorlar. Rostlab Münih Teknik Üniversitesi’nde ve Harvard, Yale ve New York Üniversitesi’nden bir ekip tarafından ve diğerleri. Ayrı çabalarda, proteinleri oluşturan amino asit dizilerini yorumlamak için LLM’leri uyguladılar ve biyolojinin bu yapı taşlarına ilişkin anlayışımızı geliştirdiler.

LLM’lerin sağlık, robotik ve diğer alanlarda yaptığı birçok ilerlemeden biridir.

LLM’lerin Kısa Tarihi

Sıralı verilerde bağlamı öğrenebilen, 2017’de tanımlanan sinir ağları olan transformatör modelleri, LLM’leri başlattı.

BERT ve diğer transformatör modellerinin arkasındaki araştırmacılar, 2018’i doğal dil işleme için bir “dönüm noktası” haline getirdi. AI hakkında rapor dedi o yılın sonunda. “Birkaç uzman, BERT’nin piyasaya sürülmesinin NLP’de yeni bir dönemi işaret ettiğini iddia etti” diye ekledi.

Google tarafından geliştirilen BERT (diğer adıyla Transformers’tan Çift Yönlü Kodlayıcı Temsilleri), NLP için kıyaslamalarda son teknoloji puanlar verdi. 2019 yılında, ilan edildi BERT, şirketin arama motoruna güç sağlar.

Google, BERT’i şu şekilde yayınladı: açık kaynaklı yazılımbir takipçi ailesini doğuruyor ve daha büyük, daha güçlü LLM’ler inşa etmek için bir yarış başlatıyor.

Örneğin, Meta adlı gelişmiş bir sürüm oluşturdu. roBERTa, Temmuz 2017’de açık kaynak kodu olarak yayınlandı. Eğitim için “BERT’den çok daha fazla veri” kullandı ve NLP lider tablolarında öne geçti. Bir scrum takip etti.

Ölçeklendirme Parametreleri ve Pazarlar

Kolaylık sağlamak için, puan genellikle bir LLM’nin parametrelerinin veya ağırlıklarının sayısı, bir sinir ağındaki iki düğüm arasındaki bağlantının gücünün ölçüleri ile tutulur. BERT 110 milyona, RoBERTa 123 milyona sahipti, ardından BERT-Large 354 milyona ulaştı ve yeni bir rekor kırdı, ancak uzun sürmedi.

Eğitim LLM'leri için gerekli hesaplama
LLM’ler yeni uygulamalara yayıldıkça boyutları ve bilgi işlem gereksinimleri büyüdü.

2020’de OpenAI ve Johns Hopkins Üniversitesi’ndeki araştırmacılar açıkladı GPT-3, neredeyse bir trilyon kelimeden oluşan bir veri kümesinde eğitilmiş 175 milyar parametre ile. Bir dizi dil görevinde iyi puan aldı ve hatta üç basamaklı aritmetiği şifreledi.

Araştırmacılar, “Dil modellerinin toplum için çok çeşitli faydalı uygulamaları var” diye yazdı.

Uzmanlar ‘Uyumuş’ Hissediyor

Haftalar içinde insanlar şiirler, programlar, şarkılar, web siteleri ve daha fazlasını oluşturmak için GPT-3’ü kullanmaya başladı. Son zamanlarda, GPT-3 bile yazdı kendisi hakkında akademik bir makale.

Stanford’da bilgisayar bilimi doçenti Percy Liang, “Sadece bir dil modeli olduğu için yapabileceği şeyler beni biraz şaşırttı” dedi. bir podcast.

GPT-3, Stanford’u yaratmaya motive etmeye yardımcı oldu bir merkez Liang şimdi liderlik ediyor ve çok çeşitli görevleri iyi bir şekilde yerine getirebilen temel modellerin sonuçlarını araştırıyor.

Trilyonlarca Parametreye Doğru

Geçen yıl, NVIDIA ilan edildi en Megatron 530B Yeni alanlar ve diller için eğitilebilen LLM. Trilyonlarca parametreye sahip dil ​​modellerini eğitmek için araçlar ve hizmetler ile çıkış yaptı.

NVIDIA uygulamalı derin öğrenme araştırmalarından sorumlu başkan yardımcısı Bryan Catanzaro, “Büyük dil modellerinin esnek ve yetenekli olduklarını kanıtladılar… derin alan sorularını özel eğitim veya denetim olmadan yanıtlayabiliyorlar” dedi.

Kullanıcıların güçlü modelleri benimsemesini daha da kolaylaştıran, NVIDIA Nemo LLM hizmeti Eylül ayında GTC’de çıkış yaptı. Belirli görevleri gerçekleştirmek için önceden eğitilmiş LLM’leri uyarlamak için NVIDIA tarafından yönetilen bir bulut hizmetidir.

Transformatörler İlaç Keşfini Dönüştürüyor

LLM’lerin proteinler ve kimyasal yapılarla yaptığı ilerlemeler DNA’ya da uygulanıyor.

Araştırmacılar çalışmalarını ölçeklendirmeyi hedefliyor NVIDIA BioNeMo, biyomoleküler verileri oluşturmak, tahmin etmek ve anlamak için bir yazılım çerçevesi ve bulut hizmeti. Bir bölümü NVIDIA Clara Keşfi ilaç keşfi için çerçeveler, uygulamalar ve yapay zeka modelleri koleksiyonu, yaygın olarak kullanılan protein, DNA ve kimya veri formatlarında çalışmayı destekler.

NVIDIA BioNeMo, NVIDIA ve AstraZeneca tarafından geliştirilen MegaMolBART modeli de dahil olmak üzere önceden eğitilmiş birden çok AI modeline sahiptir.

Sağlık hizmetlerinde LLM kullanım örnekleri
Temel modeller hakkındaki makalelerinde, Stanford araştırmacıları sağlık hizmetlerinde LLM’lerin birçok kullanımını öngördü.

LLM’ler Bilgisayarla Görmeyi Geliştiriyor

Güçlü LLM’ler geleneksel evrişimli AI modellerinin yerini aldığından, transformatörler bilgisayar vizyonunu da yeniden şekillendiriyor. Örneğin, Meta AI ve Dartmouth araştırmacıları TimeSformerson teknoloji sonuçlarla videoyu analiz etmek için transformatörleri kullanan bir AI modeli.

Uzmanlar, bu tür modellerin mobil kullanıcılar için hesaplamalı fotoğrafçılık, eğitim ve etkileşimli deneyimlerde her türlü yeni uygulamayı ortaya çıkarabileceğini tahmin ediyor.

Bu yılın başlarında ilgili çalışmalarda, iki şirket metinden görüntüler oluşturmak için güçlü AI modelleri yayınladı.

OpenAI duyuruldu DALL-E 2, metin açıklamalarından gerçekçi görüntüler oluşturmak için tasarlanmış 3,5 milyar parametreli bir transformatör modeli. Ve son zamanlarda, Londra merkezli Stability AI, piyasaya sürüldü Kararlılık Difüzyonu,

Kod Yazma, Robotları Kontrol Etme

LLM’ler ayrıca geliştiricilerin yazılım yazmasına yardımcı olur. tabnine – bir üyesi NVIDIA Başlangıçen yeni girişimleri besleyen bir program – bir milyon geliştirici tarafından oluşturulan kodun %30’a kadarını otomatikleştirdiğini iddia ediyor.

Bir sonraki adımı atan araştırmacılar, üretim, inşaat, otonom sürüş ve kişisel asistanlarda kullanılan robotları öğretmek için transformatör tabanlı modeller kullanıyor.

Örneğin, DeepMind tarafından geliştirilen Gato, robotik bir kola blokları nasıl istifleyeceğini öğreten bir LLM. 1,2 milyar parametre modeli, 600’den fazla farklı görev üzerinde eğitildi, bu nedenle oyun oynarken veya sohbet robotlarını canlandırırken çeşitli mod ve ortamlarda faydalı olabilir.

Gato LLM'nin birçok uygulaması var
Gato LLM, metinlerin yanı sıra robot eylemlerini ve görüntülerini de analiz edebilir.

Araştırmacılar, “Aynı temel yaklaşımı büyüterek ve yineleyerek, yararlı bir genel amaçlı aracı oluşturabiliriz” dedi. Kağıt Mayıs ayında yayınlandı.

Stanford’un merkezinin ne olduğuna dair başka bir örnek. bir Temmuz gazetesi AI’da bir paradigma kayması olarak adlandırılır. “Temel modeller, dünyada yapay zeka sistemlerinin oluşturulma ve dağıtılma şeklini değiştirmeye yeni başladı” dedi.

Dünyanın dört bir yanındaki şirketlerin aşağıdakilerle LLM’leri nasıl uyguladığını öğrenin. NVIDIA Triton’u birçok kullanım durumu için.


Kaynak : https://blogs.nvidia.com/blog/2022/10/10/llms-ai-horizon/

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

SMM Panel PDF Kitap indir