Il 24 gennaio, in occasione della "Nuova Architettura del Grande Modello Linguistico", Rock AI (una filiale di Shanghai Stonehill Technology Co., Ltd.) ha presentato ufficialmente il primo modello lin...
Autore: Business Wire
SHANGHAI: Il 24 gennaio, in occasione della "Nuova Architettura del Grande Modello Linguistico", Rock AI (una filiale di Shanghai Stonehill Technology Co., Ltd.) ha presentato ufficialmente il primo modello linguistico nazionale di grandi dimensioni senza meccanismo di attenzione: il Modello Yan. È anche uno dei rari modelli di grandi dimensioni del settore che non si basa sull'architettura Transformer. Il Modello Yan offre un'efficienza di addestramento 7 volte superiore a quella dei modelli Transformer con parametri equivalenti, 5 volte il rendimento di inferenza e 3 volte la capacità di memoria. Inoltre, supporta il funzionamento senza perdite sulle CPU, ridotte allucinazioni nelle espressioni e supporto al 100% per le applicazioni di distribuzione privata.
Durante l'incontro, Liu Fanping, CEO di Rock AI, ha tenuto un discorso: "Speriamo che l'architettura Yan possa fungere da infrastruttura per il campo dell'intelligenza artificiale e stabilire un ecosistema di sviluppatori nel dominio dell'intelligenza artificiale. In definitiva, miriamo a consentire a chiunque di utilizzare modelli di grandi dimensioni per scopi generali su qualsiasi dispositivo, fornendo servizi di intelligenza artificiale più economici, convenienti e sicuri e promuovere la costruzione di un futuro di intelligenza artificiale inclusivo."
Il Transformer, come architettura fondamentale per modelli di grandi dimensioni come ChatGPT, ha ottenuto un successo significativo, ma presenta ancora molti limiti, tra cui un elevato consumo di energia computazionale, un ampio utilizzo della memoria, costi elevati e difficoltà nell'elaborazione di dati di sequenze lunghe. Per affrontare questi problemi, il modello Yan sostituisce l'architettura Transformer con una propria "architettura Yan" generativa di nuova concezione. Questa architettura consente l'inferenza senza perdite di sequenze infinitamente lunghe su CPU di fascia consumer, ottenendo gli effetti prestazionali di un modello di grandi dimensioni con centinaia di miliardi di parametri utilizzando solo decine di miliardi di parametri, e soddisfa le esigenze pratiche delle imprese per un'implementazione semplice e a basso costo di modelli di grandi dimensioni.
Alla conferenza stampa, il gruppo di ricerca ha presentato numerosi confronti empirici tra il modello Yan e un modello Transformer con la stessa scala di parametri. I dati sperimentali hanno mostrato che, alle stesse condizioni delle risorse, il modello dell'architettura Yan ha un'efficienza di addestramento e un throughput di inferenza rispettivamente 7 e 5 volte superiori a quelli dell'architettura Transformer, e la sua capacità di memoria è migliorata di 3 volte. In risposta alla sfida a lunga sequenza affrontata dal Transformer, anche il modello Yan funziona in modo eccellente, teoricamente in grado di raggiungere un'inferenza di lunghezza illimitata.
Inoltre, il gruppo di ricerca ha sperimentato una funzione associativa ragionevole e un operatore di memoria, combinati con metodi di calcolo lineare, per ridurre la complessità della struttura interna del modello. Il nuovo modello Yan tenterà di aprire la “scatola nera” dell’elaborazione del linguaggio naturale, precedentemente “non interpretabile”, favorendo l’applicazione diffusa di modelli di grandi dimensioni in aree ad alto rischio come la sanità, la finanza e il diritto. Allo stesso tempo, il vantaggio hardware del modello Yan, che può essere eseguito su CPU mainstream di livello consumer senza compressione o potatura, amplia significativamente anche le possibilità di implementazione di modelli di grandi dimensioni in vari settori.
Liu Fanping ha dichiarato: "Nella fase successiva, Rock AI mira a creare un sistema di interazione uomo-computer in tempo reale con modalità completa, ottenere una formazione end-side e integrare formazione e inferenza. Progettiamo di connettere completamente percezione, cognizione, processo decisionale e azione per costruire un circuito intelligente per l'intelligenza artificiale generale. Ciò fornirà più opzioni per la piattaforma fondamentale di modelli di grandi dimensioni in aree di ricerca come i robot generici e l'intelligenza incorporata."
Fonte: Business Wire