Meta AI a récemment publié une recherche pré-imprimée présentant un cadre "Megabyte" radicalement nouveau pour la construction de systèmes de transformateurs génératifs pré-entraînés (GPT
Qualifiée de « prometteuse » par Andrej Karpathy d'OpenAI, ancien directeur de l'intelligence artificielle chez Tesla, la nouvelle architecture est conçue pour traiter de grands volumes de données, tels que des images, des romans et des fichiers vidéo, sans recourir à un processus connu sous le nom de « tokenisation ».
Promising. Everyone should hope that we can throw away tokenization in LLMs. Doing so naively creates (byte-level) sequences that are too long, so the devil is in the details.
— Andrej Karpathy (@karpathy) May 15, 2023
Tokenization means that LLMs are not actually fully end-to-end. There is a whole separate stage with… https://t.co/t240ZPxPm7
Prometteur. Tout le monde devrait espérer que nous puissions nous débarrasser de la tokenisation dans les LLM. Ce faisant, on crée naïvement des séquences (au niveau de l'octet) trop longues, et le diable se cache dans les détails. La tokenisation signifie que les LLM ne sont en fait pas entièrement de bout en bout. Il y a toute une étape séparée avec... https://t.co/t240ZPxPm7 - Andrej Karpathy (@karpathy) 15 mai 2023
La tokenisation est un processus avec perte comparable à la compression de fichiers. Pour traiter de grandes quantités de données, les modèles GPT convertissent les octets en tokens. Les tokens sont ensuite traités par le transformateur et utilisés pour générer des tokens de sortie, qui sont ensuite décodés.
Le processus de tokenisation permet à un système d'intelligence artificielle de traiter de grandes chaînes de données comme des nombres. Les mots « ma couleur préférée est le rouge », s'ils étaient traités par le ChatGPT d'OpenAI, par exemple, seraient convertis en la chaîne de tokens « 3666, 4004, 3124, 318, 2266, 13 » pour le traitement.

Malheureusement, même avec la tokenisation, la quantité de données que les systèmes actuels de pointe peuvent traiter a toujours une limite stricte. Pour GPT-3.5, la limite est légèrement supérieure à 4 000 tokens, soit environ 3 000 mots, tandis que GPT-4 plafonne à environ 32 000 tokens, soit environ 24 000 mots.
Le nouveau système Megabyte de Meta abandonne la tokenisation en faveur d'une nouvelle architecture de prédiction multicouche capable de modéliser de bout en bout plus d'un million d'octets de données.
La plupart des systèmes de codage standard de la langue anglaise utilisent un codage standard de 8 bits. Dans ce paradigme, chaque caractère occupe un octet de données. Par conséquent, un système d'IA capable de traiter 1 million d'octets de données sans tokenisation pourrait travailler avec des documents textuels contenant 750 000 mots, soit une augmentation de 3 025 % par rapport à GPT-4.
À titre de comparaison, GPT-4 peut actuellement traiter une dizaine d'articles de presse en une seule fois, tandis que Megabyte serait capable d'analyser l'intégralité de Guerre et Paix de Léon Tolstoï, ainsi que deux autres romans de longueur moyenne.
Le modèle Megabyte de Meta a également obtenu de bons résultats lors des tests ImageNet et des benchmarks liés au traitement des fichiers audio, égalant ou surpassant dans les deux cas les modèles de transformateurs existants basés sur les octets, tels que Perciever AR de DeepMind :
« Megabyte correspond aux performances de pointe de PerceiverAR tout en utilisant seulement la moitié du calcul. »
Les implications de cette recherche pourraient être d'une grande portée. La tokenisation est considérée comme un obstacle dans ce domaine en raison de ses limites en matière de données dures et de la quantité d'énergie et de temps nécessaires pour former les systèmes.
Sans la tokenisation, il devrait être possible de former des modèles d'IA avec un soutien fondamental plus fort pour les langues autres que l'anglais, en particulier celles qui ne peuvent pas être facilement encodées en caractères standard de 8 bits.
Cela pourrait conduire à une plus grande démocratisation de ces technologies et permettre à tout, des robots de trading de cryptomonnaies aux technologies d'organisation autonome décentralisée, d'être construit dans les codes de la langue maternelle dans le monde entier.
À lire également : Le Worldcoin de Sam Altman obtient 115 millions de dollars pour l'identification décentralisée
Cela augmenterait également la capacité de modèles tels que ChatGPT à travailler avec des fichiers image, vidéo et audio en générant des clips multimédias tout en utilisant à peu près le même temps et la même consommation d'énergie que le texte.