Nous avons tous entendu parler du GPT-3 et avons une idée assez précise de ses capacités. Vous avez très certainement vu des applications nées strictement grâce à ce modèle, dont certaines que j'ai couvertes dans une sur le modèle. GPT-3 est un modèle développé par OpenAI auquel vous pouvez accéder via une API payante mais n'avez pas accès au modèle lui-même.
Ce qui rend GPT-3 si fort, c'est à la fois son architecture et sa taille. Il contient 175 milliards de paramètres. C'est deux fois le nombre de neurones que nous avons dans notre cerveau !
Cet immense réseau a été à peu près formé sur tout Internet pour comprendre comment nous écrivons, échangeons et comprenons le texte. Cette semaine, Meta a fait un grand pas en avant pour la communauté. Ils viennent de sortir un modèle tout aussi puissant, sinon plus, et entièrement open-source. À quel point cela est cool? En savoir plus dans la vidéo...
►Lire l'article complet : https://www.louisbouchard.ai/opt-meta/
►Zhang, Susan et al. "OPT : Modèles de langage de transformateur ouverts pré-formés." https://arxiv.org/abs/2205.01068
►La vidéo de mon GPT-3 pour les grands modèles linguistiques :
►Post de Meta : https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
►Code : https://github.com/facebookresearch/metaseq
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
►Rejoignez notre chaîne Discord, Learn AI Together : https://discord.gg/learnaitogether
0:00
nous avons tous entendu parler de gpt3 et avons
0:02
une idée assez claire de son
0:03
capacités que vous avez très certainement vues
0:06
certaines applications nées strictement en raison de
0:08
ce modèle dont j'ai couvert certains dans un
0:10
vidéo précédente gpd3 est un modèle développé
0:13
par openai auquel vous pouvez accéder via un
0:15
API payante mais n'ont pas accès au modèle
0:18
lui-même ce qui rend gpt3 si fort est à la fois
0:21
son architecture et sa taille
0:24
175 milliards de paramètres deux fois plus
0:27
de neurones que nous avons dans notre cerveau
0:30
l'immense réseau a été à peu près formé
0:32
sur tout l'internet pour comprendre comment
0:34
nous écrivons échangeons et comprenons le texte
0:37
cette semaine, la méta a fait un grand pas en avant
0:39
en avant pour la communauté qu'ils viennent de
0:41
a sorti un modèle tout aussi
0:43
puissant sinon plus et a complètement
0:46
open source c'est cool qu'on puisse
0:48
ont maintenant accès à un modèle de type gpt et
0:51
jouer directement avec sans y aller
0:53
via une API et des métas à accès limité
0:56
modèle le plus récent opt qui signifie
0:59
transformateurs ouverts pré-formés est
1:01
disponible en plusieurs tailles avec
1:03
poids pré-entraînés pour jouer avec ou faire
1:05
tout travail de recherche dont l'un est
1:07
comparable à gp23 et a le meilleur
1:09
résultats c'est une super nouvelle pour le
1:12
domaine et surtout pour nous académique
1:14
chercheurs donc tout comme gpg3 ce nouveau
1:17
le modèle peut générer du texte à partir des entrées de l'utilisateur
1:19
sur beaucoup de tâches différentes un jour, il
1:22
pourra même résumer des semaines
1:24
une valeur de travail pour vous dans des rapports clairs
1:26
mais d'ici là tu as encore besoin d'écrire
1:28
eux-mêmes au moins vous pouvez en obtenir
1h30
aider à rendre ce processus de rapport beaucoup
1:33
plus efficace en utilisant d'excellents outils comme
1:35
poids et préjugés du sponsor de cet épisode
1:38
les poids et les biais vous permettent de facilement
1:39
gardez une trace de toutes vos expériences avec
1:41
seulement une poignée de lignes ajoutées à votre
1:44
code mais plus précisément c'est vraiment
1:46
cool comment ils ont facilité la création
1:48
de superbes rapports interactifs
1:50
comme celui-ci montrant clairement votre équipe
1:53
ou futur lui-même votre matrice de course
1:55
hyperparamètres et configurations de données
1:57
à côté de toutes les notes que vous ou votre équipe aviez
2:00
au moment où les rapports se font facilement
2:02
modèles suivants générés à partir de votre
2:04
exécute des métriques et il vous suffit d'ajouter
2:06
vos commentaires c'est une fonction puissante pour
2:08
soit ajouter des commentaires rapides sur un
2:10
expérimenter ou créer une analyse raffinée
2:12
pièces capturant et partageant votre travail
2:14
est essentiel si vous souhaitez améliorer votre
2:16
transporteur professionnel donc je recommande
2:18
utiliser des outils qui améliorent la communication
2:20
dans votre équipe, comme les poids et les préjugés, essayez
2:23
avec le premier lien ci-dessous et commencez
2:25
partager votre travail comme un pro
2:29
opt ou plus précisément opt-175b
2:33
est très similaire à gpt3 donc je suis fortement
2:36
recommande de regarder ma vidéo pour mieux
2:37
comprendre comment les grands modèles de langage
2:40
travailler gpd3 et opt ne peut pas au moins
2:42
résumez vos e-mails ou écrivez rapidement
2:44
essai basé sur un sujet, il peut aussi
2:46
résoudre des problèmes mathématiques de base répondre
2:49
questions et plus la principale différence
2:51
avec gpt3 c'est que celui ci est ouvert
2:53
source, ce qui signifie que vous avez accès à
2:56
son code et même des modèles pré-formés pour
2:58
jouer avec directement un autre significatif
3:00
le fait amusant est que la formation de l'opt est utilisée comme
3:03
7ème de l'empreinte carbone comme gpt3
3:06
ce qui est une autre étape dans le droit
3:08
direction, vous pouvez voir que ce nouveau
3:10
le modèle est très similaire à gpt3 mais ouvert
3:13
source donc un modèle de langage utilisant
3:15
transformateurs que j'ai couverts dans les vidéos
3:18
avant cela a été formé sur de nombreux
3:19
différents ensembles de données, on pourrait dire sur le
3:22
tout Internet pour traiter le texte et
3:24
générer plus de texte pour mieux comprendre
3:27
comment ils fonctionnent, je vous renvoie à nouveau au
3:29
vidéo que j'ai faite couvrant gpt3 tels qu'ils sont
3:31
modèles très similaires ici ce que j'ai vraiment
3:34
voulait couvrir est l'effort de meta pour faire
3:36
ce genre de modèle accessible aux
3:38
tout le monde en mettant beaucoup d'effort
3:40
à partager ses limites, ses biais et
3:43
risques par exemple ils ont vu qu'opt
3:45
a tendance à être répétitif et à rester coincé dans
3:48
une boucle qui nous arrive rarement
3:50
sinon personne ne te parlera depuis
3:53
il a été formé sur internet ils ont aussi
3:55
trouvé que opt a une forte propension à
3:57
générer un langage toxique et renforcer
4:00
stéréotypes nuisibles essentiellement
4:02
reproduisant nos comportements généraux et
4:04
biais qu'il peut également produire factuellement
4:07
déclarations incorrectes qui est
4:08
indésirable si vous voulez que les gens prennent
4:10
vous sérieusement ces limitations sont certaines
4:13
des raisons les plus importantes pour lesquelles ces
4:15
les modèles ne remplaceront pas les humains de si tôt
4:17
pour des postes décisionnels importants ou
4:20
même être utilisé en toute sécurité dans le commerce
4:22
produits je vous invite à lire leur
4:24
document pour leur analyse approfondie de la
4:26
la capacité du modèle et mieux comprendre
4:28
leurs efforts pour rendre ce modèle plus
4h30
respectueux de l'environnement et sûr à utiliser
4:33
vous pouvez également en savoir plus sur leur
4:34
processus de formation et essayez-le vous-même
4:36
avec leur code accessible au public tous
4:39
les liens sont dans la description tel
4:41
contributions open source avec de nouvelles
4:43
documentation et code des modèles disponibles
4:45
sont vraiment importants pour la recherche
4:47
communauté pour faire avancer la science et je suis
4:49
content qu'une grande entreprise comme meta fasse ça
4:52
grâce à eux des chercheurs du monde entier
4:54
le monde pourra expérimenter
4:56
avec des modèles de langage de pointe
4:58
au lieu de versions plus petites, je suis excité
5:00
pour voir toutes les avancées à venir, il
5:02
va créer et j'aimerais voir ce que vous
5:04
les gars font avec, n'hésitez pas à commenter
5:06
sous la vidéo ou rejoignez notre communauté
5:09
à découvrir et partagez vos projets
5:10
là ça s'appelle apprendre ai ensemble et
5:13
vous pouvez également trouver un lien ci-dessous j'espère
5:15
vous avez apprécié la vidéo de cette semaine qui était un
5:17
peu différent que d'habitude couvrant ce
5:19
des nouvelles passionnantes et des efforts essentiels pour
5:21
partager des recherches accessibles au public je le ferai
5:24
à la semaine prochaine avec un autre incroyable
5:26
papier