La révolution de l’intelligence artificielle générative
Le domaine de l’Intelligence Artificielle Générative (IAG) constitue une branche particulièrement innovante de l’IA. Dans ce domaine, les machines sont dotées de la faculté non seulement de comprendre ou de traiter des informations, mais aussi de créer du contenu inédit. Cette fonction repose sur des modèles sophistiqués d’apprentissage automatique, tels que les réseaux de neurones profonds.
Principe de génération de contenu
- Fonctionnement : Les modèles tels que les réseaux de neurones sont au cœur de l’IA générative. Ils apprennent à discerner et reproduire les complexités des données utilisées lors de l’entraînement, qu’il s’agisse de textes, d’images ou de sons. Ces modèles parcourent d’énormes ensembles de données pour capturer les motifs, styles et structures spécifiques à un type de contenu donné.
- Application : Ces capacités sont utilisées pour concevoir de nouveaux contenus qui se veulent similaires ou dérivés des données sources. Par exemple, après avoir étudié des milliers d’œuvres artistiques, ces modèles sont en mesure de générer des images artistiques inédites. Il en va de même pour la composition de nouvelles mélodies après l’analyse de partitions musicales.
Probabilité de texte
- Mécanisme : Pour la production textuelle, les modèles IAG évaluent la probabilité des séquences de mots en fonction de la fréquence et de la co-occurrence des mots dans le corpus d’entraînement. Cela leur permet d’anticiper le mot suivant d’une phrase ou de poursuivre un texte de manière statistiquement cohérente avec le texte source.
- Complexité et Créativité : Les modèles ne se contentent pas de réitérer leurs apprentissages, mais peuvent également les associer de manière créative pour forger du contenu inédit. Cette capacité ouvre des horizons prometteurs pour la création littéraire, la production de contenu pour les sites web, la conception de dialogues pour les jeux vidéo et plus encore.
- Défis et Limitations : La génération textuelle par IA fait face à plusieurs obstacles, notamment la cohérence sur de longs textes, le respect des subtilités culturelles et linguistiques et la neutralité face aux biais inhérents aux données d’entraînement.
Limites de l’IA Générative
- Connaissances Limitées : Un modèle d’IAG ne peut créer que du contenu en rapport avec ce qu’il a appris durant son entraînement. Si certaines données lui sont inconnues ou peu représentées, ses productions pertinentes s’en trouvent limitées.
- Hallucinations de l’IA : Il arrive que l’IA produise des « hallucinations », des données inexactes ou absurdes hors contexte. Elle peut générer des éléments qui semblent factuels alors qu’ils sont erronés ou trompeurs.
- Fiabilité : Les modèles d’IA génèrent généralement des informations fiables à une certaine probabilité, mais une portion significative peut s’avérer fausse ou inexacte.
- Éthique et Biais : L’IAG peut perpétuer ou exacerber les biais présents dans les données d’entraînement, soulevant des questions éthiques quant à leur application et à leur influence.
Responsabilité et Vérification
Il est crucial que les utilisateurs et les concepteurs de ces technologies agissent avec responsabilité, vérifient le contenu généré, restent vigilants face aux biais potentiels et utilisent l’IAG comme outil d’appoint plutôt qu’une source infaillible. La compréhension des forces et faiblesses de l’IAG est vitale pour son intégration réussie et éthique dans divers secteurs.
Définitions clés
- GPT (Generative Pretrained Transformer) : Cette architecture d’IA est spécialisée dans la compréhension et la génération de langage naturel. Le terme « Generative » signifie que le modèle peut créer du contenu. « Pretrained » indique un pré-entraînement sur un large corpus textuel et « Transformer » est le type d’architecture de réseau neuronal employée, capable de traiter des séquences de données.
- Prompt : Il s’agit de l’entrée textuelle fournie par l’utilisateur, qui guide l’IA dans la génération de contenu. Elle informe l’IA du sujet ou du style de texte à produire.
- LLM (Large Language Model) : Un modèle informatique vaste conçu pour le traitement du langage naturel. « Large » fait référence tant à la masse de données d’entraînement qu’à la complexité structurelle du modèle.
- Token : un token est une unité de texte qui peut être un mot, une partie de mot ou même un symbole. Les modèles de langage, comme ceux utilisés dans l’intelligence artificielle générative, décomposent le texte en tokens pour l’analyser et le traiter.
ChatGPT illustre parfaitement ces principes. Outre la génération de texte, ChatGPT peut résumer des documents, traduire des langues, proposer des idées, extraire des informations, coder dans divers langages et bien plus encore. Sa complexité sous-jacente réside dans l’algorithme GPT, qui a été nourri de milliards de pages internet, d’articles Wikipedia et de livres, lui conférant une culture générale impressionnante, bien que perfectible.
Exemple :
Voici un exemple simple de génération de texte suivant la demande De quelle couleur est le ciel : les pourcentages indiquent la probabilité que le modèle prédise correctement le mot suivant dans la phrase, en se basant sur le mot ou les mots précédents. Les modèles de langue prédictifs fonctionnent : ils utilisent des statistiques basées sur la fréquence des mots ou des séquences de mots dans le langage pour prédire la suite la plus probable.
Ce qui est important de noter ici, c’est que l’IA ne « comprend » pas les concepts de la même manière qu’un humain. Elle se base sur des patterns de données pour faire ses prédictions. Ainsi, si le corpus d’entraînement contient beaucoup de phrases où le ciel est décrit comme bleu, l’IA aura une forte probabilité de compléter le prompt avec « bleu », car le ciel est souvent bleu. Cependant, si l’entraînement comprenait des variations, comme des descriptions poétiques ou métaphoriques du ciel, le modèle pourrait alors générer des réponses plus variées.
Cet exemple démontre la capacité d’un modèle de langue à générer du texte qui est cohérent avec les données sur lesquelles il a été formé, mais aussi les limites de cette approche, qui est dépendante de la qualité et de la variété des données d’entraînement.
Demandons à ChatGPT :
ChatGPT répond avec un conditionnel que le ciel est bleu . Maintenant, précisons la demande en limitant son champ de connaissance :
Nous voyons ici que plus nous ajoutons de mots clés , plus la réponse est précise, car ChatGPT va restreindre son champ de connaissance en fonction des mots clés qu’on lui indiquera . Nous verrons cela ensemble plus en détail dans le chapitre suivant .
L’intelligence artificielle générative révolutionne la manière dont nous créons et interagissons avec le contenu dans divers domaines, en offrant des outils puissants pour augmenter la créativité humaine. Cependant, son utilisation soulève également des questions éthiques et pratiques importantes, notamment sur la propriété intellectuelle, l’authenticité du contenu, et la transparence des processus créatifs automatisés.
Le « language » de IA générative
Qu’est-ce qu’un Token?
Vous vous souvenez du film « Matrix » où tout est composé de chiffres verts qui tombent en cascade? Bon, c’est un peu l’idée ici, mais moins dramatique 😅. En IA générative, un token est une unité de données. Pour l’IA, « Bonjour » pourrait être un seul token ou être divisé en plusieurs, comme « Bon » et « jour ». Cela dépend de l’algorithme utilisé.
Par exemple :
- « De quelle couleur est le ciel ? » est décomposé en 7 tokens : [303, 10414, 6547, 583, 341, 6612, 30].
- « Je suis orthophoniste » en 5 tokens : [42, 232, 15376, 12451, 98].
Comment l’IA Génère-t-elle du Texte?
Imaginez que vous donniez à l’IA un puzzle incomplet. L’IA utilise son expérience (des milliards de phrases déjà vues) pour deviner les pièces manquantes. Elle ne fait pas qu’assembler les mots; elle comprend le contexte, les significations et les subtilités du langage.
Voici comment cela fonctionne :
- Encodage : L’IA transforme votre phrase en tokens.
- Analyse : Elle compare ces tokens à son immense base de données linguistique.
- Prédiction : Elle prédit le token suivant pour générer une phrase cohérente.
Exemple Pratique
Prenons notre première phrase : « De quelle couleur est le ciel ? »
- Encodage : [303, 10414, 6547, 583, 341, 6612, 30]
- Analyse : L’IA compare ces tokens à des millions d’exemples similaires.
- Prédiction : Elle peut compléter ou continuer avec « Le ciel est bleu. »
L’Évolution des Intelligences Artificielles en 2-3 Ans
Ah, l’évolution des intelligences artificielles (IA) en si peu de temps, c’est un véritable tour de magie technologique ! Vous vous souvenez de l’époque où Siri vous comprenait à moitié et où les chatbots vous répondaient à côté de la plaque ? Eh bien, cette époque est révolue. En l’espace de 2 à 3 ans, l’IA a évolué de manière spectaculaire, que ce soit dans la compréhension du langage, la génération de texte ou la création d’images.
En 2020, les modèles d’IA étaient déjà impressionnants mais avaient encore des limites. Les modèles de génération de texte pouvaient produire des paragraphes cohérents mais manquaient parfois de contexte et de subtilité. Pendant 2021-2022, nous avons vu des améliorations significatives. Les IA ont commencé à comprendre le contexte de manière plus profonde, à produire des réponses plus pertinentes et à créer des images de meilleure qualité.
En 2023, les IA ont atteint un niveau de maturité impressionnant. Elles peuvent non seulement comprendre des nuances subtiles mais aussi anticiper les besoins des utilisateurs avec une précision étonnante. Les IA génératives dans la création de contenu visuel et textuel sont devenues presque indiscernables des créations humaines.
Les Acteurs Majeurs de l’IA Générative
Depuis maintenant 2 ans, l’IA générative est en forte évolution, le visage et les acteurs change beaucoup.
En plus de la génération de texte il existe maintenant un grand nombre génération d’autres éléments :
- Générateur de texte : Texte à texte, voix à texte, Image à texte
- Générateur d’image : Texte à image,
- Générateur audio : Texte à musique, texte à audio
- Générateur vidéo : Texte à vidéo, image à vidéo
- Générateur de code informatique : Texte à code ou code à code
- Générateur multimodal : tout mélanger
Pour l’utilisation dans le cadre de l’orthophonie, nous allons nous voir seulement les générateurs multimodaux sous forme de chat. Ce type d’utilisation ne nécessite aucune connaissance en informatique et peut être utilisé de manière gratuite. Pour cette formation nous allons nous focaliser sur CHATGPT qui est aujourd’hui la plateforme la plus connue et la plus performante de toutes.
![]() CHATGPT / OPENAI |
![]() GEMINI / GOOGLE |
![]() CLAUDE / ANTROPIC |
![]() |
![]() |
![]() Perplexity |
Chats multimodaux
Les chats multimodaux représentent l’approche la plus intuitive pour exploiter les capacités des intelligences artificielles génératives. Ces systèmes avancés peuvent traiter et interagir avec une variété de données, telles que le texte, les images et le son, offrant ainsi une expérience riche et naturelle aux utilisateurs.
ChatGPT ( OpenAi) : chat.openai.com
Version Gratuite : Offre un accès à GPT-3.5 et ChatGPT4o les utilisateurs gratuits sont limités à entre 10 et 16 messages toutes les 3 heures avec GPT-4o. Une fois la limite atteinte, les utilisateurs gratuits revienne au modèle GPT-3.5 plus limité. Pas de création d’image dans CHATGPT
Version Payante (ChatGPT Plus) : Coûte 20 $ par mois et donne accès à GPT-4, le modèle le plus avancé, ainsi qu’à la possibilité de discuter avec des images et la voix, de créer des images, de lire des documents et d’utiliser et de construire des GPT personnalisés. ChatGpt plus peut aussi réaliser des recherches sur internet.
GEMINI (google) : Gemini.google.com
GEMINI est optimisé pour être multimodal, capable de comprendre et de traiter du texte, du code, de l’audio, des images et des vidéos. Il excelle dans des tâches complexes comme la programmation, le raisonnement logique et la création de contenu. GEMINI comprend trois versions : Ultra, Pro, et Nano, avec des capacités adaptées à des tâches spécifiques.
Version gratuite et payante : GEMINI Advanced est disponible dans le cadre du plan Google One AI Premium à $19.99/mois, offrant une période d’essai de deux mois. Ce plan inclut l’accès à GEMINI Ultra 1.5, 2TB de stockage, et d’autres avantages de Google One Premium.
Copilot / Bing chat (Microsoft, mais basé sur chatGpt) : copilot.microsoft.com
Copilot est intégré dans Bing et d’autres produits Microsoft, offrant des capacités de génération de texte, de compréhension des requêtes, et d’interaction utilisateur avancées. Il est basé sur ChatGPT et personnalisé pour s’intégrer aux services Microsoft.
Version gratuite permet d’accéder à Gpt4 et Dall-E, mais de manière moins efficace que chatgpt.
Version payante : intégration de copilot dans le outils/logiciel de microsoft ( Word , Excel , Outlook etc … ) coute 20€/mois + un abonnement à office 365 .
Claude (Anthropic) : claude.ai
- Description : Claude est une IA développée par Anthropic, conçue pour une interaction sûre et éthique. Elle excelle dans la génération de texte, la conversation et les réponses à des questions complexes.
- Fonctions : Génération de texte, conversation, réponse à des questions complexes.
Mistral AI ( société française ) : chat.mistral.ai/chat
- Description : Mistral AI est une plateforme avancée de génération de contenu multimédia, y compris la synthèse vocale et la création de vidéos. Elle se concentre sur l’intégration de multiples formats pour des expériences immersives.
- Fonctions : Génération de contenu multimédia, synthèse vocale, création de vidéos.
Perplexity AI : www.perplexity.ai
- Description : Perplexity AI est une IA multimodale capable de traiter et de générer du texte, des images et des sons. Elle est conçue pour fournir des réponses précises et contextuellement pertinentes à une variété de requêtes.
- Fonctions : Génération de texte, création d’images, interaction multimodale.
En résumé
L’Intelligence Artificielle Générative (IAG) est une branche novatrice de l’IA, permettant aux machines de créer du contenu inédit en plus de traiter des informations. Elle s’appuie sur des modèles d’apprentissage automatique sophistiqués, comme les réseaux de neurones profonds.
Les modèles d’IAG, tels que les réseaux de neurones, analysent et reproduisent les complexités des données d’entraînement, qu’il s’agisse de textes, d’images ou de sons, pour capturer les motifs et structures spécifiques. Ils créent ainsi du contenu nouveau semblable aux données sources, comme générer des images artistiques ou composer des mélodies.
Pour la production de texte, les modèles IAG évaluent la probabilité des séquences de mots pour générer du contenu cohérent. Ces modèles peuvent aussi combiner des apprentissages de manière créative, produisant du contenu original utile en littérature, pour les sites web, les jeux vidéo, etc. Cependant, ils font face à des défis tels que la cohérence sur de longs textes, le respect des nuances culturelles, les biais des données d’entraînement et les hallucinations d’IA.
Il est crucial de vérifier le contenu généré par l’IAG et de rester vigilant face aux biais potentiels. Bien que prometteuse, l’IAG nécessite une utilisation éthique et consciente de ses capacités et limites pour une intégration réussie et responsable dans divers secteurs.