ChatGPT, développé par OpenAI, était initialement conçu comme un chatbot conversationnel doté d’intelligence artificielle. Mais récemment, deux innovations majeures ont été annoncées, propulsant ChatGPT vers de nouveaux horizons. D’une part, il peut maintenant analyser des images, et d’autre part, il est capable d’entendre et de parler.
ChatGPT : de simples échanges textuels à une interaction multimodale
La première grande nouveauté est la capacité de ChatGPT à interagir vocalement. Grâce à une collaboration avec des comédiens de doublage professionnels, OpenAI a développé
cinq voix de synthèse pour ChatGPT : deux voix féminines, deux voix masculines et une voix plus enfantine. Ces voix sont actuellement disponibles uniquement en anglais. Et pour transcrire vos paroles en texte, l’outil open source Whisper entre en jeu. Toutefois, OpenAI reste prudent avec cette technologie, évitant les risques potentiels d’usurpation vocale.
Un regard neuf sur le monde
La seconde innovation est tout aussi impressionnante. ChatGPT peut désormais
analyser des images ou des photos. Imaginez montrer une photo à ChatGPT et lui demander d’identifier les objets qu’elle contient. Cette fonctionnalité s’appuie sur les modèles de langage GPT-3.5 et GPT-4. Si vous prenez une photo via l’application mobile ChatGPT, il est même possible de cibler une zone spécifique de l’image pour que le chatbot s’y intéresse. Les applications potentielles sont vastes, allant de l’analyse d’un graphique complexe à la suggestion de recettes en fonction du contenu de votre réfrigérateur.
Si ces nouveautés vous ont séduit, sachez qu’il faudra disposer d’un abonnement ChatGPT Plus ou Enterprise pour en profiter. Les fonctionnalités vocales seront d’abord disponibles sur les applications Android et iOS, tandis que la fonction d’analyse d’images sera accessible sur toutes les plateformes.
Des interactions plus intuitives
OpenAI a introduit ces nouvelles capacités pour offrir une interface plus intuitive. Imaginez prendre une photo d’un monument lors d’un voyage et avoir une conversation en direct sur ce qui le rend intéressant. Ou encore, photographier le contenu de votre réfrigérateur pour déterminer le menu du soir, puis poser des questions pour obtenir une recette étape par étape. Ces interactions enrichissent considérablement l’expérience utilisateur.
La sécurité avant tout
OpenAI est conscient des défis que présentent ces nouvelles capacités. La technologie vocale, par exemple, ouvre la porte à de nombreuses applications créatives et axées sur l’accessibilité. Cependant, elle présente également de nouveaux risques, tels que la possibilité pour des acteurs malveillants d’usurper des voix ou de commettre des fraudes. De même, les modèles basés sur la vision présentent des défis allant des hallucinations à la dépendance à l’interprétation du modèle dans des domaines à haut risque. OpenAI a pris des mesures techniques pour limiter la capacité de ChatGPT à analyser et faire des déclarations directes sur les personnes, respectant ainsi la vie privée des individus.
Ces avancées marquent un tournant majeur dans l’évolution des chatbots. ChatGPT n’est plus seulement un outil de conversation textuelle, mais un véritable assistant virtuel multimodal. La fusion de la parole, de la vision et du texte ouvre la porte à une multitude de possibilités. Nous sommes impatients de voir comment cette technologie évoluera et comment elle façonnera notre interaction avec les machines à l’avenir.