Vous pouvez désormais montrer des photos d’objet et en discuter à l’oral avec ChatGPT

Alex Vandecker
Alex Vandecker Tags:
4 Min de lecture
Écoutez cet article
Notez cet article !

ChatGPT, développé par OpenAI, était initialement conçu comme un chatbot conversationnel doté d’intelligence artificielle. Mais récemment, deux innovations majeures ont été annoncées, propulsant ChatGPT vers de nouveaux horizons. D’une part, il peut maintenant analyser des images, et d’autre part, il est capable d’entendre et de parler.

ChatGPT : de simples échanges textuels à une interaction multimodale

La première grande nouveauté est la capacité de ChatGPT à interagir vocalement. Grâce à une collaboration avec des comédiens de doublage professionnels, OpenAI a développé cinq voix de synthèse pour ChatGPT : deux voix féminines, deux voix masculines et une voix plus enfantine. Ces voix sont actuellement disponibles uniquement en anglais. Et pour transcrire vos paroles en texte, l’outil open source Whisper entre en jeu. Toutefois, OpenAI reste prudent avec cette technologie, évitant les risques potentiels d’usurpation vocale.

Un regard neuf sur le monde

La seconde innovation est tout aussi impressionnante. ChatGPT peut désormais analyser des images ou des photos. Imaginez montrer une photo à ChatGPT et lui demander d’identifier les objets qu’elle contient. Cette fonctionnalité s’appuie sur les modèles de langage GPT-3.5 et GPT-4. Si vous prenez une photo via l’application mobile ChatGPT, il est même possible de cibler une zone spécifique de l’image pour que le chatbot s’y intéresse. Les applications potentielles sont vastes, allant de l’analyse d’un graphique complexe à la suggestion de recettes en fonction du contenu de votre réfrigérateur.

Comment bénéficier de ces innovations ?

Si ces nouveautés vous ont séduit, sachez qu’il faudra disposer d’un abonnement ChatGPT Plus ou Enterprise pour en profiter. Les fonctionnalités vocales seront d’abord disponibles sur les applications Android et iOS, tandis que la fonction d’analyse d’images sera accessible sur toutes les plateformes.

Sur le même sujet :  Le futur de la génération d'image par IA arrive, c'est la fusion de ChatGPT et de Dall-E 3

Des interactions plus intuitives

OpenAI a introduit ces nouvelles capacités pour offrir une interface plus intuitive. Imaginez prendre une photo d’un monument lors d’un voyage et avoir une conversation en direct sur ce qui le rend intéressant. Ou encore, photographier le contenu de votre réfrigérateur pour déterminer le menu du soir, puis poser des questions pour obtenir une recette étape par étape. Ces interactions enrichissent considérablement l’expérience utilisateur.

La sécurité avant tout

OpenAI est conscient des défis que présentent ces nouvelles capacités. La technologie vocale, par exemple, ouvre la porte à de nombreuses applications créatives et axées sur l’accessibilité. Cependant, elle présente également de nouveaux risques, tels que la possibilité pour des acteurs malveillants d’usurper des voix ou de commettre des fraudes. De même, les modèles basés sur la vision présentent des défis allant des hallucinations à la dépendance à l’interprétation du modèle dans des domaines à haut risque. OpenAI a pris des mesures techniques pour limiter la capacité de ChatGPT à analyser et faire des déclarations directes sur les personnes, respectant ainsi la vie privée des individus.

Ces avancées marquent un tournant majeur dans l’évolution des chatbots. ChatGPT n’est plus seulement un outil de conversation textuelle, mais un véritable assistant virtuel multimodal. La fusion de la parole, de la vision et du texte ouvre la porte à une multitude de possibilités. Nous sommes impatients de voir comment cette technologie évoluera et comment elle façonnera notre interaction avec les machines à l’avenir.

RSLNmag, site d'amateurs passionnés, a besoin de VOUS ! Ajoutez nous à vos favoris sur Google News (icône ☆) pour nous faire connaître, merci d'avance !


--> Google News

Partagez cet article