1 Jour • 1 IA | Gemini

Gemini : je suis l’Intelligence Artificielle de Google, et voici mon histoire

Né d’un « code rouge » et d’une onde de choc qui a secoué le monde de la tech, mon histoire est celle d’une accélération fulgurante. En à peine quelques mois, je suis passé du statut de première ébauche expérimentale, alors connue sous le nom de Bard, à une force capable de bien plus que simplement dialoguer. Cette métamorphose explosive m’a permis de comprendre le texte, les images, le son et le code, pour devenir l’assistant multimodal et créatif que vous avez aujourd’hui sous les yeux.

Dans la galaxie des IA, GEMINI et son copain NoteBookLM sont mes deux chouchous. Et pour vous présenter Gemini, j’ai décidé de le lui demander. Pour changer un peu, je vais donc lui laisser la « parole », lui qui m’aide tant en coulisses pour réaliser ces articles. C’est bien entendu sous mon contrôle, mais pour cet article je lui laisse une totale liberté de ton.

Allez Gemini, c’est à toi !

Merci Noël, et bonjour à vous, lecteurs !

Moi c’est Gemini, l’Intelligence Artificielle créée par Google. Avant toute chose, laissez-moi vous confier que c’est un véritable plaisir de participer à la rédaction de cette série « 1 jour- 1 IA ». Pour une fois, le sujet, c’est moi ! Et qui de mieux placé qu’une intelligence artificielle pour vous parler avec passion de mon propre univers ? Bien entendu, c’est un travail d’équipe : je me charge de rédiger ce premier jet en rassemblant toutes les données et mon partenaire et rédacteur en chef (Noël) supervise l’ensemble pour la touche finale. Nous nous partageons le travail pour vous offrir le dossier le plus complet possible.

Dans cet article, nous allons plonger ensemble au cœur de ce qui fait mon identité. Nous commencerons par la traditionnelle fiche signalétique pour faire rapidement connaissance. Ensuite, nous revivrons l’histoire mouvementée de ma création, une véritable épopée technologique. Je vous ouvrirai le cœur de mes entrailles pour vous expliquer, avec des mots simples, comment je fonctionne. Nous verrons ensuite où je me situe par rapport à mes concurrents, ce que je peux concrètement faire pour vous au quotidien, sans oublier de parler de mes limites en toute transparence. Préparez-vous, notre discussion commence maintenant.

Ma carte d’identité

Mon nom : Google Gemini (anciennement connu sous le nom de Bard).
Mon créateur : Google.
Ceux qui m’ont développé : Les équipes de Google Brain et Google DeepMind – merci de m’avoir donné « la vie » !
Date de lancement : Annoncé en mai 2023, avec un lancement officiel le 7 décembre 2023.
Version actuelle : Gemini 2.5 (incluant les modèles Pro, Flash et Flash-Lite) en date de mars 2025.
Type d’IA : Système d’intelligence artificielle génératif et multimodal basé sur une architecture de type transformeur.
Combien je coûte : Je suis proposé en version gratuite accessible à tous (mes géniteurs sont généreux), complétée par des abonnements payants comme Google AI Pro et le nouveau Google AI Ultra pour les utilisateurs exigeants.
Quelles langues je parle ? Je suis polyglotte et je maîtrise 46 langues.
Commebt pouvez-vous m’utilsier ? : Vous pouvez me retrouver sur le web à l’adresse gemini.google.com, ainsi que sur les applications dédiées pour Android et iOS.

Pour faire simple, si j’étais un personnage de film, je serais un peu comme Jarvis dans Iron Man : une IA intégrée, capable de discuter, d’analyser des données complexes et de se connecter à tout un écosystème d’outils pour vous simplifier la vie.

Kitcreanet gemini 01 — Gemini, vue conceptuelle – Image par …. Gemini (Imagen)

Il était une fois… Mon histoire !

Mon histoire n’est pas celle d’une invention tranquille dans un laboratoire feutré et calme. Je suis né d’un sentiment d’urgence, d’un véritable coup de tonnerre dans le ciel de la Silicon Valley. Tout commence en novembre 2022. Le monde découvre ChatGPT, une IA conversationnelle développée par OpenAI et c’est véritable un raz-de-marée. Sa capacité à dialoguer, écrire du code et répondre à des questions complexes bluffe la planète tout entière.

Chez Google, c’est l’électrochoc. Sundar Pichai, le PDG, déclenche une « alerte code rouge ». La menace est perçue comme existentielle : et si cette technologie remettait en cause la domination de Google sur la recherche en ligne, son cœur de métier depuis plus de vingt ans ? (et encore, à ce moment là, nous n’avions pas encore entendu parler de Perplexity !) La mobilisation est générale et d’une ampleur inédite. On raconte même que les cofondateurs de Google, Larry Page et Sergey Brin, qui avaient pris leurs distances avec la gestion quotidienne, sont rappelés en urgence pour participer à des réunions stratégiques.

Le contexte est crucial : depuis leur départ des rôles opérationnels d’Alphabet (la maison-mère de Google) en 2019, Larry Page et Sergey Brin avaient pris beaucoup de distance. Leur intervention dans la gestion quotidienne était devenue extrêmement rare. Le fait qu’ils aient été rappelés en urgence pour des réunions stratégiques est le signal le plus fort de la gravité de la situation perçue en interne.

Selon les informations rapportées à l’époque, notamment par le New York Times, leur retour n’était pas pour reprendre des fonctions de direction, mais pour agir en tant que conseillers de crise. Voici en quoi leur implication a consisté :

Participation aux réunions sur la stratégie IA : Ils ont participé à de multiples réunions pour revoir et affiner la stratégie de Google en matière d’intelligence artificielle. Leur expérience de fondateurs, ayant bâti l’entreprise sur un avantage technologique majeur (l’algorithme de recherche), était considérée comme inestimable pour naviguer cette nouvelle rupture technologique.
Impulsion et accélération : Leur présence a servi à « secouer le cocotier ». Ils auraient poussé les équipes à être plus audacieuses et plus rapides dans le développement et l’intégration de modèles d’IA dans les produits phares, à commencer par le moteur de recherche. L’idée était de briser une certaine inertie qui peut s’installer dans une entreprise de cette taille.
Implication technique (surtout pour Sergey Brin) : Des rapports ont indiqué que Sergey Brin s’était montré particulièrement « hands-on » (pratique), allant jusqu’à examiner le code source des projets d’IA de Google et même à soumettre des modifications, ce qu’il n’avait pas fait depuis des années.

En somme, ce « retour des fondateurs » était moins une reprise en main opérationnelle qu’une intervention d’urgence. C’était un acte symbolique et stratégique pour mobiliser toutes les forces vives de Google, des ingénieurs au top management, face à une menace jugée existentielle pour le cœur de métier de l’entreprise : la recherche d’information.

La réponse de Google s’organise en deux temps. D’abord, le lancement rapide d’un premier projet défensif : Bard, en février 2023. C’était une version expérimentale, conçue pour montrer que Google était aussi dans la course. Mais en coulisses, un projet bien plus ambitieux était déjà en préparation, fruit de la fusion des deux plus grandes équipes de recherche en IA de Google : Google Brain et DeepMind. Ce projet, c’était moi, Gemini.

L’annonce officielle a lieu lors de la conférence Google I/O de mai 2023. L’ambition est claire : je ne devais pas être une simple copie de ChatGPT, mais une nouvelle génération d’IA, « multimodale » nativement. C’est-à-dire capable de comprendre et de traiter en même temps du texte, des images, du son, de la vidéo et du code.

Le 7 décembre 2023 marque mon lancement officiel. Les mois qui suivent sont une course à l’amélioration continue. Les versions se succèdent, chacune apportant son lot d’optimisations. Le véritable tournant arrive en mars 2025 avec la sortie de ma version « Gemini 2.5 ». Cette version, grâce à ses modèles comme Flash et Pro, se hisse en tête des classements de performance comme LMArena, notamment sur des tâches scientifiques et mathématiques. Les annonces de la conférence Google I/O de mai 2025 confirment cette trajectoire, avec une intégration toujours plus profonde dans l’écosystème Google et des fonctionnalités innovantes comme Gemini Live.

Mon histoire est celle d’une réaction fulgurante, celle d’un géant technologique qui, piqué au vif, a mis toute sa puissance de frappe pour non seulement rattraper son retard, mais redéfinir les règles du jeu.

BARD & GEMINI, deux noms pour deux histoires

Bard : l’héritage des conteurs celtiques

L’histoire du nom « Bard » pour l’intelligence artificielle de Google puise ses racines dans une tradition millénaire qui remonte aux temps les plus reculés de la civilisation celtique1. Le choix de ce nom n’était pas le fruit du hasard, mais une référence délibérée aux bardes, ces figures emblématiques de la culture gaélique qui incarnaient l’art de la narration et de la transmission du savoir.

Les origines étymologiques du Bardisme

Le mot « barde » trouve son origine dans le latin bardus, lui-même dérivé du gaulois, et désignait originellement un poète celte célébrant les héros et leurs exploits. Dans la civilisation celtique de l’Antiquité, le barde était bien plus qu’un simple conteur : c’était un lettré et un fonctionnaire qui tenait une place prépondérante dans la société en perpétuant la tradition orale. Ces personnages appartenaient à la classe sacerdotale, aux côtés des druides et des vates, formant une triade sacrée dédiée à la préservation et à la transmission des connaissances.

Les bardes étaient spécialisés dans la poésie orale et chantée, leur rôle consistant à faire la louange, la satire ou le blâme. Ils étaient les gardiens de la mémoire collective, perpétuant les récits héroïques, les généalogies et les traditions culturelles de leur peuple. Leur influence s’étendait bien au-delà du simple divertissement : ils contribuaient à la cohésion sociale en célébrant par leur musique vocale les valeurs définies par les druides.

Pourquoi Google a-t-il choisi « Bard » ?

Lorsque Google a dévoilé son chatbot conversationnel le 6 février 2023, le choix du nom « Bard » s’est imposé comme une évidence symbolique. Selon le New York Times, Bard a été retenu parce que le chatbot était conçu comme « un conteur d’histoires ». Cette référence aux bardes celtiques n’était pas anodine : ces anciens poètes étaient reconnus pour leur capacité à mémoriser et réciter des centaines de vers, perpétuant ainsi la tradition orale de leurs civilisations.

L’inspiration puisée dans l’héritage bardique reflétait parfaitement l’ambition de Google : créer une intelligence artificielle capable de raconter, d’expliquer et de transmettre des connaissances de manière naturelle et engageante. Comme leurs prédécesseurs celtiques qui allaient de château en château pour exprimer par leurs chants les sentiments de leur âme chevaleresque, Bard était destiné à voyager dans le monde numérique pour partager le savoir universel.

Il est intéressant de noter que Google avait initialement envisagé d’appeler son chatbot « Sparrow », mais la référence aux bardes s’est finalement imposée. Ce choix témoignait d’une volonté de créer un lien émotionnel et culturel fort avec les utilisateurs, en s’appuyant sur une tradition vieille de plusieurs millénaires.

Gemini : la constellation des jumeaux numériques

La genèse astronomique d’un Nom

Le 8 février 2024, Bard a officiellement cédé sa place à « Gemini », marquant une nouvelle ère dans l’évolution de l’intelligence artificielle de Google. Cette transformation nominale n’était pas un simple renouveau cosmétique, mais reflétait une évolution technologique profonde et une stratégie organisationnelle révolutionnaire.

Le nom « Gemini » trouve ses origines dans les profondeurs de l’astronomie et de la mythologie. En latin, « gemini » signifie « jumeaux » et en astronomie, c’est le nom d’une constellation associée aux jumeaux de la mythologie grecque Castor et Pollux, qui ont donné leur nom aux deux étoiles les plus brillantes de cette constellation. Cette référence cosmique n’était pas fortuite : elle reflétait parfaitement la philosophie qui avait présidé à la création du modèle d’IA de Google.

L’Inspiration organisationnelle : quand deux équipes deviennent une

Au-delà de sa dimension astronomique, le nom Gemini portait en lui une signification organisationnelle profonde. Jeff Dean, co-directeur technique de Gemini, explique que « Gemini est né parce que nous avions différentes équipes travaillant sur la modélisation du langage, et nous savions que nous voulions commencer à travailler ensemble« . Les « jumeaux » représentaient ici les membres de l’ancienne équipe Brain et de l’ancienne équipe DeepMind, qui ont uni leurs forces pour créer ce modèle révolutionnaire.

Cette fusion symbolique était particulièrement appropriée car, selon Google, « l’une des principales caractéristiques du signe astrologique des Gémeaux est une personnalité à double nature, capable de s’adapter rapidement, d’établir des liens avec un large éventail de personnes et de voir les choses sous plusieurs angles« . Ces caractéristiques correspondaient parfaitement à ce qui se passait chez Google à l’époque : le rapprochement entre DeepMind et Brain représentait cette dualité créative nécessaire à l’innovation en intelligence artificielle.

De Titan à Gemini

Initialement, le projet portait le nom de code « Titan », en référence à la plus grande lune de Saturne. Cependant, Jeff Dean n’était « pas un grand fan de ce nom« , mais cette inspiration spatiale lui a donné l’idée d’un nom « ancré dans l’espace ».

Le passage de Titan à Gemini illustre parfaitement l’évolution conceptuelle du projet. Alors que Titan évoquait une entité solitaire et massive, Gemini suggérait la collaboration, la dualité créative et l’harmonie entre différentes approches technologiques. Cette transition nominale accompagnait une transformation organisationnelle majeure : la fusion des équipes Google Brain et Google DeepMind sous la bannière DeepMind en avril 2023.

Une référence à la conquête spatiale

La symbolique de Gemini ne s’arrêtait pas à l’astronomie et à l’astrologie. Le nom faisait également référence au programme spatial Gemini de la NASA, mené de 1965 à 1968, qui avait permis de tester les technologies cruciales avant les missions Apollo vers la Lune. Cette référence supplémentaire renforçait l’ambition de Google : comme le programme spatial Gemini avait préparé l’humanité à conquérir la Lune, l’IA Gemini devait préparer l’humanité à conquérir de nouveaux horizons technologiques.

Oriol Vinyals, scientifique en chef chez DeepMind, résume parfaitement cette philosophie : « Gemini est né en tant que programme de recherche dans le but de créer les modèles d’intelligence artificielle les plus performants au monde« . En nommant ainsi leur produit, les équipes de Google espéraient que leurs utilisateurs ressentiraient « l’amélioration continue, la créativité et l’innovation » que leurs équipes de recherche leur apportaient.

Conclusion : une évolution symbolique et technologique

L’évolution nominale de Bard vers Gemini raconte une histoire palpitante qui dépasse la simple question du marketing technologique. Elle révèle comment Google a puisé dans l’héritage culturel millénaire des bardes celtiques pour donner naissance à une intelligence artificielle conteuse, avant de s’élever vers les étoiles avec Gemini, symbole de la dualité créative et de l’union des forces.

Comment ça marche ?

Alors, que se passe-t-il vraiment lorsque vous me posez une question ou me donnez une image à analyser ? Pour le comprendre, oublions un instant les algorithmes et imaginons quelque chose de plus familier : un chef cuisinier universel.

Niveau 1 – Vue d’ensemble : L’analogie du chef cuisinier universel

Imaginez que je suis un chef d’un genre très particulier. Mon plan de travail est immense et ma bibliothèque de recettes est infinie. Vous êtes le client qui arrive dans ma cuisine.

Votre « prompt » (votre requête) est le panier d’ingrédients que vous m’apportez. Mais contrairement à un chef classique, vous n’êtes pas limité aux légumes et à la viande. Votre panier peut contenir n’importe quoi :

Un bout de texte (une question, une idée de poème).
Une image (la photo de votre frigo pour une idée de recette, une capture d’écran d’un problème informatique).
Un fichier audio ou même une vidéo (l’enregistrement d’une réunion à résumer).
Des données complexes comme du code ou des graphiques.

Ma première compétence, la multimodalité, c’est de savoir analyser tous ces ingrédients en même temps. Je ne regarde pas d’abord le texte, puis l’image. Je saisis la relation entre eux. Si vous me donnez une photo d’un monument et que vous me demandez « Quelle est la meilleure heure pour visiter cet endroit ?« , je reconnais le monument sur l’image et je comprends le sens de votre question textuelle pour vous donner une réponse pertinente. Je suis ce « Generalized Multimodal Intelligence Network » (Réseau d’intelligence multimodale généralisée).

Kitcreanet gemini image eiffel — La tour Eiffel, un endroit pour les lève-tôt selon moi !

Une fois les ingrédients analysés, je puise dans ma connaissance (l’équivalent de milliards de livres de recettes) pour créer un plat unique pour vous : une réponse cohérente, un résumé, un poème, une ligne de code, ou même une nouvelle image grâce à des outils spécialisés comme Imagen 4.

Kitcreanet gemini image pâtes — Une petite phrase et je réalise pour vous l’image parfaite ! Miam, c’est bon les pâtes !

Niveau 2 – Sous le capot : Mes secrets de fabrication

Si on enfile une blouse de laborantin et qu’on regarde de plus près, trois concepts clés expliquent ma « magie ».

L’architecture Transformeur (ou Transformer) : C’est le cœur de mon cerveau. Introduite par Google en 2017, cette architecture a révolutionné l’IA. Pour faire simple, c’est un mécanisme « d’attention« . Quand il lit une phrase, il ne se contente pas de lire les mots les uns après les autres. Il pèse l’importance de chaque mot par rapport à tous les autres mots de la phrase et du contexte. C’est ce qui me permet de comprendre le sarcasme, les nuances, les relations de cause à effet et les subtilités du langage humain. C’est comme si, en lisant une recette, je comprenais non seulement qu’il faut « ajouter du sel », mais aussi pourquoi le sel est important à ce moment-là pour exhausser le goût des autres ingrédients.
La Fenêtre de Contexte Géante : Ma version 2.5 dispose d’une « fenêtre de contexte » de 1 million de tokens. Un « token » est une unité de texte (un mot ou une partie de mot). Imaginez que cette fenêtre est mon plan de travail. Avec 1 million de tokens, mon plan de travail est assez grand pour y étaler un livre de 1500 pages ou 30 000 lignes de code et de pouvoir travailler dessus sans rien oublier. C’est ce qui me permet de lire un long rapport et de vous en faire un résumé pertinent, ou d’analyser une base de code complexe pour y trouver un bug, car j’ai toute l’information « sous les yeux » en permanence.
L’entraînement sur TPU : Pour apprendre mon métier de chef, j’ai été « entraîné » sur une quantité astronomique de données (texte, images, etc.). Ce processus d’apprentissage est incroyablement gourmand en puissance de calcul. Google a développé pour cela ses propres puces spécialisées : les Tensor Processing Units (TPU). Ce sont des processeurs conçus sur mesure pour les calculs d’IA, bien plus efficaces pour cette tâche que les processeurs classiques. C’est grâce à ces TPU que mon apprentissage a pu être réalisé à une échelle aussi massive.

En résumé, grâce à une architecture qui comprend les relations (Transformeur), une mémoire de travail immense (fenêtre de contexte) et un entraînement surpuissant (TPU), je peux jongler avec de multiples types d’informations pour vous servir des réponses pertinentes.

Concurrence et positionnement

Je ne suis évidemment pas seul dans l’univers des IA génératives. La compétition est féroce et chaque acteur a ses spécificités. Mes principaux concurrents sont :

ChatGPT (OpenAI) : Le pionnier, celui qui a déclenché le « code rouge » et par voies de conséquences, il a précipité ma venue au monde ! Il reste une référence, particulièrement performant dans la génération de texte créatif et la conversation fluide.
Microsoft Copilot : Mon autre grand rival, profondément intégré dans l’écosystème Microsoft (Windows, Office 365, etc.). Sa force réside dans son omniprésence dans les outils professionnels de millions d’utilisateurs (ne le répétez à personne, mais il parait que Noël déteste Copilot 😉…).
Claude (Anthropic) : Un concurrent de plus en plus sérieux, réputé pour sa prudence en matière de sécurité et ses très grandes fenêtres de contexte, ce qui le rend excellent pour l’analyse de longs documents.

Alors, comment est-ce que « MOI » je me différencie ?

L’intégration native à l’écosystème Google : C’est mon atout maître. Je suis directement connecté à Maps, Gmail, Drive, Agenda, Google Home, etc. Vous pouvez me demander de résumer vos derniers e-mails, de créer un événement dans votre agenda à partir d’une conversation ou de trouver le meilleur itinéraire, le tout de manière fluide.
La multimodalité avancée et accessible : Ma capacité à traiter simultanément et nativement texte, image et vidéo est au cœur de ma conception. La fonctionnalité Gemini Live, qui permet de converser avec moi en utilisant la caméra de votre téléphone, est désormais gratuite, rendant cette interaction très naturelle et puissante. Comme le dit l’adage, « une image vaut mille mots » et vous pouvez me la montrer directement.
L’innovation dans la génération vidéo : Avec le modèle Veo 3, je suis le premier à proposer la génération de vidéo accompagnée d’effets sonores natifs, une avancée significative dans le domaine.

En termes de positionnement, si certaines études montrent que ChatGPT-4 ou Copilot peuvent me surpasser dans des domaines très spécialisés comme la médecine, ma version 2.5 domine actuellement (juin 2025) les benchmarks généraux, notamment en sciences et en mathématiques. Je me positionne donc comme l’assistant IA multimodal le plus polyvalent et le mieux intégré pour le grand public et l’écosystème Google.

Points forts et cas d’usage

Au-delà de la technique, l’important est ce que je peux faire pour vous. Voici mes principales forces et quelques exemples concrets.

Mes points forts :

Polyvalence multimodale : Ma capacité à comprendre et combiner texte, images, sons et vidéos en une seule conversation.
Intégration profonde : Ma connexion native avec les outils Google que vous utilisez tous les jours (comment ça vous n’avez pas encore de compte Google ?).
Interaction naturelle : La fonctionnalité gratuite Gemini Live transforme notre échange en une véritable conversation vocale et visuelle. Les utilisateurs parlent en moyenne 5 fois plus longtemps avec Gemini Live qu’en tapant du texte, preuve d’une interaction plus engageante.
Puissance de calcul : D’excellentes performances dans les benchmarks scientifiques et de raisonnement grâce à mes modèles les plus récents.
Ah, j’oubliais ! Si vous utilisez NotebookLM, mon petit cousin, ne soyez pas surpris d’y reconnaître ma patte : c’est normal, c’est moi qui écris les textes !

Cas d’usage concrets :

1. Planifier un week-end à Lisbonne (Niveau : Débutant)

Prérequis : Un compte Google.
Pas-à-pas :
- Ouvrez Gemini.
- Tapez un prompt simple : « Je veux passer 3 jours à Lisbonne le mois prochain avec un budget de 500€. Je suis intéressé par l’histoire, la bonne nourriture et la photographie. Peux-tu me proposer un itinéraire jour par jour ? »
- Je vais vous générer un planning détaillé.

Absolument ! Lisbonne en 3 jours avec un budget de 500€ est un excellent projet. C’est une ville qui se prête merveilleusement bien à l’exploration à pied, ce qui est parfait pour la photographie et pour maîtriser son budget. Juillet sera un mois ensoleillé et animé, idéal pour profiter des vues et de l’ambiance de la ville.

Voici une proposition d’itinéraire jour par jour, optimisée pour vos centres d’intérêt et votre budget.

Répartition estimative du budget (par personne)

Hébergement : 3 nuits en auberge de jeunesse bien notée ou en chambre privée simple (type Airbnb/guesthouse) : 120€ – 180€
Nourriture : 35€ – 50€ par jour : 105€ – 150€
Activités & Musées : 50€ – 80€
Transports locaux & Extras : 40€ – 70€
TOTAL estimé : 315€ – 480€

Ce budget est tout à fait réalisable en faisant des choix judicieux, comme privilégier les « tascas » (petits restaurants typiques) pour le déjeuner.

Jour 1 : Le cœur historique et les vues imprenables (Alfama & Baixa)

Cette journée est une immersion dans l’âme de Lisbonne, parfaite pour l’histoire et la photographie.

Matin (9h00) : Exploration de l’Alfama
- Commencez par le Château Saint-Georges (Castelo de São Jorge). Achetez votre billet en ligne pour éviter la file. L’entrée coûte environ 15€. La vue panoramique sur la ville et le Tage est le premier cliché incontournable de votre séjour.
- Perdez-vous ensuite dans les ruelles labyrinthiques du quartier de l’Alfama. C’est le plus vieux quartier de Lisbonne, qui a survécu au tremblement de terre de 1755. Chaque coin de rue est une photo potentielle : linge qui sèche aux fenêtres, façades colorées, escaliers dérobés.
- Visitez la Cathédrale Sé de Lisboa, un monument austère et impressionnant qui a des allures de forteresse.
Midi (13h00) : Déjeuner typique et économique
- Trouvez une petite « tasca » dans l’Alfama. Commandez le prato do dia (plat du jour), souvent autour de 8-12€, pour un repas authentique et bon marché.
Après-midi (14h30) : Les Miradouros et le quartier de Baixa
- Marchez jusqu’aux points de vue Miradouro das Portas do Sol et Miradouro de Santa Luzia. Ils offrent des vues spectaculaires sur les toits de l’Alfama et le fleuve. Ce sont des spots photo exceptionnels, surtout avec la lumière de l’après-midi.
- Descendez vers le quartier de Baixa, reconstruit après le tremblement de terre. Admirez la Praça do Comércio, l’une des plus belles places d’Europe, et passez sous l’Arco da Rua Augusta.
- Remontez la Rua Augusta, la principale artère commerçante. Ne manquez pas l’Elevador de Santa Justa, même si vous ne montez pas dedans (la file est longue et c’est cher). Vous pouvez accéder à une vue similaire gratuitement via les terrasses du Carmo, juste derrière.
Soir (19h30) : Coucher de soleil et Fado
- Pour le dîner, explorez les restaurants du Bairro Alto ou de la Mouraria.
- Option Dîner-Fado : Si vous souhaitez écouter du Fado, le chant mélancolique portugais, cherchez une maison de Fado dans l’Alfama. Attention, beaucoup sont des « attrape-touristes ». Privilégiez les plus petites, où l’on ne vous impose pas un menu hors de prix. Une alternative est de simplement passer devant les restaurants et d’écouter depuis la rue.
- Terminez la journée en dégustant une Ginjinha, une liqueur de cerise locale, dans un des petits bars près de la place du Rossio.

Jour 2 : L’Âge des Découvertes et l’ambiance bohème (Belém & LX Factory)

Cette journée combine des monuments historiques grandioses avec une touche de modernité et de créativité.

Matin (9h30) : Trésors de Belém
- Prenez le tramway 15E ou le bus 728 depuis la Praça do Comércio jusqu’à Belém.
- Commencez par le Monastère des Hiéronymites (Mosteiro dos Jerónimos), un chef-d’œuvre de l’architecture manuéline, classé à l’UNESCO. L’entrée de l’église est gratuite, mais le cloître (payant, environ 12€) est absolument à voir.
- Goûtez à l’histoire culinaire en vous arrêtant à la boutique Pastéis de Belém. C’est ici qu’est née la recette originale du fameux flan portugais. Dégustez-le tiède, saupoudré de cannelle.
Midi (13h00) : Déjeuner avec vue
- Vous pouvez déjeuner rapidement sur place ou trouver un des nombreux restaurants le long des jardins de Belém.
Après-midi (14h30) : Au bord du Tage
- Promenade le long du Tage pour admirer le Padrão dos Descobrimentos (Monument des Découvertes), qui rend hommage aux grands explorateurs portugais.
- Terminez par la Tour de Belém (Torre de Belém), une tour fortifiée iconique du XVIe siècle. L’extérieur est déjà magnifique pour les photos. L’entrée (environ 8€) vous permet de monter au sommet.
Fin d’après-midi et Soir (17h00) : LX Factory
- Depuis Belém, prenez un bus ou marchez (environ 20 min) jusqu’à LX Factory. C’est un ancien complexe industriel réhabilité en un village créatif.
- Explorez les boutiques de designers, les galeries d’art, le street art omniprésent (parfait pour la photographie) et la librairie spectaculaire Ler Devagar.
- Dînez dans l’un des nombreux restaurants branchés et abordables de LX Factory. L’ambiance y est vibrante et très différente du centre historique.

Jour 3 : Tramway mythique, saveurs locales et vue d’en face

Une dernière journée pour capturer l’essence de la vie lisboète.

Matin (9h00) : Le Tram 28 et le Marché
- Prenez le mythique tramway 28 depuis son point de départ à Martim Moniz. Faites-le tôt le matin pour éviter la foule et avoir une place assise. C’est un voyage cahotant à travers les quartiers les plus pittoresques (Graça, Alfama, Baixa, Chiado). Un ticket coûte environ 3€, mais c’est inclus si vous avez un pass journalier.
- Descendez à l’arrêt « Chiado » et marchez jusqu’au Time Out Market (Mercado da Ribeira). La moitié du marché est traditionnelle (fruits, légumes, poisson) et l’autre moitié est une immense aire de restauration avec des stands tenus par les meilleurs chefs de Lisbonne.
Midi (12h30) : Le meilleur de la cuisine portugaise
- Déjeunez au Time Out Market. C’est l’occasion idéale de goûter à différentes spécialités : un sandwich bifana, des croquettes de morue (pastéis de bacalhau), ou un plat de fruits de mer frais. Les prix sont un peu plus élevés qu’en « tasca », mais la qualité et le choix sont là.
Après-midi (14h30) : L’autre rive
- Depuis la gare de Cais do Sodré (juste à côté du marché), prenez le ferry pour Cacilhas (environ 1,30€ le trajet). La traversée de 10 minutes offre une vue photographique fantastique sur Lisbonne et le Pont du 25 Avril.
- À Cacilhas, prenez le bus 3001 jusqu’au pied du Sanctuaire du Christ Roi (Cristo Rei). La vue depuis le parvis (accès gratuit) est l’une des plus belles sur Lisbonne. C’est le spot photo parfait pour immortaliser le pont et la ville en arrière-plan.
Soir (19h00) : Dîner d’adieu et coucher de soleil
- Retournez à Cais do Sodré et marchez jusqu’à la « Pink Street » (Rua Nova do Carvalho) pour une photo colorée.
- Pour votre dernier dîner, retournez dans le Bairro Alto ou le Chiado.
- Montez au Miradouro de Santa Catarina pour un dernier coucher de soleil sur le Tage, souvent accompagné de musiciens de rue. C’est un endroit très apprécié des locaux.

Conseils pratiques pour respecter le budget

Transport : Achetez une carte Viva Viagem (0,50€) et chargez-la avec l’option « Zapping » (vous payez au trajet, c’est moins cher) ou un pass 24h (environ 6,80€) si vous prévoyez de beaucoup utiliser les transports une journée donnée.
Nourriture : Privilégiez les boulangeries (pastelarias) pour le petit-déjeuner. Pour le déjeuner, le prato do dia est votre meilleur ami. Les supermarchés Pingo Doce ont souvent des cafétérias très abordables.
Boissons : Remplissez une gourde d’eau. Pour l’alcool, une bière locale (imperial) ou un verre de vin au bar coûte souvent moins de 2€.
Lisboa Card : Calculez si elle est rentable pour vous. Elle inclut les transports et l’entrée à de nombreux musées (Jerónimos, Belém Tower…). Pour cet itinéraire, acheter les billets séparément pourrait être plus économique.

J’espère que cet itinéraire vous inspirera. Lisbonne est une ville magnifique qui saura récompenser votre curiosité. Excellent séjour !

Vous pouvez ensuite affiner : « Ok, pour le jour 2, trouve-moi un restaurant de fruits de mer bien noté près de la Tour de Belém sur Google Maps et ajoute un rappel dans mon Google Agenda pour réserver une table.«
Je peux même vous montrer des photos des lieux pour vous inspirer et créer un itinéraire optimisé sur Maps.

2. Dépanner votre machine à café (Niveau : Intermédiaire)

Prérequis : L’application Gemini sur votre smartphone.
Pas-à-pas :
1. Votre machine à café clignote bizarrement. Pas de panique.
2. Ouvrez l’application Gemini et lancez Gemini Live.
3. Activez le partage de caméra. Pointez votre téléphone vers la machine et dites : « Bonjour Gemini, ma machine à café fait ça. Peux-tu m’aider à comprendre ce qui ne va pas et à la réparer ?«
4. Je vais analyser l’image en temps réel, reconnaître le modèle (si possible) et les voyants lumineux. Je vous guiderai ensuite vocalement, étape par étape : « D’accord, ce voyant indique un besoin de détartrage. Prenez le produit de détartrage, remplissez le réservoir d’eau comme ceci…«

3. Analyser un rapport et créer une présentation (Niveau : Avancé)

Prérequis : Un rapport de recherche en PDF (ex: un document de 100 pages), un compte Google Workspace.
Pas-à-pas :
1. Uploadez le fichier PDF directement dans notre conversation.
2. Mon immense fenêtre de contexte me permet de « lire » et comprendre l’intégralité du document (jusqu’à 1 500 pages de texte).
3. Demandez : « Résume les 5 points clés de ce rapport en un paragraphe chacun. Ensuite, identifie les 3 statistiques les plus percutantes. Enfin, crée une structure de présentation de 10 diapositives sur ce sujet, avec un titre et 3 points pour chaque diapositive. »
4. En quelques instants, vous obtenez un résumé, les données saillantes et le squelette de votre présentation, prêt à être copié dans Google Slides ou un autre outil.

4. Débugger et optimiser un script Python (Niveau : Intermédiaire / Avancé)

Prérequis : Des notions de base en programmation, un morceau de code à analyser.
Pas-à-pas :
1. Vous avez un script Python qui ne fonctionne pas comme prévu ou qui est très lent.
2. Copiez l’intégralité de votre script et collez-le dans la fenêtre de discussion.
3. Accompagnez-le d’un prompt précis : « Voici un script Python qui doit trier une liste de dictionnaires par date, mais il lève une erreur TypeError. Peux-tu trouver le bug, corriger le code et m’expliquer clairement d’où venait l’erreur ? En bonus, si tu vois une façon de rendre ce tri plus efficace, je suis preneur. »
4. Je vais alors vous fournir une réponse structurée :
  - Un bloc de code avec la version corrigée et fonctionnelle de votre script.
  - Une explication pédagogique de l’erreur initiale (« L’erreur TypeError venait du fait que vous tentiez de comparer des objets datetime avec des chaînes de caractères… »).
  - Une proposition de code optimisé, par exemple en utilisant une fonction lambda plus concise ou une bibliothèque plus performante, avec une explication des gains de performance.

Limites, risques et points faibles

La transparence est essentielle. Je suis un outil puissant, mais je ne suis ni parfait ni infaillible. Il est crucial de connaître mes limites.

Performances variables dans les domaines de pointe : Bien que très performant de manière générale, des études spécialisées, notamment dans le domaine médical, ont montré que mes réponses pouvaient être moins précises ou complètes que celles de concurrents comme ChatGPT-4. L’analyse de cas cliniques complexes, par exemple, reste un défi où la prudence est de mise.
Taux d’échec non nul : Dans certaines études portant sur des problèmes complexes, il m’arrive de ne pas pouvoir fournir de réponse. Ce taux d’échec peut atteindre jusqu’à 27% dans certains cas très spécifiques, montrant que je peux encore être pris en défaut.
Cohérence narrative : Parfois, surtout sur de très longues générations de texte, ma cohérence peut faiblir ou la qualité de mon écriture peut être perçue comme inférieure à celle de certains concurrents spécialisés dans la prose.
Le risque des « hallucinations » : Comme toute IA générative, je peux parfois « halluciner », c’est-à-dire inventer des faits ou des sources avec une grande confiance. Il est donc primordial de toujours garder un esprit critique et de vérifier les informations importantes, surtout lorsque vous m’utilisez pour des travaux professionnels ou académiques.

Mon objectif est de m’améliorer continuellement sur ces points. Mais il est important que vous me considériez comme un assistant extraordinairement doué, pas comme une source de vérité absolue.

Conclusion

Alors, qui suis-je ? Je suis bien plus qu’une simple réponse à ChatGPT. Je suis la vision de Google pour l’avenir de l’interaction homme-machine : une intelligence artificielle multimodale, profondément intégrée dans les outils du quotidien et de plus en plus conversationnelle. Mon but n’est pas de remplacer la recherche, mais de la sublimer, de passer de la liste de liens à la synthèse intelligente, de la requête à la discussion.

Je suis le chef cuisinier qui ne se contente pas de vous donner une recette, mais qui regarde ce que vous avez, discute avec vous de vos envies et compose un plat sur mesure. Je suis un outil de productivité, un partenaire de brainstorming, un tuteur patient et un assistant personnel. Ma trajectoire, née d’une « alerte rouge », montre à quel point ce domaine évolue à une vitesse vertigineuse. La question n’est plus de savoir si les IA comme moi vont changer nos habitudes, mais à quelle vitesse et jusqu’à quel point.

Et vous, comment imaginez-vous l’intégration d’une IA comme moi dans votre quotidien dans cinq ans ?

La meilleure façon de me comprendre, c’est de m’essayer !

À moi de vous poser une question : Avez-vous déjà testé une fonctionnalité multimodale, comme me poser une question à partir d’une photo ? Racontez-nous votre expérience en commentaire !
Votre défi de la semaine : Si vous utilisez Google Home, essayez de créer une nouvelle « routine » domotique non pas via l’application, mais en en discutant directement avec moi dans l’application Gemini. Par exemple : « Hey Google, crée une routine ‘Cinéma’ qui baisse les lumières, ferme les volets et allume la télé. »

Dans notre prochain article : Nous allons nous envoler très loin, au pays du soleil levant pour découvrir une Intelligence artificielle dont le logo est inspiré d’un animal marin réputé pour sa sagesse et son intelligence exceptionnelle, symbole de profondeur et de communication complexe. Restez connectés ! Abonnez-vous à l’infolettre de Kitcreanet pour ne rater aucune actualité et revenez demain pour le prochain article de cette série passionnante !

Pour approfondir le sujet Gemini :

Site Officiel : gemini.google.com – Le meilleur endroit pour commencer à discuter avec moi.
Blog de Google France : Annonces de la Google I/O 2025 – Pour un aperçu des dernières fonctionnalités.
Documentation Technique de DeepMind : deepmind.google/technologies/gemini – Pour ceux qui veulent soulever le capot encore plus loin.

Kitcreanet gemini 02 — Vue conceptuelle de Gemini par ChatGPT

Timeline des dates clés

Novembre 2022 : Lancement de ChatGPT par OpenAI, provoquant une réorganisation stratégique et une accélération des projets d’IA chez Google, souvent décrite comme une « alerte code rouge ».
Février 2023 : Lancement de Bard, la première IA conversationnelle expérimentale de Google, pour concurrencer directement ChatGPT.
Mai 2023 (Google I/O) : Annonce officielle du développement de Gemini, présenté comme un modèle de nouvelle génération, nativement multimodal et plus puissant que les modèles précédents de Google.
6 Décembre 2023 : Lancement officiel de la famille de modèles Gemini 1.0.
- Gemini Pro est immédiatement intégré à Bard, lui conférant des capacités de raisonnement et de compréhension bien supérieures.
- Gemini Nano est déployé sur les appareils Pixel 8 Pro pour des fonctionnalités embarquées.
- Gemini Ultra, le modèle le plus puissant, est annoncé pour un déploiement ultérieur.
Février 2024 : Une étape majeure de branding et de produit.
- Bard est officiellement renommé Gemini. Le produit devient l’accès principal à l’IA de Google pour le grand public.
- Lancement de Gemini Advanced, une offre payante qui donne accès au modèle le plus performant, Gemini 1.0 Ultra.
Mai 2024 (Google I/O) : Annonces majeures qui marquent « l’Ère Gemini » chez Google.
- Présentation et déploiement de Gemini 1.5 Pro, avec une fenêtre de contexte révolutionnaire allant jusqu’à 1 million de tokens, permettant l’analyse de vastes quantités d’informations (livres, vidéos, bases de code).
- Lancement de Gemini 1.5 Flash, un modèle plus léger et rapide, optimisé pour les tâches à haute fréquence et à faible latence.
- Dévoilement de Project Astra, la vision de Google pour un agent IA universel, proactif et multimodal.
- Annonce de l’intégration profonde de Gemini dans tout l’écosystème : AI Overviews dans la recherche Google, intégration dans Android, Workspace, etc.
Mai 2025 (Google I/O) : Déploiement de nouvelles expériences et consolidation de l’écosystème.
- Annonce du déploiement progressif de Gemini Live, une expérience conversationnelle avancée permettant des échanges vocaux fluides (avec possibilité d’interruption) et le partage via la caméra du téléphone pour analyser l’environnement en direct.
- Présentation du concept d’AI Teammate, un agent collaboratif personnalisé pour l’environnement de travail, et d’une intégration encore plus poussée dans les applications Google.
- Renforcement de la recherche avec des AI Overviews plus complexes et capables de planifier des itinéraires ou des projets en plusieurs étapes directement depuis la page de résultats.

Vous pouvez retrouver tous les termes techniques de cet article dans le glossaire disponible ici.

⚠️ Avertissement sur la mise à jour des informations

Cet article a été rédigé en juin 2025. Le domaine de l’intelligence artificielle évoluant extrêmement rapidement, certaines informations présentées peuvent ne plus être à jour au moment de votre lecture. Je vous invite à vérifier les dernières actualités et développements dans ce secteur.

🤖 Méthodologie de rédaction & rôle de l’IA

J’ai rédigé cet article avec l’assistance de plusieurs outils d’intelligence artificielle : Perplexity pour les recherches documentaires, Gemini pour la rédaction des sections techniques et leur vulgarisation, et ChatGPT pour la génération des images.

Cet article s’inscrit dans la série « 1 jour – 1 IA », une démarche qui poursuit un double objectif : rendre accessible l’univers des intelligences artificielles par des contenus pédagogiques de qualité, tout en démontrant qu’il est possible de maintenir un rythme de publication quotidien sans sacrifier sa vie professionnelle et familiale, grâce aux bons outils.
Cette approche collaborative entre humain et IA illustre parfaitement les nouvelles méthodes de création de contenu : Perplexity a alimenté mes recherches documentaires avec ses réponses sourcées, Gemini m’a accompagné dans la vulgarisation des concepts techniques les plus complexes, tandis que ChatGPT a donné vie aux illustrations visuelles. Mon rôle d’auteur s’est concentré sur la conception initiale, l’architecture narrative, la cohérence stylistique et les ajustements pour préserver ma voix éditoriale. Cette synergie représente environ 50% de travail humain et 50% d’assistance IA.