Meet SAM 3, a unified model that enables detection, segmentation, and tracking of objects across images and videos. SAM 3 introduces some of our most highly requested features like text and exemplar prompts to segment all objects of a target category. Learnings from SAM 3 will help power new features in Instagram Edits and Vibes, bringing advanced segmentation capabilities directly to creators. We’re sharing SAM 3 under the SAM License so others can use it to build their own experiences 🔗 Learn more: https://go.meta.me/699549
SAM3 is amazing - you can also try this more interactively on chat.vlm.run, and do much more. Video segmentation and 3D coming soon!
SAM 3 is more than a technical release — it’s a paradigm shift. Unifying detection, segmentation, and tracking means turning images and video into living language for creators. Releasing it under the SAM license amplifies the impact: not just technology, but a shared ground for new experiences.
🚗💥 Pourquoi certaines voitures autonomes ne détectent pas un piéton qui traverse hors passage ? Parce que l’IA actuelle ne comprend pas encore le monde comme un humain. Un conducteur humain anticipe : il voit un piéton au bord de la route et devine qu’il peut traverser, même si ce n’est pas “prévu”. Les voitures autonomes, elles, fonctionnent autrement : ➡️ elles reconnaissent des formes ➡️ elles comparent des pixels ➡️ elles réagissent à des situations vues dans leurs données … mais elles n’ont pas encore de bon sens ni de compréhension de l’intention humaine. Résultat : un piéton en dehors du passage, la nuit, partiellement caché ou en mouvement inattendu peut devenir un “cas non standard”… et donc mal détecté. C’est un rappel important : une IA n’est pas un cerveau humain — elle ne voit pas, n’anticipe pas et ne comprend pas comme nous. La vraie sécurité arrivera quand les modèles auront : ✔️ une perception multimodale ✔️ un modèle du monde ✔️ une capacité à anticiper les comportements humains ✔️ une forme de “sens commun” En d’autres termes : 👉 l’IA doit apprendre à voir et à comprendre, pas seulement à reconnaître.
Access denied 🤔
Great enhancement for computer vision! Come share what you build and learn with 8,800+ of us in the AI Agents group on linkedin: https://www.linkedin.com/groups/6672014
there goes manual labelling
Every SAM release raises the ceiling for what creators can do from a single image. SAM 3 feels closer to ‘understanding’ than just segmenting, especially with text and exemplar prompts. The jump from tools to true visual reasoning is getting very real.