👁️ Computer Vision

Object detection, segmentation, YOLO, CLIP, and vision-language models

All ▶ YouTube 118,097 📚 Coursera 18,102 🏛 Archive.org 1 🎤 TED 1

Insights from a Kaggle Grandmaster: Multimodal Models, Agents, Document AI & more

👁️ Computer Vision

Insights from a Kaggle Grandmaster: Multimodal Models, Agents, Document AI & more

Analytics Vidhya Beginner 1y ago

MedAI: Vision Language Models & Fine-Tuning (KnowAda)

👁️ Computer Vision

MedAI: Vision Language Models & Fine-Tuning (KnowAda)

Discover AI Advanced 1y ago

Moondream: how does a tiny vision model slap so hard? — Vikhyat Korrapati

👁️ Computer Vision

Moondream: how does a tiny vision model slap so hard? — Vikhyat Korrapati

AI Engineer Intermediate 1y ago

Transformers.js: State-of-the-art Machine Learning for the web

👁️ Computer Vision

Transformers.js: State-of-the-art Machine Learning for the web

Chrome for Developers Intermediate 1y ago

Web AI Summit 2024: State of client side machine learning

👁️ Computer Vision

Web AI Summit 2024: State of client side machine learning

Chrome for Developers Beginner 1y ago

NLP Engineer & Computer Vision Engineer #codebasics #nlp #computervision #datajob #shorts

👁️ Computer Vision

NLP Engineer & Computer Vision Engineer #codebasics #nlp #computervision #datajob #shorts

codebasics Beginner 1y ago

2024 Startup Battlefield Top 20 Finalists: Advex AI | TechCrunch Disrupt 2024

👁️ Computer Vision

2024 Startup Battlefield Top 20 Finalists: Advex AI | TechCrunch Disrupt 2024

TechCrunch Beginner 1y ago

Gwanghyun (Bradley) Kim - BeyondScene: Higher-Resolution Human-Scene Generation

👁️ Computer Vision

Gwanghyun (Bradley) Kim - BeyondScene: Higher-Resolution Human-Scene Generation

Cohere Advanced 1y ago

Stanford Seminar - Open-world Segmentation and Tracking in 3D

👁️ Computer Vision

Stanford Seminar - Open-world Segmentation and Tracking in 3D

Stanford Online Intermediate 1y ago

Revolutionizing sign language with AI

👁️ Computer Vision

Revolutionizing sign language with AI

TensorFlow Official Beginner 1y ago

Neuralift AI builds trust using W&B Weave

👁️ Computer Vision

Neuralift AI builds trust using W&B Weave

Weights & Biases Beginner 1y ago

The Next Decade in AI and Computer Vision

👁️ Computer Vision

The Next Decade in AI and Computer Vision

a16z Intermediate 1y ago

[Paper Club] SWE-Bench [OpenAI Verified/Multimodal] + MLE-Bench with Jesse Hu

👁️ Computer Vision

[Paper Club] SWE-Bench [OpenAI Verified/Multimodal] + MLE-Bench with Jesse Hu

Latent Space Beginner 1y ago

Single Shot Multibox Detector | SSD Object Detection Explained and Implemented

👁️ Computer Vision

Single Shot Multibox Detector | SSD Object Detection Explained and Implemented

ExplainingAI Beginner 1y ago

YOLOv11: How to Train for Object Detection on a Custom Dataset | Step-by-step guide

👁️ Computer Vision

YOLOv11: How to Train for Object Detection on a Custom Dataset | Step-by-step guide

Roboflow Beginner 1y ago

Data As a Corporate Asset—the GenAI-era Take (Part 2)

👁️ Computer Vision

Data As a Corporate Asset—the GenAI-era Take (Part 2)

Microsoft Developer Beginner 1y ago

YOLO11: Performance Benchmark and Real World Use Cases

👁️ Computer Vision

YOLO11: Performance Benchmark and Real World Use Cases

Roboflow Intermediate 1y ago

Computer Vision Explained in 30s

👁️ Computer Vision

Computer Vision Explained in 30s

365 Data Science Beginner 1y ago

Multimodal RAG YT Video

👁️ Computer Vision

Multimodal RAG YT Video

Srikantan Sankaran Intermediate 1y ago

Video Analytics with AI | Live Coding & Q&A (Oct 9th)

👁️ Computer Vision

Video Analytics with AI | Live Coding & Q&A (Oct 9th)

Roboflow Intermediate 1y ago

How to use OCR | Get Started with Optical Character Recognition

👁️ Computer Vision

How to use OCR | Get Started with Optical Character Recognition

Roboflow Beginner 1y ago

GPT-4o: Fine-tune OpenAI's Multimodal Model | Live Coding & Q&A (Oct 3rd)

👁️ Computer Vision

GPT-4o: Fine-tune OpenAI's Multimodal Model | Live Coding & Q&A (Oct 3rd)

Roboflow Intermediate 1y ago

Blobs to Clips: Efficient End-to-End Video Data Loading - Andrew Ho & Ahmad Sharif, Meta

👁️ Computer Vision

Blobs to Clips: Efficient End-to-End Video Data Loading - Andrew Ho & Ahmad Sharif, Meta

PyTorch Beginner 1y ago

Llama 3.2: Best Multimodal Model Yet? (Vision Test)

👁️ Computer Vision

Llama 3.2: Best Multimodal Model Yet? (Vision Test)

Mervin Praison Beginner 1y ago