Image and Video Segmentation with SAM 2, Gemma 2 for Efficient Language Models, Boosting Small Models with Contrastive Fine-Tuning, and MM-Vet v2 Challenges Large Multimodal Models
MP3•Episod hem
Manage episode 432615995 series 3568650
Innehåll tillhandahållet av PocketPod. Allt poddinnehåll inklusive avsnitt, grafik och podcastbeskrivningar laddas upp och tillhandahålls direkt av PocketPod eller deras podcastplattformspartner. Om du tror att någon använder ditt upphovsrättsskyddade verk utan din tillåtelse kan du följa processen som beskrivs här https://sv.player.fm/legal.
SAM 2: Segment Anything in Images and Videos Gemma 2: Improving Open Language Models at a Practical Size Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning OmniParser for Pure Vision Based GUI Agent SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities
…
continue reading
70 episoder