Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends
Ľudia vnímajú svet mnohými spôsobmi, napríklad obrazmi, ktoré vidia očami, alebo hlasmi, ktoré počujú ušami. Hoci každý jednotlivý kanál môže byť neúplný alebo zašumený, ľudia dokážu prirodzene zladiť a spojiť informácie získané z viacerých kanálov, aby pochopili kľúčové pojmy potrebné na lepšie pochopenie sveta.
Jednou z hlavných ambícií v oblasti umelej inteligencie (AI) je vyvinúť algoritmy, ktoré by počítačom poskytli schopnosť efektívne sa učiť z multimodálnych (alebo viackanálových) údajov. Tieto údaje sú podobné pohľadom a zvukom získaným zo zraku a jazyka, ktoré pomáhajú ľuďom pochopiť svet okolo nás. Počítače by mohli túto schopnosť napodobniť napríklad vyhľadávaním najrelevantnejších obrázkov na textový dotaz (alebo naopak) a opisovaním obsahu obrázka pomocou prirodzeného jazyka. Vision-and-Language (VL), populárna oblasť výskumu, ktorá sa nachádza na pomedzí počítačového videnia a spracovania prirodzeného jazyka (NLP), sa snaží dosiahnuť tento cieľ.
Táto monografia sa zaoberá metódami predtrénovania zraku a jazyka (VLP) pre multimodálnu inteligenciu, ktoré boli vyvinuté v posledných rokoch. Prístupy sú rozdelené do troch kategórií: (i) VLP pre obrazovo-textové úlohy, ako je titulkovanie obrazu, vyhľadávanie obrazu v texte, odpovedanie na vizuálne otázky a vizuálne uzemňovanie; (ii) VLP pre základné úlohy počítačového videnia, ako je (otvorená) klasifikácia obrazu, detekcia objektov a segmentácia; a (iii) VLP pre videotextové úlohy, ako je titulkovanie videa, vyhľadávanie videa v texte a odpovedanie na videotextové otázky. Pre každú kategóriu sa uvádza komplexný prehľad najmodernejších metód a diskutuje sa o dosiahnutom pokroku a problémoch, ktorým sa stále čelí, pričom sa ako prípadové štúdie používajú konkrétne systémy a modely. Okrem toho sa pre každú kategóriu uvádzajú pokročilé témy, ktoré sa aktívne skúmajú vo výskumnej komunite, ako sú napríklad modely s veľkým základom, jednotné modelovanie, učenie v kontexte niekoľkých snímok, znalosti, robustnosť a počítačové videnie v prírode, aby sme vymenovali aspoň niektoré.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)