Vision-Language Pre-Training: Vizuálna analýza: základy, najnovšie pokroky a budúce trendy

Vision-Language Pre-Training: Vizuálna analýza: základy, najnovšie pokroky a budúce trendy (Zhe Gan)

Pôvodný názov:

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Obsah knihy:

Ľudia vnímajú svet mnohými spôsobmi, napríklad obrazmi, ktoré vidia očami, alebo hlasmi, ktoré počujú ušami. Hoci každý jednotlivý kanál môže byť neúplný alebo zašumený, ľudia dokážu prirodzene zladiť a spojiť informácie získané z viacerých kanálov, aby pochopili kľúčové pojmy potrebné na lepšie pochopenie sveta.

Jednou z hlavných ambícií v oblasti umelej inteligencie (AI) je vyvinúť algoritmy, ktoré by počítačom poskytli schopnosť efektívne sa učiť z multimodálnych (alebo viackanálových) údajov. Tieto údaje sú podobné pohľadom a zvukom získaným zo zraku a jazyka, ktoré pomáhajú ľuďom pochopiť svet okolo nás. Počítače by mohli túto schopnosť napodobniť napríklad vyhľadávaním najrelevantnejších obrázkov na textový dotaz (alebo naopak) a opisovaním obsahu obrázka pomocou prirodzeného jazyka. Vision-and-Language (VL), populárna oblasť výskumu, ktorá sa nachádza na pomedzí počítačového videnia a spracovania prirodzeného jazyka (NLP), sa snaží dosiahnuť tento cieľ.

Táto monografia sa zaoberá metódami predtrénovania zraku a jazyka (VLP) pre multimodálnu inteligenciu, ktoré boli vyvinuté v posledných rokoch. Prístupy sú rozdelené do troch kategórií: (i) VLP pre obrazovo-textové úlohy, ako je titulkovanie obrazu, vyhľadávanie obrazu v texte, odpovedanie na vizuálne otázky a vizuálne uzemňovanie; (ii) VLP pre základné úlohy počítačového videnia, ako je (otvorená) klasifikácia obrazu, detekcia objektov a segmentácia; a (iii) VLP pre videotextové úlohy, ako je titulkovanie videa, vyhľadávanie videa v texte a odpovedanie na videotextové otázky. Pre každú kategóriu sa uvádza komplexný prehľad najmodernejších metód a diskutuje sa o dosiahnutom pokroku a problémoch, ktorým sa stále čelí, pričom sa ako prípadové štúdie používajú konkrétne systémy a modely. Okrem toho sa pre každú kategóriu uvádzajú pokročilé témy, ktoré sa aktívne skúmajú vo výskumnej komunite, ako sú napríklad modely s veľkým základom, jednotné modelovanie, učenie v kontexte niekoľkých snímok, znalosti, robustnosť a počítačové videnie v prírode, aby sme vymenovali aspoň niektoré.

Ďalšie údaje o knihe:

ISBN:9781638281320
Autor:
Vydavateľ:
Jazyk:anglicky
Väzba:Mäkká väzba

Nákup:

Momentálne k dispozícii, na sklade.

Ďalšie knihy autora:

Vision-Language Pre-Training: Vizuálna analýza: základy, najnovšie pokroky a budúce trendy -...
Ľudia vnímajú svet mnohými spôsobmi, napríklad obrazmi,...
Vision-Language Pre-Training: Vizuálna analýza: základy, najnovšie pokroky a budúce trendy - Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Diela autora vydali tieto vydavateľstvá:

© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)