Google tilbyr gratis metadatasett med få skudd Deep Learning AI og maskinlæringsalgoritmer for rask og effektiv bildeklassifisering i TensorFlow og PyTorch

Google har kunngjort tilgjengeligheten av flere datasett bestående av forskjellige, men begrensede naturlige bilder. Søkegiganten er overbevist om at offentlig tilgjengelige data vil føre tempoet til maskinlæring og kunstig intelligens og samtidig redusere tiden det tar å trene AI-modellene på en minimal mengde data. Google kaller det nye initiativet 'Free Meta-Datasets' som vil hjelpe AI-modeller med å 'lære' på mindre data. 'Few-Shot AI' fra selskapet er optimalisert for å sikre at AI lærer nye klasser fra bare noen få representative bilder.

Google har forstått behovet for å trene AI- og maskinlæringsmodeller med færre datasett og har lansert 'Meta-datasett', en liten samling bilder som skal bidra til å redusere datamengden som trengs for å forbedre nøyaktigheten til algoritmer. Selskapet hevder at bruk av få-skudds bildeklassifiseringsteknikker, AI og ML-modellene vil få den samme innsikten fra mye færre representative bilder.

Google AI kunngjør metadatasett: et datasett med datasett for få skuddlæring:

Deep Learning for AI og Machine Learning har vokst eksponentielt i ganske lang tid. Imidlertid er kjernekravet tilgjengeligheten av data av høy kvalitet, og det også i store mengder. De store mengder manuelt merkede treningsdataene er ofte vanskelige å skaffe, og kan noen ganger også være upålitelige. Forstå risikoen ved store datasett, har Google kunngjort tilgjengeligheten av en samling metadatasett.

Gjennom “Meta-datasett: Et datasett med datasett for å lære å lære av få eksempler” (presentert på ICLR 2020) har Google foreslått en storstilt og mangfoldig målestokk for å måle kompetansen til forskjellige bildeklassifiseringsmodeller i et realistisk og utfordrende par -skuddinnstilling, og tilbyr et rammeverk der man kan undersøke flere viktige aspekter ved klassifisering av få skudd. I hovedsak tilbyr Google 10 offentlig tilgjengelige og gratis å bruke datasett med naturlige bilder. Disse datasettene består av ImageNet, CUB-200-2011, Fungi, håndskrevne tegn og doodles. Koden er offentlig og inkluderer en notisbok som demonstrerer hvordan Meta-datasett kan brukes i TensorFlow og PyTorch.

Few-shot-klassifisering går utover standardopplærings- og dyplæringsmodellene. Det tar generalisering til helt nye klasser ved testtid. Bildene som ble brukt under testingen ble med andre ord ikke sett under trening. I noen få-klassifisering inneholder treningssettet klasser som er helt usammenhengende med de som vises på testtiden. Hver testoppgave inneholder en støttesettav noen få merkede bilder som modellen kan lære om de nye klassene og en usammenheng spørresettav eksempler som modellen deretter blir bedt om å klassifisere.

Et metadatasett er en stor komponent der modell studerer generalisering til helt nye datasett, hvorfra ingen bilder fra noen klasse ble sett under trening. Dette er i tillegg til den tøffe generaliseringsutfordringen for nye klasser som ligger i læringsoppsettet for få skudd.

Hvordan hjelper metadatasett med dyp læring for AI og maskinlæringsmodeller?

Meta-datasett representerer den største skalaen organisert målestokk for kryssdatasett, få skudd bildeklassifisering til dags dato. Den introduserer også en prøvetakingsalgoritme for å generere oppgaver med forskjellige egenskaper og vanskeligheter, ved å variere antall klasser i hver oppgave, antall tilgjengelige eksempler per klasse, introdusere klasse ubalanser, og for noen datasett, variere graden av likhet mellom klasser for hver oppgave.

Meta-datasett introduserer nye utfordringer for noen få klassifiseringer. Googles forskning er fremdeles foreløpig, og det er mye grunn til å dekke. Søkegiganten har imidlertid hevdet at forskere opplever suksess. Noen av de bemerkelsesverdige eksemplene inkluderer bruk av smart utformet oppgavekondisjonering, mer sofistikert innstilling av hyperparameter, en 'meta-baseline' som kombinerer fordelene med pre-training og meta-learning, og til slutt bruker funksjonsvalg for å spesialisere en universell representasjon for hver oppgave .