Tre nye BRUK flerspråklige moduler kommer til TensorFlow

Google er en av pionerene innen AI-forskning, og mange av deres prosjekter har slått hodet. AlphaZero fra Google DeepMind teamet var et gjennombrudd i AI-forskning på grunn av programmets evne til å lære kompliserte spill av seg selv (Uten menneskelig trening og intervensjon). Google har også gjort et utmerket arbeid i Naturlige språkbehandlingsprogrammer (NLP), som er en av årsakene bak Google Assistents effektivitet i forståelse og behandling av menneskelig tale.

Google kunngjorde nylig utgivelsen av tre nye BRUK flerspråklige moduler og gi flere flerspråklige modeller for å hente semantisk lignende tekst.

Språkbehandling i systemer har kommet langt, fra grunnleggende syntaks-treparsering til store vektorforeningsmodeller. Forståelse av kontekst i tekst er et av de største problemene i NLP-feltet, og Universal Sentence Encoder løser dette ved å konvertere tekst til høydimensjonale vektorer, noe som gjør rangering og betegnelse lettere.

Ifølge Google, “De tre nye modulene er alle bygget på semantisk hentearkitektur, som vanligvis deler kodingen av spørsmål og svar i separate nevrale nettverk, noe som gjør det mulig å søke blant milliarder potensielle svar innen millisekunder.”Dette hjelper med andre ord til bedre indeksering av data.

Alle de tre flerspråklige modulene er opplært ved hjelp av en multi-task dual-encoder-rammeverk, som ligner på den opprinnelige USE-modellen for engelsk, mens vi bruker teknikker vi utviklet for å forbedre dual-encoder med additiv margin softmax-tilnærming. De er utformet ikke bare for å opprettholde god ytelse for overføringslæring, men for å utføre godt og semantisk gjenfinning. ” Softmax-funksjonen brukes ofte til å spare beregningskraft ved å eksponere vektorer og deretter dele hvert element med summen av det eksponentielle.

Semantisk gjenfinning arkitektur

“De tre nye modulene er alle bygget på semantiske gjenvinningsarkitekturer, som vanligvis deler kodingen av spørsmål og svar i separate nevrale nettverk, noe som gjør det mulig å søke blant milliarder potensielle svar innen millisekunder. Nøkkelen til å bruke doble kodere for effektiv semantisk gjenfinning er å forhåndskode alle kandidatsvar på forventede inngangsspørsmål og lagre dem i en vektordatabase som er optimalisert for å løse nærmeste naboproblem, som gjør det mulig å søke i et stort antall kandidater raskt med god presisjon og tilbakekalling. ”

Du kan laste ned disse modulene fra TensorFlow Hub. For videre lesing, se GoogleAIs fulle blogginnlegg.

Facebook Twitter Google Plus Pinterest