Googles taligenkänningsteknik har nu en felfrekvens på 4,9%

Googles taligenkänningsteknik har nu en felfrekvens på 4,9%

Googles VD Sundar Pichai tillkännagav idag att företagets taligenkänningsteknik nu har uppnått en felfrekvens på 4,9 procent. På annat sätt transkriberar Google vart 20: e ord felaktigt. Det är en stor förbättring från de 23 procent som företaget såg 2013 och de 8 procent som företaget delade för två år sedan vid I / O 2015.

Tidvattnet avslöjades vid Googles I / O 2017-utvecklarkonferens, där stor vikt läggs på artificiell intelligens. Deep learning, en typ av AI, används för att uppnå korrekt bildigenkänning och taligenkänning. Metoden innebär att man tar in mycket data för att träna system som kallas neurala nätverk och sedan mata nya data till dessa system i ett försök att förutsäga.

“Vi har använt röst som en input i många av våra produkter,” sa Pichai på scenen. ”Det beror på att datorer blir mycket bättre på att förstå tal. Vi har fått betydande genombrott, men takten även sedan förra året har varit ganska fantastisk att se. Vår ordfelsgrad fortsätter att förbättras även i mycket bullriga miljöer. Det är därför om du pratar med Google på din telefon eller Google Home kan vi ta din röst exakt. ”

För jämförelsens skull förklarade Microsoft i oktober 2016 att de hade nått taligenkänningsparitet med människor. Dess ordfel var då 5,9 procent, men det är inte klart om de två företagen följer samma utvärderingsstandarder.

Google har tagit fram sina förbättringar av taligenkänning ett tag nu. Tidigare i år sa företaget att det hade minskat sin taligenkänningsordfel med mer än 30 procent sedan 2012. Den främsta anledningen till den drastiska förbättringen? Google bekräftade att det är användningen av neurala nätverk.

Pichai delade också en intressant godbit om Home: s utveckling: ”När vi skickade Google Home planerade vi ursprungligen att inkludera åtta mikrofoner … Men tack vare neurala nätverk, med en teknik som kallades” neural beam forming ”, kunde vi leverera den med bara två mikrofoner och uppnå samma kvalitet. ”

Så om du är förvånad över hur bra (eller dåligt) Google förstår vad du säger, är det därför. Erkännande blir bättre och bättre, men det finns fortfarande utrymme för att få den ordfelfrekvensen närmare 0 procent.