Googles taligenkänningsteknik har nu en felfrekvens på 4,9%

Googles taligenkänningsteknik har nu en felfrekvens på 4,9%

Googles VD Sundar Pichai tillkännagav idag att företagets taligenkänningsteknik nu har uppnått en felfrekvens på 4,9 procent. På annat sätt transkriberar Google vart 20: e ord felaktigt. Det är en stor förbättring från de 23 procent som företaget såg 2013 och de 8 procent som företaget delade för två år sedan vid I / O 2015.

Tidvattnet avslöjades vid Googles I / O 2017-utvecklarkonferens, där stor vikt läggs på artificiell intelligens. Deep learning, en typ av AI, används för att uppnå korrekt bildigenkänning och taligenkänning. Metoden innebär att man tar in mycket data för att träna system som kallas neurala nätverk och sedan mata nya data till dessa system i ett försök att förutsäga.

“Vi har anv√§nt r√∂st som en input i m√•nga av v√•ra produkter,” sa Pichai p√• scenen. ‚ÄĚDet beror p√• att datorer blir mycket b√§ttre p√• att f√∂rst√• tal. Vi har f√•tt betydande genombrott, men takten √§ven sedan f√∂rra √•ret har varit ganska fantastisk att se. V√•r ordfelsgrad forts√§tter att f√∂rb√§ttras √§ven i mycket bullriga milj√∂er. Det √§r d√§rf√∂r om du pratar med Google p√• din telefon eller Google Home kan vi ta din r√∂st exakt. ‚ÄĚ

För jämförelsens skull förklarade Microsoft i oktober 2016 att de hade nått taligenkänningsparitet med människor. Dess ordfel var då 5,9 procent, men det är inte klart om de två företagen följer samma utvärderingsstandarder.

Google har tagit fram sina förbättringar av taligenkänning ett tag nu. Tidigare i år sa företaget att det hade minskat sin taligenkänningsordfel med mer än 30 procent sedan 2012. Den främsta anledningen till den drastiska förbättringen? Google bekräftade att det är användningen av neurala nätverk.

Pichai delade ocks√• en intressant godbit om Home: s utveckling: ‚ÄĚN√§r vi skickade Google Home planerade vi ursprungligen att inkludera √•tta mikrofoner … Men tack vare neurala n√§tverk, med en teknik som kallades‚ÄĚ neural beam forming ‚ÄĚ, kunde vi leverera den med bara tv√• mikrofoner och uppn√• samma kvalitet. ‚ÄĚ

Så om du är förvånad över hur bra (eller dåligt) Google förstår vad du säger, är det därför. Erkännande blir bättre och bättre, men det finns fortfarande utrymme för att få den ordfelfrekvensen närmare 0 procent.