Только что смотрел на youtube видео с субтитрами и через несколько минут стал замечать странные слова, которые не произносятся в видео. Полез в настройки и с удивлением обнаружил, что это автосубтитры! Почти все слова были распознаны правильно, несмотря на шумы и все такое. Если не вчитываться в каждое слово, то автосубтитры сложно отличить от записанных людьми.
Проверил на разных англоязычных видео - работает очень прилично, если нет сильного акцента. Огромная разница, по сравнению с тем, что было раньше.
В качестве примера - видео ниже (включите субтитры вручную). Есть ощущение, что в местах, где слова проглочены или искажены акцентом, система старается подобрать слово наиболее близкое не только по звучанию, но и по смыслу в контексте.