RetVec способен эффективно распознавать специальные символы, смайлы и опечатки, что ранее могли делать только люди. Он также может анализировать сообщения с графически похожими знаками, но с разным значением.
Для обучения RetVec использовался продвинутый кодировщик, и фильтр работает более чем на 100 языках. Google старалась сделать RetVec способным читать тексты так, как это делает человек. По данным компании, новый спам-фильтр работает на 38% лучше предыдущего, а количество ложных срабатываний уменьшилось на 19,4%.
Разработчики отмечают, что RetVec эффективно определяет спам-сообщения, содержащие специальные символы, смайлы, опечатки и другие элементы, которые раньше были трудно определяемы для спам-фильтров. Алгоритм также успешно определяет сообщения с графически похожими знаками, но разным значением.
RetVec обучен определять сообщения, содержащие текст, подвергшийся манипуляциям, таким как вставка или удаление символов, опечатки и графически похожие знаки. Обучение алгоритма проводилось с использованием продвинутого кодировщика, способного эффективно кодировать любые символы и слова в формате UTF-8. В результате разработчики получили алгоритм, который работает на более чем 100 языках мира.
Высокая эффективность RetVec объясняется тем, что алгоритм определяет визуальное “сходство” слов, а не символов, из которых они состоят. Замена предыдущего текстового векторизатора на RetVec позволила повысить уровень обнаружения спама на 38% и уменьшить количество ложных срабатываний на 19,4%. Кроме того, количество используемых моделью тензорных вычислительных процессоров (TPU) снизилось на 83%. Это делает обновление RetVec одним из наиболее значимых для системы защиты Gmail за последние годы.
Ранее Google также представила специальный инструментарий искусственного интеллекта, который помогает пользователям создавать черновики писем в Gmail и “Документах”.