О чём эта история

Сервис Text.ru предлагает инструменты по работе с текстовым контентом, основной из которых — проверка уникальности текста. Компания работает на российском рынке более 12 лет, а её сайт ежемесячно посещает более 3 000 000 уникальных пользователей.

Компания стремилась улучшить стабильность работы сервиса, увеличить скорость выдачи и точность результатов, для чего внедрила Yandex Search API. В результате среднее время на проверку одного текста сократилось в два раза с 40–60 секунд до 15–20 секунд. Количество проверок возросло с 200 000 до 265 000 в сутки. Также сократилось количество сбоев, и, как следствие, число обращений в техническую поддержку сайта уменьшилось с 3000 в месяц до 2100.

Задача компании

Text.ru — это многофункциональный сервис по работе с текстовым контентом. Сайт предлагает проверку уникальности и нейроинструменты для работы с текстом. Например, детектор, который может распознать сгенерированный ИИ текст, и транскрибатор для преобразования аудио в текст. Также на сайте есть биржа копирайтинга. Ежемесячно сайт посещает более трёх миллионов уникальных пользователей, и аудитория продолжает расти.

Основной продукт сервиса — проверка уникальности текста. Этот инструмент анализирует контент на наличие плагиата и дубликатов. Это помогает избегать случайного или умышленного копирования материалов и, как следствие, защищать авторские права. Ежедневно сервис совершает более 200 000 проверок, что создаёт значительную нагрузку на инфраструктуру. Со временем используемые инструменты перестали справляться с таким количеством запросов, что приводило к сбоям, замедлению процессов проверок и снижению релевантности результатов. Для устранения проблем привлекали разработчиков, но проблема с простоями сервиса всё равно возникала. Поэтому компания начала поиск эффективного решения, которое улучшило бы стабильность работы сервиса и результаты выдачи без привлечения дополнительных ресурсов.

Для проверки текста на  уникальность в Text.ru использовали поисковую выдачу Яндекса и Google. Затем результаты обрабатывали и анализировали самостоятельно. Взаимодействие с поисковиками через сторонние сервисы сказывалось на скорости и релевантности результатов. Поэтому в Text.ru искали решение, которое будет взаимодействовать с поисковыми системами напрямую, что в результате ускорит обработку данных, и сервис сможет выдавать более точные результаты. Таким решением стал сервис Yandex Search API. Дополнительным преимуществом стал поиск на трёх языках: русском, английском и турецком, — ведь Text.ru предлагает проверку уникальности на этих языках.

Решение

Впервые компания познакомилась с сервисом Yandex Search API в 2022 году и после тестового подключения осталась довольна функциональностью этого инструмента, и приняла решение о внедрении. С помощью Yandex Search API можно отправлять запросы к поисковой базе данных Яндекса и получать результаты в формате XML, который легко считывают другие сервисы. Никаких сложностей с развёртыванием не возникло, подключение заняло один день силами всего одного разработчика.

Архитектура системы проверки уникальности текста Text.ru сервис-ориентированная: система представляет собой несколько связанных между собой сервисов, каждый из которых выполняет заданную функцию. При этом сервисы не имеют доступа к базам данных друг друга. Располагаться они могут на разных серверах, а обмен информацией происходит через API-запросы.

Для проверки уникальности пользователь может добавить текст в форму на сайте, загрузить документ или отправить через API. Далее текст направляется на один из серверов проверки, как правило, наименее загруженный, где происходит очистка текста от html-разметки, неподдерживаемых символов и других объектов. После текст разбивается на шинглы, или фрагменты, которые используются как запросы для поисковых систем. Содержимое найденных ссылок скачивается и сравнивается с исходным текстом, определяя совпадающие фрагменты. Таким образом удаётся распознать плагиат, даже если в предложении слова поменяли местами, изменили падежи, времена или добавили новые слова. После анализа текста по всем найденным ссылкам происходит расчёт уникальности текста исходя из общего объёма найденных неуникальных фрагментов.

Сервис Text.ru предусматривает три типа аккаунтов: бесплатный незарегистрированный, зарегистрированный и платный. При этом максимально быстрая проверка уникальности происходит у пользователей с платным аккаунтом — примерно за 15–20 секунд за счёт внедрения сервиса Yandex Search API. Также для проверки текста есть Telegram-бот, платная подписка которого тоже использует сервис Yandex Cloud.

Результаты

После внедрения Yandex Search API количество проверок текста на уникальность увеличилось с 200 000 до 265 000 в сутки, при этом среднее время на проверку сократилось с 45 секунд до 15‑20 секунд. Количество обработанных текстов выросло на 23% за счёт того, что алгоритмы Yandex Search API находят больше источников, даже среди тех, что появились совсем недавно. Сервис стал работать стабильнее, а число сбоев сократилось, что позволило направить ресурсы команды на другие задачи. В результате количество обращений в службу поддержки сократилось с 3 000 в месяц до 2 100.

В конце 2023 года компания интегрировала в свой сервис один из инструментов YandexGPT — суммаризатор. Это решение может за несколько секунд сократить объёмный текст, не превышающий 30 000 знаков, в тезисный конспект на 300–1000 знаков. В будущем компания планирует также внедрить YandexART для бизнеса — нейросеть, которая генерирует изображения. Это позволит пользователям сервиса создавать статьи под ключ: от проверки на уникальность до подбора иллюстраций к тексту.

Мнение

Никита Камышников,
генеральный директор
Никита Камышников,
генеральный директор

Совместно с командой Yandex Cloud нам удалось выявить слабые места сервиса Text.ru и усилить их за счёт внедрения Yandex Search API. Результат интеграции мы увидели в течение первых двух недель. Мы продолжаем сотрудничать с командой и получаем своевременную поддержку и обновления API для обеспечения стабильной работы.