Исследование: как ReText.AI очеловечивает ИИ-текст — анализ 20 000 текстов в 20 категориях
Мы в ReText.AI разрабатываем технологию очеловечивания текста — алгоритм, который берёт текст, сгенерированный нейросетью, и переписывает его так, чтобы он читался как написанный человеком. Не подмена синонимов, а полноценная переработка стиля, структуры и лексики.
Но насколько это реально работает? Мы решили проверить на масштабе — и провели исследование, в котором проанализировали 19 804 пары текстов в 20 тематических категориях. В этой статье — полные результаты с цифрами, графиками и выводами.
💡 Коротко для нетерпеливых: В 90%+ случаев очеловечивание успешно снижает вероятность определения текста как ИИ-сгенерированного. Для 14 из 20 категорий более половины текстов после обработки полностью «обманывают» детектор.
Зачем мы провели это исследование
С ростом популярности ChatGPT, GigaChat, YandexGPT и других генеративных моделей возникла обратная проблема: всё больше платформ, вузов и редакций внедряют детекторы ИИ-текста. Студентам снижают оценки, авторов обвиняют в нечестности, а SEO-тексты фильтруются поисковиками.
Мы в ReText.AI создали функцию очеловечивания текста именно для решения этой проблемы: чтобы люди, использующие ИИ как инструмент для черновиков и идей, могли довести текст до качества, неотличимого от написанного человеком.
Но мы не хотели просто заявить «это работает». Мы хотели доказать — на данных.
Данные: что мы анализировали
Источники текстов
Для валидации общего подхода и оценки эффективности метода очеловечивания мы использовали тексты из двух публично доступных академических датасетов:
- COLING-2025 (Workshop on MGT Detection, Subtask B: Multilingual MGT detection) — русскоязычные и англоязычные тексты
- AINL-eval — научные тексты
Примечание: указанные датасеты использовались исключительно в исследовательских целях — для тестирования методологии и оценки метрик качества. Продуктовая версия хуманизатора ReText.AI обучена на собственном проприетарном датасете компании.
Тематические домены
Исходные тексты охватывают широкий спектр тем:
- Социальные сети — посты, комментарии, обсуждения
- Википедия — энциклопедические статьи
- Художественная литература — проза, рассказы
- Административные документы — деловая переписка, регламенты
- Научные тексты — статьи, исследования, рефераты
Генерация «машинных» вариантов
Для каждого человеческого текста мы создали «машинизированный» вариант — текст, переписанный одной из 8 нейросетей:
Модель | Параметры | Разработчик |
|---|---|---|
| Llama-3.2-3B-Instruct | 3B | Meta |
| Qwen3-8B | 8B | Alibaba |
| GigaChat-2-Max | — | Сбер |
| GLM-4.6 | — | ZAI |
| Llama-3.3-70B-Instruct | 70B | Meta |
| GPT-oss-120B | 120B | OpenAI |
| Qwen3-235B-A22B-Instruct | 235B | Alibaba |
| T-pro-it-1.0 | — | T-Bank |
Зачем 8 моделей? Мы хотели убедиться, что очеловечивание работает не только для текстов одного ChatGPT, а для любой популярной модели. Каждая генерирует текст со своими особенностями — и наш алгоритм должен справляться со всеми.
Оценочный датасет
После фильтрации и контроля качества оценочный датасет составил 19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант). Преобладающий язык — русский (~80%), остальное — английский и многоязычные тексты.
Все тексты были автоматически классифицированы по 20 тематическим кластерам: от рецептов и кулинарии до IT и разработки ПО.
Методология: как мы обучали модель
Базовая модель
Для данного исследования мы использовали модель Gemma-2-9B-IT (Google), распространяемую по лицензии Gemma Terms of Use, которая разрешает коммерческое использование и создание производных моделей. Мы выбрали её по нескольким причинам:
- Хорошее качество генерации на русском языке
- Относительно компактный размер (9B параметров) — быстрый инференс
- Архитектура, оптимизированная для задач работы с текстом
- Коммерчески дружелюбная лицензия — подходит для продуктового использования
Примечание: архитектура продуктовой модели и обучающие данные в ReText.AI могут отличаться от описанных в данном исследовании.
Метод обучения: SimPO
Для дообучения мы использовали SimPO (Simple Preference Optimization) — метод из семейства RLHF (Reinforcement Learning from Human Feedback). Суть:
- Модель генерирует несколько вариантов «очеловеченного» текста для каждого входного текста
- Каждый вариант прогоняется через наш ИИ-детектор — оценивается вероятность того, что текст написан нейросетью
- Варианты ранжируются по метрике humanizer_score, которая рассчитывается как:
humanizer_score = (prob_ai_original − prob_ai_humanized) × confidence_weight
Где:
prob_ai_original— вероятность ИИ-авторства исходного текстаprob_ai_humanized— вероятность ИИ-авторства после очеловечиванияconfidence_weight— коэффициент уверенности детектора
- Лучшие пары (успешная vs. неуспешная гуманизация) формируют обучающий датасет для SimPO
Простыми словами: мы учили модель на примерах «вот так хорошо, вот так плохо» — и она научилась различать, какие стилистические приёмы делают текст более «человечным».
Распределение humanizer_score по категориям
Визуализация ниже показывает, как распределяется наша ключевая метрика humanizer_score по всем 20 тематическим кластерам. Чем выше значение — тем эффективнее очеловечивание в данной категории:
Результаты: снижение вероятности обнаружения ИИ
Общая картина
Главный вопрос: насколько очеловечивание снижает вероятность того, что детектор определит текст как ИИ-сгенерированный?
Ответ: радикально.
Метрика | До очеловечивания | После очеловечивания |
|---|---|---|
Медианная вероятность ИИ | ~0.93 (93%) | ~0.47 (47%) |
Тексты с вероятностью ИИ > 0.8 | Подавляющее большинство | <20% |
Тексты с вероятностью ИИ < 0.5 | Единицы | >50% |
До обработки распределение вероятностей сжато к единице — практически все тексты уверенно определяются как машинные. После обработки распределение смещается влево — половина текстов уже классифицируется как человеческие.
По тематическим категориям: доля улучшенных текстов
Для более чем 90% текстов в каждой категории хуманизатор успешно снижает вероятность обнаружения ИИ:
Категория | Доля текстов с улучшением |
|---|---|
🍳 Рецепты и кулинария | 100.0% |
🏠 Повседневная жизнь и размышления | 93.8% |
👥 Управление персоналом и организация | 93.7% |
⚖️ Правовые системы и законодательство | 93.4% |
📣 Маркетинг и реклама | 93.0% |
🔬 Научные исследования и методы | 92.7% |
🧠 Психология и общество | 91.9% |
📚 Литература и анализ текстов | 91.5% |
🎓 Образование и обучение | 90.9% |
💼 Бизнес и анализ рынка | 90.4% |
📊 Анализ данных и ML | 89.8% |
🏙️ Городские системы и услуги | 89.0% |
💰 Экономика | 88.7% |
✍️ Личные истории и повествования | 88.1% |
📰 Новости про Россию | 87.9% |
🎮 Компьютерные игры | 87.3% |
🖥️ Информационные системы и разработка ПО | 85.2% |
🎨 Культура и искусство | 85.0% |
🔧 Цифровые технологии и инновации | 84.7% |
🌐 Многоязычные тексты | 83.5% |
Ключевое наблюдение: даже для самых сложных категорий (IT, цифровые технологии, многоязычные тексты) более 83% текстов показывают улучшение.
Результаты: кто полностью «обманул» детектор
Снижение вероятности — это одно. Но нас интересовал и более строгий вопрос: какая доля текстов после очеловечивания полностью меняет вердикт детектора — из «ИИ» в «человек»?
Мы назвали это Hard Flip Rate — процент текстов, которые до обработки определялись как ИИ-сгенерированные, а после — как человеческие (вероятность ИИ < 0.5).
Категория | Hard Flip Rate |
|---|---|
🍳 Рецепты и кулинария | 66.7% |
⚖️ Правовые системы и законодательство | 64.2% |
💼 Бизнес и анализ рынка | 61.0% |
🔬 Научные исследования и методы | 60.8% |
👥 Управление персоналом и организация | 59.9% |
📣 Маркетинг и реклама | 58.9% |
🧠 Психология и общество | 57.8% |
🏙️ Городские системы и услуги | 57.1% |
📚 Литература и анализ текстов | 56.4% |
📊 Анализ данных и ML | 56.2% |
✍️ Личные истории и повествования | 55.7% |
🎓 Образование и обучение | 52.9% |
💰 Экономика | 51.6% |
📰 Новости про Россию | 51.1% |
🎮 Компьютерные игры | 49.3% |
🖥️ Информационные системы и разработка ПО | 49.3% |
🎨 Культура и искусство | 47.4% |
🔧 Цифровые технологии и инновации | 44.0% |
🌐 Многоязычные тексты | 43.6% |
🏠 Повседневная жизнь и размышления | 41.0% |
Результат: для 14 из 20 категорий более половины текстов полностью «обманывают» детектор. Для топ-6 категорий (право, бизнес, наука, HR, маркетинг, кулинария) показатель превышает 58%.
Где очеловечивание работает лучше всего
🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)
Кулинарные тексты показали абсолютно лучшие результаты. Причина: рецепты имеют характерную разговорную структуру, которую наш хуманизатор воспроизводит особенно хорошо — «добавьте щепотку», «на глаз», «когда подрумянится» вместо «необходимо добавить 2.5 г NaCl».
⚖️ Правовые тексты — 64.2% hard flip
Юридические тексты хуманизируются эффективно, потому что правовой стиль имеет устоявшиеся формулировки. Модель научилась делать их более «живыми», сохраняя точность смысла.
💼 Бизнес и наука — 60%+
Деловые и научные тексты имеют формализованную структуру, которую можно естественно «разбавить» человеческими конструкциями — вводными словами, авторскими ремарками, вариативностью синтаксиса.
Средняя дельта вероятности ИИ по категориям
Ещё одна метрика — насколько сильно в среднем снижается вероятность ИИ-авторства:
Категория | Средняя дельта |
|---|---|
Рецепты и кулинария | +0.518 |
Управление персоналом | +0.457 |
Правовые системы | +0.451 |
Бизнес и анализ рынка | +0.450 |
Психология и общество | +0.429 |
Литература и анализ текстов | +0.414 |
Маркетинг и реклама | +0.413 |
Научные исследования | +0.404 |
В среднем вероятность ИИ-авторства снижается на 0.35–0.52 пункта — это кардинальное изменение.
Где есть сложности
🏠 Повседневная жизнь и размышления — 41.0% hard flip
Парадокс: эта категория показывает отличный процент улучшения (93.8%), но низкий hard flip. Причина — повседневные тексты и так имеют разнообразный стиль, что затрудняет «переключение» детектора через порог 0.5.
🌐 Многоязычные тексты — 43.6% hard flip
Наш датасет содержал преимущественно русскоязычные и англоязычные тексты. Для других языков модели нужен больший обучающий набор. Мы планируем расширить многоязычную поддержку в следующих версиях.
🖥️ IT и разработка ПО — 49.3% hard flip
Технические тексты с терминологией, фрагментами кода и специфическим синтаксисом — самая сложная категория для очеловечивания. Тем не менее, для почти половины текстов детектор полностью «обманут».
Общие выводы
- Для более чем 90% текстов хуманизатор успешно снижает вероятность обнаружения ИИ — вне зависимости от тематики
- Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора (из «ИИ» в «человек»)
- Несмотря на относительно компактную модель (9B параметров) и датасет (~20K пар), дообучение методом SimPO показало высокую эффективность
- Лучшие результаты — в структурированных доменах (право, бизнес, наука, маркетинг)
- Есть потенциал для улучшения в многоязычных текстах и IT-тематике
Что это значит для пользователей
Если вы студент или аспирант
Используете ChatGPT или GigaChat для черновиков курсовых и рефератов? Очеловечивание текста — это не «обман», а инструмент для доведения черновика до человеческого уровня. В 60%+ случаев текст по правовым и научным темам станет неотличим от написанного вами.
Если вы копирайтер или маркетолог
Генерируете контент для клиентов с помощью ИИ? Маркетинговые и деловые тексты очеловечиваются с 58–61% hard flip rate. Прогоните текст через хуманизатор, а затем проверьте в нашем ИИ-детекторе — и будьте уверены в результате.
Если вы SEO-специалист
Поисковые системы учатся определять ИИ-контент. Очеловечивание снижает вероятность фильтрации — и сохраняет вашу работу с органической выдачей.
Оптимальный workflow
- Генерация черновика в ChatGPT / GigaChat / любой нейросети
- Очеловечивание в ReText.AI
- Проверка через ИИ-детектор
- Финальная редактура вручную
Для разработчиков и бизнеса (API)
Мы предоставляем API как для ИИ-детектора, так и для функции очеловечивания текста. Вы можете легко интегрировать наши технологии в свой сервис — просто напишите нам на team@retext.ai.
Подробнее о наших инструментах: читайте обзор ТОП-20 нейросетей онлайн в 2026 году, где мы подробно разбираем весь продуктовый стек ReText.AI.
FAQ
Что такое очеловечивание ИИ-текста?
Это технология, которая переписывает текст, сгенерированный нейросетью, таким образом, чтобы он читался как написанный человеком. Не простая замена слов синонимами, а глубокая переработка стиля, структуры и лексики с помощью специально обученной модели.
Какие нейросети вы тестировали?
Мы тестировали тексты, сгенерированные 8 моделями: Llama-3.2-3B, Qwen3-8B, GigaChat-2-Max, GLM-4.6, Llama-3.3-70B, GPT-oss-120B, Qwen3-235B и T-pro-it-1.0. Это покрывает текущий ландшафт от 3B до 235B параметров.
Какой размер был у тестового набора?
19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант), классифицированных по 20 тематическим категориям.
Насколько это эффективно?
Для более чем 90% текстов вероятность определения как ИИ снижается. Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора из «ИИ» в «человек».
В каких категориях очеловечивание работает лучше всего?
Лидеры: рецепты и кулинария (66.7% hard flip), правовые тексты (64.2%), бизнес (61.0%), наука (60.8%), HR (59.9%) и маркетинг (58.9%).
Где очеловечивание работает хуже?
Самые сложные категории: повседневные тексты (41.0%), многоязычные тексты (43.6%), цифровые технологии (44.0%) и культура/искусство (47.4%). Но даже для них 83%+ текстов показывают улучшение.
Это этично?
Мы считаем, что ИИ — это инструмент, а не автор. Как калькулятор не заменяет математика, так и очеловечивание не заменяет писателя — оно помогает довести черновик до качества, достойного публикации. Важно: мы не призываем выдавать ИИ-текст за свой без доработки. Мы призываем использовать технологию как часть рабочего процесса.
Как попробовать очеловечивание?
Перейдите на retext.ai/ru/ochelovechit-text — до 1 000 символов можно обработать бесплатно.
Техническое приложение для разработчика
Параметры исследования
Оценочные датасеты | COLING-2025 (MGT Detection), AINL-eval (только для валидации) |
Количество текстовых пар | 19 804 |
Количество моделей-генераторов | 8 |
Количество тематических кластеров | 20 |
Базовая модель хуманизатора | Gemma-2-9B-IT (unsloth) |
Метод оптимизации | SimPO (Simple Preference Optimization) |
Метрика оценки | humanizer_score = (prob_orig − prob_hmnz) × confidence_weight |
Детектор для оценки | isFake.ai / ReText.AI AI Detector |
Основной язык | Русский (~80%), английский (~15%), другие (~5%) |