ReText.AI

Исследование: как ReText.AI очеловечивает ИИ-текст — анализ 20 000 текстов в 20 категориях

Оленька Ш
8 апреля 2026 г.
-
0
Оленька Ш
Команда ReText.AI проанализировала 19 804 текста, сгенерированных 8 нейросетями (GPT, GigaChat, Llama, Qwen, T-pro). Результат: в 90%+ случаев очеловечивание снижает вероятность обнаружения ИИ. Полные данные, графики и выводы.
Содержание:
Зачем мы провели это исследование
Данные: что мы анализировали
Источники текстов
Тематические домены
Генерация «машинных» вариантов
Оценочный датасет
Методология: как мы обучали модель
Базовая модель
Метод обучения: SimPO
Распределение humanizer_score по категориям
Результаты: снижение вероятности обнаружения ИИ
Общая картина
По тематическим категориям: доля улучшенных текстов
Результаты: кто полностью «обманул» детектор
Где очеловечивание работает лучше всего
🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)
⚖️ Правовые тексты — 64.2% hard flip
💼 Бизнес и наука — 60%+
Средняя дельта вероятности ИИ по категориям
Где есть сложности
🏠 Повседневная жизнь и размышления — 41.0% hard flip
🌐 Многоязычные тексты — 43.6% hard flip
🖥️ IT и разработка ПО — 49.3% hard flip
Общие выводы
Что это значит для пользователей
Если вы студент или аспирант
Если вы копирайтер или маркетолог
Если вы SEO-специалист
Оптимальный workflow
Для разработчиков и бизнеса (API)
FAQ
Что такое очеловечивание ИИ-текста?
Какие нейросети вы тестировали?
Какой размер был у тестового набора?
Насколько это эффективно?
В каких категориях очеловечивание работает лучше всего?
Где очеловечивание работает хуже?
Это этично?
Как попробовать очеловечивание?
Техническое приложение для разработчика
Параметры исследования

Мы в ReText.AI разрабатываем технологию очеловечивания текста — алгоритм, который берёт текст, сгенерированный нейросетью, и переписывает его так, чтобы он читался как написанный человеком. Не подмена синонимов, а полноценная переработка стиля, структуры и лексики.

Но насколько это реально работает? Мы решили проверить на масштабе — и провели исследование, в котором проанализировали 19 804 пары текстов в 20 тематических категориях. В этой статье — полные результаты с цифрами, графиками и выводами.

💡 Коротко для нетерпеливых: В 90%+ случаев очеловечивание успешно снижает вероятность определения текста как ИИ-сгенерированного. Для 14 из 20 категорий более половины текстов после обработки полностью «обманывают» детектор.

Зачем мы провели это исследование

С ростом популярности ChatGPT, GigaChat, YandexGPT и других генеративных моделей возникла обратная проблема: всё больше платформ, вузов и редакций внедряют детекторы ИИ-текста. Студентам снижают оценки, авторов обвиняют в нечестности, а SEO-тексты фильтруются поисковиками.

Мы в ReText.AI создали функцию очеловечивания текста именно для решения этой проблемы: чтобы люди, использующие ИИ как инструмент для черновиков и идей, могли довести текст до качества, неотличимого от написанного человеком.

Но мы не хотели просто заявить «это работает». Мы хотели доказать — на данных.

Данные: что мы анализировали

Источники текстов

Для валидации общего подхода и оценки эффективности метода очеловечивания мы использовали тексты из двух публично доступных академических датасетов:

  1. COLING-2025 (Workshop on MGT Detection, Subtask B: Multilingual MGT detection) — русскоязычные и англоязычные тексты
  2. AINL-eval — научные тексты

Примечание: указанные датасеты использовались исключительно в исследовательских целях — для тестирования методологии и оценки метрик качества. Продуктовая версия хуманизатора ReText.AI обучена на собственном проприетарном датасете компании.

Тематические домены

Исходные тексты охватывают широкий спектр тем:

  • Социальные сети — посты, комментарии, обсуждения
  • Википедия — энциклопедические статьи
  • Художественная литература — проза, рассказы
  • Административные документы — деловая переписка, регламенты
  • Научные тексты — статьи, исследования, рефераты

Генерация «машинных» вариантов

Для каждого человеческого текста мы создали «машинизированный» вариант — текст, переписанный одной из 8 нейросетей:

Модель

Параметры

Разработчик

Llama-3.2-3B-Instruct

3B

Meta

Qwen3-8B

8B

Alibaba

GigaChat-2-Max

Сбер

GLM-4.6

ZAI

Llama-3.3-70B-Instruct

70B

Meta

GPT-oss-120B

120B

OpenAI

Qwen3-235B-A22B-Instruct

235B

Alibaba

T-pro-it-1.0

T-Bank

Зачем 8 моделей? Мы хотели убедиться, что очеловечивание работает не только для текстов одного ChatGPT, а для любой популярной модели. Каждая генерирует текст со своими особенностями — и наш алгоритм должен справляться со всеми.

Оценочный датасет

После фильтрации и контроля качества оценочный датасет составил 19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант). Преобладающий язык — русский (~80%), остальное — английский и многоязычные тексты.

Все тексты были автоматически классифицированы по 20 тематическим кластерам: от рецептов и кулинарии до IT и разработки ПО.

Методология: как мы обучали модель

Базовая модель

Для данного исследования мы использовали модель Gemma-2-9B-IT (Google), распространяемую по лицензии Gemma Terms of Use, которая разрешает коммерческое использование и создание производных моделей. Мы выбрали её по нескольким причинам:

  • Хорошее качество генерации на русском языке
  • Относительно компактный размер (9B параметров) — быстрый инференс
  • Архитектура, оптимизированная для задач работы с текстом
  • Коммерчески дружелюбная лицензия — подходит для продуктового использования

Примечание: архитектура продуктовой модели и обучающие данные в ReText.AI могут отличаться от описанных в данном исследовании.

Метод обучения: SimPO

Для дообучения мы использовали SimPO (Simple Preference Optimization) — метод из семейства RLHF (Reinforcement Learning from Human Feedback). Суть:

  1. Модель генерирует несколько вариантов «очеловеченного» текста для каждого входного текста
  2. Каждый вариант прогоняется через наш ИИ-детектор — оценивается вероятность того, что текст написан нейросетью
  3. Варианты ранжируются по метрике humanizer_score, которая рассчитывается как:

humanizer_score = (prob_ai_original − prob_ai_humanized) × confidence_weight

Где:

  • prob_ai_original — вероятность ИИ-авторства исходного текста
  • prob_ai_humanized — вероятность ИИ-авторства после очеловечивания
  • confidence_weight — коэффициент уверенности детектора
  1. Лучшие пары (успешная vs. неуспешная гуманизация) формируют обучающий датасет для SimPO

Простыми словами: мы учили модель на примерах «вот так хорошо, вот так плохо» — и она научилась различать, какие стилистические приёмы делают текст более «человечным».

Распределение humanizer_score по категориям

Визуализация ниже показывает, как распределяется наша ключевая метрика humanizer_score по всем 20 тематическим кластерам. Чем выше значение — тем эффективнее очеловечивание в данной категории:

Распределение humanizer_score по 20 типам текста — боксплот из Jupyter-исследования

Результаты: снижение вероятности обнаружения ИИ

Общая картина

Главный вопрос: насколько очеловечивание снижает вероятность того, что детектор определит текст как ИИ-сгенерированный?

Ответ: радикально.

Метрика

До очеловечивания

После очеловечивания

Медианная вероятность ИИ

~0.93 (93%)

~0.47 (47%)

Тексты с вероятностью ИИ > 0.8

Подавляющее большинство

<20%

Тексты с вероятностью ИИ < 0.5

Единицы

>50%

До обработки распределение вероятностей сжато к единице — практически все тексты уверенно определяются как машинные. После обработки распределение смещается влево — половина текстов уже классифицируется как человеческие.

Распределение вероятностей ИИ для оригинальных текстов (медиана 0.92) и для хуманизированных текстов (медиана 0.45) — результаты исследования ReText.AI

По тематическим категориям: доля улучшенных текстов

Для более чем 90% текстов в каждой категории хуманизатор успешно снижает вероятность обнаружения ИИ:

Категория

Доля текстов с улучшением

🍳 Рецепты и кулинария

100.0%

🏠 Повседневная жизнь и размышления

93.8%

👥 Управление персоналом и организация

93.7%

⚖️ Правовые системы и законодательство

93.4%

📣 Маркетинг и реклама

93.0%

🔬 Научные исследования и методы

92.7%

🧠 Психология и общество

91.9%

📚 Литература и анализ текстов

91.5%

🎓 Образование и обучение

90.9%

💼 Бизнес и анализ рынка

90.4%

📊 Анализ данных и ML

89.8%

🏙️ Городские системы и услуги

89.0%

💰 Экономика

88.7%

✍️ Личные истории и повествования

88.1%

📰 Новости про Россию

87.9%

🎮 Компьютерные игры

87.3%

🖥️ Информационные системы и разработка ПО

85.2%

🎨 Культура и искусство

85.0%

🔧 Цифровые технологии и инновации

84.7%

🌐 Многоязычные тексты

83.5%

Доля текстов, улучшенных хуманизатором — от 84.1% для многоязычных до 100% для рецептов

Ключевое наблюдение: даже для самых сложных категорий (IT, цифровые технологии, многоязычные тексты) более 83% текстов показывают улучшение.

Результаты: кто полностью «обманул» детектор

Снижение вероятности — это одно. Но нас интересовал и более строгий вопрос: какая доля текстов после очеловечивания полностью меняет вердикт детектора — из «ИИ» в «человек»?

Мы назвали это Hard Flip Rate — процент текстов, которые до обработки определялись как ИИ-сгенерированные, а после — как человеческие (вероятность ИИ < 0.5).

Категория

Hard Flip Rate

🍳 Рецепты и кулинария

66.7%

⚖️ Правовые системы и законодательство

64.2%

💼 Бизнес и анализ рынка

61.0%

🔬 Научные исследования и методы

60.8%

👥 Управление персоналом и организация

59.9%

📣 Маркетинг и реклама

58.9%

🧠 Психология и общество

57.8%

🏙️ Городские системы и услуги

57.1%

📚 Литература и анализ текстов

56.4%

📊 Анализ данных и ML

56.2%

✍️ Личные истории и повествования

55.7%

🎓 Образование и обучение

52.9%

💰 Экономика

51.6%

📰 Новости про Россию

51.1%

🎮 Компьютерные игры

49.3%

🖥️ Информационные системы и разработка ПО

49.3%

🎨 Культура и искусство

47.4%

🔧 Цифровые технологии и инновации

44.0%

🌐 Многоязычные тексты

43.6%

🏠 Повседневная жизнь и размышления

41.0%

Hard Flip Rate по 20 категориям — рецепты (66.7%), право (64.2%), бизнес (61.0%) лидируют

Результат: для 14 из 20 категорий более половины текстов полностью «обманывают» детектор. Для топ-6 категорий (право, бизнес, наука, HR, маркетинг, кулинария) показатель превышает 58%.

Где очеловечивание работает лучше всего

🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)

Кулинарные тексты показали абсолютно лучшие результаты. Причина: рецепты имеют характерную разговорную структуру, которую наш хуманизатор воспроизводит особенно хорошо — «добавьте щепотку», «на глаз», «когда подрумянится» вместо «необходимо добавить 2.5 г NaCl».

⚖️ Правовые тексты — 64.2% hard flip

Юридические тексты хуманизируются эффективно, потому что правовой стиль имеет устоявшиеся формулировки. Модель научилась делать их более «живыми», сохраняя точность смысла.

💼 Бизнес и наука — 60%+

Деловые и научные тексты имеют формализованную структуру, которую можно естественно «разбавить» человеческими конструкциями — вводными словами, авторскими ремарками, вариативностью синтаксиса.

Средняя дельта вероятности ИИ по категориям

Ещё одна метрика — насколько сильно в среднем снижается вероятность ИИ-авторства:

Категория

Средняя дельта

Рецепты и кулинария

+0.518

Управление персоналом

+0.457

Правовые системы

+0.451

Бизнес и анализ рынка

+0.450

Психология и общество

+0.429

Литература и анализ текстов

+0.414

Маркетинг и реклама

+0.413

Научные исследования

+0.404

В среднем вероятность ИИ-авторства снижается на 0.35–0.52 пункта — это кардинальное изменение.

Δ prob_isfake по типу текста — боксплот показывает распределение изменений вероятности ИИ для каждой категории

Где есть сложности

🏠 Повседневная жизнь и размышления — 41.0% hard flip

Парадокс: эта категория показывает отличный процент улучшения (93.8%), но низкий hard flip. Причина — повседневные тексты и так имеют разнообразный стиль, что затрудняет «переключение» детектора через порог 0.5.

🌐 Многоязычные тексты — 43.6% hard flip

Наш датасет содержал преимущественно русскоязычные и англоязычные тексты. Для других языков модели нужен больший обучающий набор. Мы планируем расширить многоязычную поддержку в следующих версиях.

🖥️ IT и разработка ПО — 49.3% hard flip

Технические тексты с терминологией, фрагментами кода и специфическим синтаксисом — самая сложная категория для очеловечивания. Тем не менее, для почти половины текстов детектор полностью «обманут».

Общие выводы

  1. Для более чем 90% текстов хуманизатор успешно снижает вероятность обнаружения ИИ — вне зависимости от тематики
  2. Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора (из «ИИ» в «человек»)
  3. Несмотря на относительно компактную модель (9B параметров) и датасет (~20K пар), дообучение методом SimPO показало высокую эффективность
  4. Лучшие результаты — в структурированных доменах (право, бизнес, наука, маркетинг)
  5. Есть потенциал для улучшения в многоязычных текстах и IT-тематике

Что это значит для пользователей

Если вы студент или аспирант

Используете ChatGPT или GigaChat для черновиков курсовых и рефератов? Очеловечивание текста — это не «обман», а инструмент для доведения черновика до человеческого уровня. В 60%+ случаев текст по правовым и научным темам станет неотличим от написанного вами.

Если вы копирайтер или маркетолог

Генерируете контент для клиентов с помощью ИИ? Маркетинговые и деловые тексты очеловечиваются с 58–61% hard flip rate. Прогоните текст через хуманизатор, а затем проверьте в нашем ИИ-детекторе — и будьте уверены в результате.

Если вы SEO-специалист

Поисковые системы учатся определять ИИ-контент. Очеловечивание снижает вероятность фильтрации — и сохраняет вашу работу с органической выдачей.

Оптимальный workflow

  1. Генерация черновика в ChatGPT / GigaChat / любой нейросети
  2. Очеловечивание в ReText.AI
  3. Проверка через ИИ-детектор
  4. Финальная редактура вручную

Для разработчиков и бизнеса (API)

Мы предоставляем API как для ИИ-детектора, так и для функции очеловечивания текста. Вы можете легко интегрировать наши технологии в свой сервис — просто напишите нам на team@retext.ai.

Подробнее о наших инструментах: читайте обзор ТОП-20 нейросетей онлайн в 2026 году, где мы подробно разбираем весь продуктовый стек ReText.AI.

FAQ

Что такое очеловечивание ИИ-текста?

Это технология, которая переписывает текст, сгенерированный нейросетью, таким образом, чтобы он читался как написанный человеком. Не простая замена слов синонимами, а глубокая переработка стиля, структуры и лексики с помощью специально обученной модели.

Какие нейросети вы тестировали?

Мы тестировали тексты, сгенерированные 8 моделями: Llama-3.2-3B, Qwen3-8B, GigaChat-2-Max, GLM-4.6, Llama-3.3-70B, GPT-oss-120B, Qwen3-235B и T-pro-it-1.0. Это покрывает текущий ландшафт от 3B до 235B параметров.

Какой размер был у тестового набора?

19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант), классифицированных по 20 тематическим категориям.

Насколько это эффективно?

Для более чем 90% текстов вероятность определения как ИИ снижается. Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора из «ИИ» в «человек».

В каких категориях очеловечивание работает лучше всего?

Лидеры: рецепты и кулинария (66.7% hard flip), правовые тексты (64.2%), бизнес (61.0%), наука (60.8%), HR (59.9%) и маркетинг (58.9%).

Где очеловечивание работает хуже?

Самые сложные категории: повседневные тексты (41.0%), многоязычные тексты (43.6%), цифровые технологии (44.0%) и культура/искусство (47.4%). Но даже для них 83%+ текстов показывают улучшение.

Это этично?

Мы считаем, что ИИ — это инструмент, а не автор. Как калькулятор не заменяет математика, так и очеловечивание не заменяет писателя — оно помогает довести черновик до качества, достойного публикации. Важно: мы не призываем выдавать ИИ-текст за свой без доработки. Мы призываем использовать технологию как часть рабочего процесса.

Как попробовать очеловечивание?

Перейдите на retext.ai/ru/ochelovechit-text — до 1 000 символов можно обработать бесплатно.

Техническое приложение для разработчика

Параметры исследования

Оценочные датасеты

COLING-2025 (MGT Detection), AINL-eval (только для валидации)

Количество текстовых пар

19 804

Количество моделей-генераторов

8

Количество тематических кластеров

20

Базовая модель хуманизатора

Gemma-2-9B-IT (unsloth)

Метод оптимизации

SimPO (Simple Preference Optimization)

Метрика оценки

humanizer_score = (prob_orig − prob_hmnz) × confidence_weight

Детектор для оценки

isFake.ai / ReText.AI AI Detector

Основной язык

Русский (~80%), английский (~15%), другие (~5%)

Содержание:
Зачем мы провели это исследование
Данные: что мы анализировали
Источники текстов
Тематические домены
Генерация «машинных» вариантов
Оценочный датасет
Методология: как мы обучали модель
Базовая модель
Метод обучения: SimPO
Распределение humanizer_score по категориям
Результаты: снижение вероятности обнаружения ИИ
Общая картина
По тематическим категориям: доля улучшенных текстов
Результаты: кто полностью «обманул» детектор
Где очеловечивание работает лучше всего
🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)
⚖️ Правовые тексты — 64.2% hard flip
💼 Бизнес и наука — 60%+
Средняя дельта вероятности ИИ по категориям
Где есть сложности
🏠 Повседневная жизнь и размышления — 41.0% hard flip
🌐 Многоязычные тексты — 43.6% hard flip
🖥️ IT и разработка ПО — 49.3% hard flip
Общие выводы
Что это значит для пользователей
Если вы студент или аспирант
Если вы копирайтер или маркетолог
Если вы SEO-специалист
Оптимальный workflow
Для разработчиков и бизнеса (API)
FAQ
Что такое очеловечивание ИИ-текста?
Какие нейросети вы тестировали?
Какой размер был у тестового набора?
Насколько это эффективно?
В каких категориях очеловечивание работает лучше всего?
Где очеловечивание работает хуже?
Это этично?
Как попробовать очеловечивание?
Техническое приложение для разработчика
Параметры исследования
Оленька Ш
Cооснователь и СЕО ReText.ai
5
Оцените статью
0 оценок
Поделиться
Оцените статью
Поделиться
0 оценок
Оцените статью
Поделиться
0 оценок
Комментарии
0 / 500

Рекомендуемые статьи

ТОП-20 нейросетей онлайн в 2026 — обзор от создателя Retext.AI

Обновление ИИ-детектора ReText.AI: теперь определяет генерацию текста с высокой точностью