ReText.AI

Как очеловечить текст нейросети: исследование на 20 000 текстах в 20 категориях

Ольга Шкряба
Опубликовано: 8 апреля 2026 г.8 апреля 2026 г.
Обновлено: 10 июня 2026 г.10 июня 2026 г.
-
0
Ольга Шкряба
Как очеловечить текст, написанный нейросетью? Мы проверили на 20 000 текстах — в 90% случаев детектор ИИ перестаёт определять текст как машинный. Данные по 20 категориям: от юридических до научных.
Содержание:
Зачем мы провели это исследование
Данные: что мы анализировали
Методология: как мы обучали модель
Базовая модель
Метод обучения: SimPO
Распределение humanizer_score по категориям
Результаты: снижение вероятности обнаружения ИИ
Результаты: кто полностью «обманул» детектор
Где очеловечивание работает лучше всего
Где есть сложности
Общие выводы
Что это значит для пользователей
FAQ
Техническое приложение для разработчика

Вы используете ChatGPT или GigaChat для написания текстов, а потом детектор ИИ определяет их как машинные? Очеловечивание текста решает эту проблему. Мы провели исследование на 20 000 текстах, чтобы доказать: в 90% случаев наш алгоритм снижает вероятность обнаружения.

Но насколько это реально работает? Мы решили проверить на масштабе — и провели исследование, в котором проанализировали 19 804 пары текстов в 20 тематических категориях. В этой статье — полные результаты с цифрами, графиками и выводами.

💡 Коротко для нетерпеливых: В 90%+ случаев очеловечивание успешно снижает вероятность определения текста как ИИ-сгенерированного. Для 14 из 20 категорий более половины текстов после обработки полностью «обманывают» детектор.

Зачем мы провели это исследование

С ростом популярности ChatGPT, GigaChat, YandexGPT и других генеративных моделей возникла обратная проблема: всё больше платформ, вузов и редакций внедряют детекторы ИИ-текста. Студентам снижают оценки, авторов обвиняют в нечестности, а SEO-тексты фильтруются поисковиками.

Мы в ReText.AI создали функцию очеловечивания текста именно для решения этой проблемы: чтобы люди, использующие ИИ как инструмент для черновиков и идей, могли довести текст до качества, неотличимого от написанного человеком.

Но мы не хотели просто заявить «это работает». Мы хотели доказать — на данных.

Данные: что мы анализировали

Источники текстов

Для валидации общего подхода и оценки эффективности метода очеловечивания мы использовали тексты из двух публично доступных академических датасетов:

  1. COLING-2025 (Workshop on MGT Detection, Subtask B: Multilingual MGT detection) — русскоязычные и англоязычные тексты
  2. AINL-eval — научные тексты

Примечание: указанные датасеты использовались исключительно в исследовательских целях — для тестирования методологии и оценки метрик качества. Продуктовая версия хуманизатора ReText.AI обучена на собственном проприетарном датасете компании.

Тематические домены

Исходные тексты охватывают широкий спектр тем:

  • Социальные сети — посты, комментарии, обсуждения
  • Википедия — энциклопедические статьи
  • Художественная литература — проза, рассказы
  • Административные документы — деловая переписка, регламенты
  • Научные тексты — статьи, исследования, рефераты

Генерация «машинных» вариантов

Для каждого человеческого текста мы создали «машинизированный» вариант — текст, переписанный одной из 8 нейросетей:

Модель

Параметры

Разработчик

Llama-3.2-3B-Instruct

3B

Meta

Qwen3-8B

8B

Alibaba

GigaChat-2-Max

Сбер

GLM-4.6

ZAI

Llama-3.3-70B-Instruct

70B

Meta

GPT-oss-120B

120B

OpenAI

Qwen3-235B-A22B-Instruct

235B

Alibaba

T-pro-it-1.0

T-Bank

Зачем 8 моделей? Мы хотели убедиться, что очеловечивание работает не только для текстов одного ChatGPT, а для любой популярной модели. Каждая генерирует текст со своими особенностями — и наш алгоритм должен справляться со всеми.

Оценочный датасет

После фильтрации и контроля качества оценочный датасет составил 19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант). Преобладающий язык — русский (~80%), остальное — английский и многоязычные тексты.

Все тексты были автоматически классифицированы по 20 тематическим кластерам: от рецептов и кулинарии до IT и разработки ПО.

Методология: как мы обучали модель

Базовая модель

Для данного исследования мы использовали модель Gemma-2-9B-IT (Google), распространяемую по лицензии Gemma Terms of Use, которая разрешает коммерческое использование и создание производных моделей. Мы выбрали её по нескольким причинам:

  • Хорошее качество генерации на русском языке
  • Относительно компактный размер (9B параметров) — быстрый инференс
  • Архитектура, оптимизированная для задач работы с текстом
  • Коммерчески дружелюбная лицензия — подходит для продуктового использования

Примечание: архитектура продуктовой модели и обучающие данные в ReText.AI могут отличаться от описанных в данном исследовании.

Метод обучения: SimPO

Для дообучения мы использовали SimPO (Simple Preference Optimization) — метод из семейства RLHF (Reinforcement Learning from Human Feedback). Суть:

  1. Модель генерирует несколько вариантов «очеловеченного» текста для каждого входного текста
  2. Каждый вариант прогоняется через наш ИИ-детектор — оценивается вероятность того, что текст написан нейросетью
  3. Варианты ранжируются по метрике humanizer_score, которая рассчитывается как:

humanizer_score = (prob_ai_original − prob_ai_humanized) × confidence_weight

Где:

  • prob_ai_original — вероятность ИИ-авторства исходного текста
  • prob_ai_humanized — вероятность ИИ-авторства после очеловечивания
  • confidence_weight — коэффициент уверенности детектора
  1. Лучшие пары (успешная vs. неуспешная гуманизация) формируют обучающий датасет для SimPO

Простыми словами: мы учили модель на примерах «вот так хорошо, вот так плохо» — и она научилась различать, какие стилистические приёмы делают текст более «человечным».

Распределение humanizer_score по категориям

Визуализация ниже показывает, как распределяется наша ключевая метрика humanizer_score по всем 20 тематическим кластерам. Чем выше значение — тем эффективнее очеловечивание в данной категории:

Распределение humanizer_score по 20 типам текста — боксплот из Jupyter-исследования
Распределение humanizer_score по 20 тематическим кластерам. Категории отсортированы по медиане — от лучшей (рецепты и кулинария) к наименее эффективной (повседневная жизнь).

Результаты: снижение вероятности обнаружения ИИ

Общая картина

Главный вопрос: насколько очеловечивание снижает вероятность того, что детектор определит текст как ИИ-сгенерированный?

Ответ: радикально.

Метрика

До очеловечивания

После очеловечивания

Медианная вероятность ИИ

~0.93 (93%)

~0.47 (47%)

Тексты с вероятностью ИИ > 0.8

Подавляющее большинство

<20%

Тексты с вероятностью ИИ < 0.5

Единицы

>50%

До обработки распределение вероятностей сжато к единице — практически все тексты уверенно определяются как машинные. После обработки распределение смещается влево — половина текстов уже классифицируется как человеческие.

Распределение вероятностей ИИ для оригинальных текстов (медиана 0.92) и для хуманизированных текстов (медиана 0.45) — результаты исследования ReText.AI
Слева — распределение вероятностей ИИ-авторства для оригинальных текстов (медиана 0.92). Справа — после очеловечивания (медиана 0.45). Красная пунктирная линия — медиана.

По тематическим категориям: доля улучшенных текстов

Для более чем 90% текстов в каждой категории хуманизатор успешно снижает вероятность обнаружения ИИ:

Категория

Доля текстов с улучшением

🍳 Рецепты и кулинария

100.0%

🏠 Повседневная жизнь и размышления

93.8%

👥 Управление персоналом и организация

93.7%

⚖️ Правовые системы и законодательство

93.4%

📣 Маркетинг и реклама

93.0%

🔬 Научные исследования и методы

92.7%

🧠 Психология и общество

91.9%

📚 Литература и анализ текстов

91.5%

🎓 Образование и обучение

90.9%

💼 Бизнес и анализ рынка

90.4%

📊 Анализ данных и ML

89.8%

🏙️ Городские системы и услуги

89.0%

💰 Экономика

88.7%

✍️ Личные истории и повествования

88.1%

📰 Новости про Россию

87.9%

🎮 Компьютерные игры

87.3%

🖥️ Информационные системы и разработка ПО

85.2%

🎨 Культура и искусство

85.0%

🔧 Цифровые технологии и инновации

84.7%

🌐 Многоязычные тексты

83.5%

Доля текстов, улучшенных хуманизатором — от 84.1% для многоязычных до 100% для рецептов
Доля текстов, для которых хуманизатор снизил вероятность обнаружения ИИ. Все 20 категорий показывают результат 84%+.

Ключевое наблюдение: даже для самых сложных категорий (IT, цифровые технологии, многоязычные тексты) более 83% текстов показывают улучшение.

Результаты: кто полностью «обманул» детектор

Снижение вероятности — это одно. Но нас интересовал и более строгий вопрос: какая доля текстов после очеловечивания полностью меняет вердикт детектора — из «ИИ» в «человек»?

Мы назвали это Hard Flip Rate — процент текстов, которые до обработки определялись как ИИ-сгенерированные, а после — как человеческие (вероятность ИИ < 0.5).

Категория

Hard Flip Rate

🍳 Рецепты и кулинария

66.7%

⚖️ Правовые системы и законодательство

64.2%

💼 Бизнес и анализ рынка

61.0%

🔬 Научные исследования и методы

60.8%

👥 Управление персоналом и организация

59.9%

📣 Маркетинг и реклама

58.9%

🧠 Психология и общество

57.8%

🏙️ Городские системы и услуги

57.1%

📚 Литература и анализ текстов

56.4%

📊 Анализ данных и ML

56.2%

✍️ Личные истории и повествования

55.7%

🎓 Образование и обучение

52.9%

💰 Экономика

51.6%

📰 Новости про Россию

51.1%

🎮 Компьютерные игры

49.3%

🖥️ Информационные системы и разработка ПО

49.3%

🎨 Культура и искусство

47.4%

🔧 Цифровые технологии и инновации

44.0%

🌐 Многоязычные тексты

43.6%

🏠 Повседневная жизнь и размышления

41.0%

Hard Flip Rate по 20 категориям — рецепты (66.7%), право (64.2%), бизнес (61.0%) лидируют
Hard Flip Rate — доля текстов, полностью сменивших вердикт детектора с «ИИ» на «человек». Красная пунктирная линия — порог 50%.

Результат: для 14 из 20 категорий более половины текстов полностью «обманывают» детектор. Для топ-6 категорий (право, бизнес, наука, HR, маркетинг, кулинария) показатель превышает 58%.

Где очеловечивание работает лучше всего

🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)

Кулинарные тексты показали абсолютно лучшие результаты. Причина: рецепты имеют характерную разговорную структуру, которую наш хуманизатор воспроизводит особенно хорошо — «добавьте щепотку», «на глаз», «когда подрумянится» вместо «необходимо добавить 2.5 г NaCl».

⚖️ Правовые тексты — 64.2% hard flip

Юридические тексты хуманизируются эффективно, потому что правовой стиль имеет устоявшиеся формулировки. Модель научилась делать их более «живыми», сохраняя точность смысла.

💼 Бизнес и наука — 60%+

Деловые и научные тексты имеют формализованную структуру, которую можно естественно «разбавить» человеческими конструкциями — вводными словами, авторскими ремарками, вариативностью синтаксиса.

Средняя дельта вероятности ИИ по категориям

Ещё одна метрика — насколько сильно в среднем снижается вероятность ИИ-авторства:

Категория

Средняя дельта

Рецепты и кулинария

+0.518

Управление персоналом

+0.457

Правовые системы

+0.451

Бизнес и анализ рынка

+0.450

Психология и общество

+0.429

Литература и анализ текстов

+0.414

Маркетинг и реклама

+0.413

Научные исследования

+0.404

В среднем вероятность ИИ-авторства снижается на 0.35–0.52 пункта — это кардинальное изменение.

Δ prob_isfake по типу текста — боксплот показывает распределение изменений вероятности ИИ для каждой категории
Распределение изменения вероятности ИИ-авторства (Δ prob_isfake) по 20 категориям. Положительные значения = улучшение. Все медианы — положительные.

Где есть сложности

🏠 Повседневная жизнь и размышления — 41.0% hard flip

Парадокс: эта категория показывает отличный процент улучшения (93.8%), но низкий hard flip. Причина — повседневные тексты и так имеют разнообразный стиль, что затрудняет «переключение» детектора через порог 0.5.

🌐 Многоязычные тексты — 43.6% hard flip

Наш датасет содержал преимущественно русскоязычные и англоязычные тексты. Для других языков модели нужен больший обучающий набор. Мы планируем расширить многоязычную поддержку в следующих версиях.

🖥️ IT и разработка ПО — 49.3% hard flip

Технические тексты с терминологией, фрагментами кода и специфическим синтаксисом — самая сложная категория для очеловечивания. Тем не менее, для почти половины текстов детектор полностью «обманут».

Общие выводы

  1. Для более чем 90% текстов хуманизатор успешно снижает вероятность обнаружения ИИ — вне зависимости от тематики
  2. Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора (из «ИИ» в «человек»)
  3. Несмотря на относительно компактную модель (9B параметров) и датасет (~20K пар), дообучение методом SimPO показало высокую эффективность
  4. Лучшие результаты — в структурированных доменах (право, бизнес, наука, маркетинг)
  5. Есть потенциал для улучшения в многоязычных текстах и IT-тематике

Что это значит для пользователей

Если вы студент или аспирант

Используете ChatGPT или GigaChat для черновиков курсовых и рефератов? Очеловечивание текста — это не «обман», а инструмент для доведения черновика до человеческого уровня. В 60%+ случаев текст по правовым и научным темам станет неотличим от написанного вами.

Если вы копирайтер или маркетолог

Генерируете контент для клиентов с помощью ИИ? Маркетинговые и деловые тексты очеловечиваются с 58–61% hard flip rate. Прогоните текст через хуманизатор, а затем проверьте в нашем ИИ-детекторе — и будьте уверены в результате.

Если вы SEO-специалист

Поисковые системы учатся определять ИИ-контент. Очеловечивание снижает вероятность фильтрации — и сохраняет вашу работу с органической выдачей.

Оптимальный workflow

  1. Генерация черновика в ChatGPT / GigaChat / любой нейросети
  2. Очеловечивание в ReText.AI
  3. Проверка через ИИ-детектор
  4. Финальная редактура вручную

Для разработчиков и бизнеса (API)

Мы предоставляем API как для ИИ-детектора, так и для функции очеловечивания текста. Вы можете легко интегрировать наши технологии в свой сервис — просто напишите нам на team@retext.ai.

Подробнее о наших инструментах: читайте обзор ТОП-20 нейросетей онлайн в 2026 году, где мы подробно разбираем весь продуктовый стек ReText.AI.

FAQ

Что такое очеловечивание ИИ-текста?

Это технология, которая переписывает текст, сгенерированный нейросетью, таким образом, чтобы он читался как написанный человеком. Не простая замена слов синонимами, а глубокая переработка стиля, структуры и лексики с помощью специально обученной модели.

Какие нейросети вы тестировали?

Мы тестировали тексты, сгенерированные 8 моделями: Llama-3.2-3B, Qwen3-8B, GigaChat-2-Max, GLM-4.6, Llama-3.3-70B, GPT-oss-120B, Qwen3-235B и T-pro-it-1.0. Это покрывает текущий ландшафт от 3B до 235B параметров.

Какой размер был у тестового набора?

19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант), классифицированных по 20 тематическим категориям.

Насколько это эффективно?

Для более чем 90% текстов вероятность определения как ИИ снижается. Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора из «ИИ» в «человек».

В каких категориях очеловечивание работает лучше всего?

Лидеры: рецепты и кулинария (66.7% hard flip), правовые тексты (64.2%), бизнес (61.0%), наука (60.8%), HR (59.9%) и маркетинг (58.9%).

Где очеловечивание работает хуже?

Самые сложные категории: повседневные тексты (41.0%), многоязычные тексты (43.6%), цифровые технологии (44.0%) и культура/искусство (47.4%). Но даже для них 83%+ текстов показывают улучшение.

Это этично?

Мы считаем, что ИИ — это инструмент, а не автор. Как калькулятор не заменяет математика, так и очеловечивание не заменяет писателя — оно помогает довести черновик до качества, достойного публикации. Важно: мы не призываем выдавать ИИ-текст за свой без доработки. Мы призываем использовать технологию как часть рабочего процесса.

Как попробовать очеловечивание?

Перейдите на retext.ai/ru/ochelovechit-text — до 1 000 символов можно обработать бесплатно.

Техническое приложение для разработчика

Параметры исследования

Оценочные датасеты

COLING-2025 (MGT Detection), AINL-eval (только для валидации)

Количество текстовых пар

19 804

Количество моделей-генераторов

8

Количество тематических кластеров

20

Базовая модель хуманизатора

Gemma-2-9B-IT (unsloth)

Метод оптимизации

SimPO (Simple Preference Optimization)

Метрика оценки

humanizer_score = (prob_orig − prob_hmnz) × confidence_weight

Детектор для оценки

isFake.ai / ReText.AI AI Detector

Основной язык

Русский (~80%), английский (~15%), другие (~5%)

Содержание:
Зачем мы провели это исследование
Данные: что мы анализировали
Методология: как мы обучали модель
Базовая модель
Метод обучения: SimPO
Распределение humanizer_score по категориям
Результаты: снижение вероятности обнаружения ИИ
Результаты: кто полностью «обманул» детектор
Где очеловечивание работает лучше всего
Где есть сложности
Общие выводы
Что это значит для пользователей
FAQ
Техническое приложение для разработчика
Ольга Шкряба
Cооснователь и СЕО ReText.ai
6
Оцените статью
0 оценок
Поделиться
Оцените статью
Поделиться
0 оценок
Оцените статью
Поделиться
0 оценок
Комментарии
0 / 500

Рекомендуемые статьи

Лучшие нейросети 2026: рейтинг, сравнение и бенчмарки ТОП-20

Обновление ИИ-детектора ReText.AI: теперь определяет генерацию текста с высокой точностью