Как очеловечить текст нейросети: исследование на 20 000 текстах в 20 категориях

Как очеловечить текст, написанный нейросетью? Мы проверили на 20 000 текстах — в 90% случаев детектор ИИ перестаёт определять текст как машинный. Данные по 20 категориям: от юридических до научных.

Содержание:

Зачем мы провели это исследование

Данные: что мы анализировали

Источники текстов

Тематические домены

Генерация «машинных» вариантов

Оценочный датасет

Методология: как мы обучали модель

Базовая модель

Метод обучения: SimPO

Распределение humanizer_score по категориям

Результаты: снижение вероятности обнаружения ИИ

Общая картина

По тематическим категориям: доля улучшенных текстов

Результаты: кто полностью «обманул» детектор

Где очеловечивание работает лучше всего

🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)

⚖️ Правовые тексты — 64.2% hard flip

💼 Бизнес и наука — 60%+

Средняя дельта вероятности ИИ по категориям

Где есть сложности

🏠 Повседневная жизнь и размышления — 41.0% hard flip

🌐 Многоязычные тексты — 43.6% hard flip

🖥️ IT и разработка ПО — 49.3% hard flip

Общие выводы

Что это значит для пользователей

Если вы студент или аспирант

Если вы копирайтер или маркетолог

Если вы SEO-специалист

Оптимальный workflow

Для разработчиков и бизнеса (API)

FAQ

Что такое очеловечивание ИИ-текста?

Какие нейросети вы тестировали?

Какой размер был у тестового набора?

Насколько это эффективно?

В каких категориях очеловечивание работает лучше всего?

Где очеловечивание работает хуже?

Это этично?

Как попробовать очеловечивание?

Техническое приложение для разработчика

Параметры исследования

Вы используете ChatGPT или GigaChat для написания текстов, а потом детектор ИИ определяет их как машинные? Очеловечивание текста решает эту проблему. Мы провели исследование на 20 000 текстах, чтобы доказать: в 90% случаев наш алгоритм снижает вероятность обнаружения.

Но насколько это реально работает? Мы решили проверить на масштабе — и провели исследование, в котором проанализировали 19 804 пары текстов в 20 тематических категориях. В этой статье — полные результаты с цифрами, графиками и выводами.

💡 Коротко для нетерпеливых: В 90%+ случаев очеловечивание успешно снижает вероятность определения текста как ИИ-сгенерированного. Для 14 из 20 категорий более половины текстов после обработки полностью «обманывают» детектор.

Зачем мы провели это исследование

С ростом популярности ChatGPT, GigaChat, YandexGPT и других генеративных моделей возникла обратная проблема: всё больше платформ, вузов и редакций внедряют детекторы ИИ-текста. Студентам снижают оценки, авторов обвиняют в нечестности, а SEO-тексты фильтруются поисковиками.

Мы в ReText.AI создали функцию очеловечивания текста именно для решения этой проблемы: чтобы люди, использующие ИИ как инструмент для черновиков и идей, могли довести текст до качества, неотличимого от написанного человеком.

Но мы не хотели просто заявить «это работает». Мы хотели доказать — на данных.

Данные: что мы анализировали

Источники текстов

Для валидации общего подхода и оценки эффективности метода очеловечивания мы использовали тексты из двух публично доступных академических датасетов:

COLING-2025 (Workshop on MGT Detection, Subtask B: Multilingual MGT detection) — русскоязычные и англоязычные тексты
AINL-eval — научные тексты

Примечание: указанные датасеты использовались исключительно в исследовательских целях — для тестирования методологии и оценки метрик качества. Продуктовая версия хуманизатора ReText.AI обучена на собственном проприетарном датасете компании.

Тематические домены

Исходные тексты охватывают широкий спектр тем:

Социальные сети — посты, комментарии, обсуждения
Википедия — энциклопедические статьи
Художественная литература — проза, рассказы
Административные документы — деловая переписка, регламенты
Научные тексты — статьи, исследования, рефераты

Генерация «машинных» вариантов

Для каждого человеческого текста мы создали «машинизированный» вариант — текст, переписанный одной из 8 нейросетей:

Модель	Параметры	Разработчик
Llama-3.2-3B-Instruct	3B	Meta
Qwen3-8B	8B	Alibaba
GigaChat-2-Max	—	Сбер
GLM-4.6	—	ZAI
Llama-3.3-70B-Instruct	70B	Meta
GPT-oss-120B	120B	OpenAI
Qwen3-235B-A22B-Instruct	235B	Alibaba
T-pro-it-1.0	—	T-Bank

Зачем 8 моделей? Мы хотели убедиться, что очеловечивание работает не только для текстов одного ChatGPT, а для любой популярной модели. Каждая генерирует текст со своими особенностями — и наш алгоритм должен справляться со всеми.

Оценочный датасет

После фильтрации и контроля качества оценочный датасет составил 19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант). Преобладающий язык — русский (~80%), остальное — английский и многоязычные тексты.

Все тексты были автоматически классифицированы по 20 тематическим кластерам: от рецептов и кулинарии до IT и разработки ПО.

Методология: как мы обучали модель

Базовая модель

Для данного исследования мы использовали модель Gemma-2-9B-IT (Google), распространяемую по лицензии Gemma Terms of Use, которая разрешает коммерческое использование и создание производных моделей. Мы выбрали её по нескольким причинам:

Хорошее качество генерации на русском языке
Относительно компактный размер (9B параметров) — быстрый инференс
Архитектура, оптимизированная для задач работы с текстом
Коммерчески дружелюбная лицензия — подходит для продуктового использования

Примечание: архитектура продуктовой модели и обучающие данные в ReText.AI могут отличаться от описанных в данном исследовании.

Метод обучения: SimPO

Для дообучения мы использовали SimPO (Simple Preference Optimization) — метод из семейства RLHF (Reinforcement Learning from Human Feedback). Суть:

Модель генерирует несколько вариантов «очеловеченного» текста для каждого входного текста
Каждый вариант прогоняется через наш ИИ-детектор — оценивается вероятность того, что текст написан нейросетью
Варианты ранжируются по метрике humanizer_score, которая рассчитывается как:

humanizer_score = (prob_ai_original − prob_ai_humanized) × confidence_weight

Где:

prob_ai_original — вероятность ИИ-авторства исходного текста
prob_ai_humanized — вероятность ИИ-авторства после очеловечивания
confidence_weight — коэффициент уверенности детектора

Лучшие пары (успешная vs. неуспешная гуманизация) формируют обучающий датасет для SimPO

Простыми словами: мы учили модель на примерах «вот так хорошо, вот так плохо» — и она научилась различать, какие стилистические приёмы делают текст более «человечным».

Распределение humanizer_score по категориям

Визуализация ниже показывает, как распределяется наша ключевая метрика humanizer_score по всем 20 тематическим кластерам. Чем выше значение — тем эффективнее очеловечивание в данной категории:

Распределение humanizer_score по 20 типам текста — боксплот из Jupyter-исследования

Результаты: снижение вероятности обнаружения ИИ

Общая картина

Главный вопрос: насколько очеловечивание снижает вероятность того, что детектор определит текст как ИИ-сгенерированный?

Ответ: радикально.

Метрика	До очеловечивания	После очеловечивания
Медианная вероятность ИИ	~0.93 (93%)	~0.47 (47%)
Тексты с вероятностью ИИ > 0.8	Подавляющее большинство	<20%
Тексты с вероятностью ИИ < 0.5	Единицы	>50%

До обработки распределение вероятностей сжато к единице — практически все тексты уверенно определяются как машинные. После обработки распределение смещается влево — половина текстов уже классифицируется как человеческие.

Распределение вероятностей ИИ для оригинальных текстов (медиана 0.92) и для хуманизированных текстов (медиана 0.45) — результаты исследования ReText.AI

По тематическим категориям: доля улучшенных текстов

Для более чем 90% текстов в каждой категории хуманизатор успешно снижает вероятность обнаружения ИИ:

Категория	Доля текстов с улучшением
🍳 Рецепты и кулинария	100.0%
🏠 Повседневная жизнь и размышления	93.8%
👥 Управление персоналом и организация	93.7%
⚖️ Правовые системы и законодательство	93.4%
📣 Маркетинг и реклама	93.0%
🔬 Научные исследования и методы	92.7%
🧠 Психология и общество	91.9%
📚 Литература и анализ текстов	91.5%
🎓 Образование и обучение	90.9%
💼 Бизнес и анализ рынка	90.4%
📊 Анализ данных и ML	89.8%
🏙️ Городские системы и услуги	89.0%
💰 Экономика	88.7%
✍️ Личные истории и повествования	88.1%
📰 Новости про Россию	87.9%
🎮 Компьютерные игры	87.3%
🖥️ Информационные системы и разработка ПО	85.2%
🎨 Культура и искусство	85.0%
🔧 Цифровые технологии и инновации	84.7%
🌐 Многоязычные тексты	83.5%

Доля текстов, улучшенных хуманизатором — от 84.1% для многоязычных до 100% для рецептов

Ключевое наблюдение: даже для самых сложных категорий (IT, цифровые технологии, многоязычные тексты) более 83% текстов показывают улучшение.

Результаты: кто полностью «обманул» детектор

Снижение вероятности — это одно. Но нас интересовал и более строгий вопрос: какая доля текстов после очеловечивания полностью меняет вердикт детектора — из «ИИ» в «человек»?

Мы назвали это Hard Flip Rate — процент текстов, которые до обработки определялись как ИИ-сгенерированные, а после — как человеческие (вероятность ИИ < 0.5).

Категория	Hard Flip Rate
🍳 Рецепты и кулинария	66.7%
⚖️ Правовые системы и законодательство	64.2%
💼 Бизнес и анализ рынка	61.0%
🔬 Научные исследования и методы	60.8%
👥 Управление персоналом и организация	59.9%
📣 Маркетинг и реклама	58.9%
🧠 Психология и общество	57.8%
🏙️ Городские системы и услуги	57.1%
📚 Литература и анализ текстов	56.4%
📊 Анализ данных и ML	56.2%
✍️ Личные истории и повествования	55.7%
🎓 Образование и обучение	52.9%
💰 Экономика	51.6%
📰 Новости про Россию	51.1%
🎮 Компьютерные игры	49.3%
🖥️ Информационные системы и разработка ПО	49.3%
🎨 Культура и искусство	47.4%
🔧 Цифровые технологии и инновации	44.0%
🌐 Многоязычные тексты	43.6%
🏠 Повседневная жизнь и размышления	41.0%

Hard Flip Rate по 20 категориям — рецепты (66.7%), право (64.2%), бизнес (61.0%) лидируют

Результат: для 14 из 20 категорий более половины текстов полностью «обманывают» детектор. Для топ-6 категорий (право, бизнес, наука, HR, маркетинг, кулинария) показатель превышает 58%.

Где очеловечивание работает лучше всего

🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)

Кулинарные тексты показали абсолютно лучшие результаты. Причина: рецепты имеют характерную разговорную структуру, которую наш хуманизатор воспроизводит особенно хорошо — «добавьте щепотку», «на глаз», «когда подрумянится» вместо «необходимо добавить 2.5 г NaCl».

⚖️ Правовые тексты — 64.2% hard flip

Юридические тексты хуманизируются эффективно, потому что правовой стиль имеет устоявшиеся формулировки. Модель научилась делать их более «живыми», сохраняя точность смысла.

💼 Бизнес и наука — 60%+

Деловые и научные тексты имеют формализованную структуру, которую можно естественно «разбавить» человеческими конструкциями — вводными словами, авторскими ремарками, вариативностью синтаксиса.

Средняя дельта вероятности ИИ по категориям

Ещё одна метрика — насколько сильно в среднем снижается вероятность ИИ-авторства:

Категория	Средняя дельта
Рецепты и кулинария	+0.518
Управление персоналом	+0.457
Правовые системы	+0.451
Бизнес и анализ рынка	+0.450
Психология и общество	+0.429
Литература и анализ текстов	+0.414
Маркетинг и реклама	+0.413
Научные исследования	+0.404

В среднем вероятность ИИ-авторства снижается на 0.35–0.52 пункта — это кардинальное изменение.

Δ prob_isfake по типу текста — боксплот показывает распределение изменений вероятности ИИ для каждой категории

Где есть сложности

🏠 Повседневная жизнь и размышления — 41.0% hard flip

Парадокс: эта категория показывает отличный процент улучшения (93.8%), но низкий hard flip. Причина — повседневные тексты и так имеют разнообразный стиль, что затрудняет «переключение» детектора через порог 0.5.

🌐 Многоязычные тексты — 43.6% hard flip

Наш датасет содержал преимущественно русскоязычные и англоязычные тексты. Для других языков модели нужен больший обучающий набор. Мы планируем расширить многоязычную поддержку в следующих версиях.

🖥️ IT и разработка ПО — 49.3% hard flip

Технические тексты с терминологией, фрагментами кода и специфическим синтаксисом — самая сложная категория для очеловечивания. Тем не менее, для почти половины текстов детектор полностью «обманут».

Общие выводы

Для более чем 90% текстов хуманизатор успешно снижает вероятность обнаружения ИИ — вне зависимости от тематики
Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора (из «ИИ» в «человек»)
Несмотря на относительно компактную модель (9B параметров) и датасет (~20K пар), дообучение методом SimPO показало высокую эффективность
Лучшие результаты — в структурированных доменах (право, бизнес, наука, маркетинг)
Есть потенциал для улучшения в многоязычных текстах и IT-тематике

Что это значит для пользователей

Если вы студент или аспирант

Используете ChatGPT или GigaChat для черновиков курсовых и рефератов? Очеловечивание текста — это не «обман», а инструмент для доведения черновика до человеческого уровня. В 60%+ случаев текст по правовым и научным темам станет неотличим от написанного вами.

Если вы копирайтер или маркетолог

Генерируете контент для клиентов с помощью ИИ? Маркетинговые и деловые тексты очеловечиваются с 58–61% hard flip rate. Прогоните текст через хуманизатор, а затем проверьте в нашем ИИ-детекторе — и будьте уверены в результате.

Если вы SEO-специалист

Поисковые системы учатся определять ИИ-контент. Очеловечивание снижает вероятность фильтрации — и сохраняет вашу работу с органической выдачей.

Оптимальный workflow

Генерация черновика в ChatGPT / GigaChat / любой нейросети
Очеловечивание в ReText.AI
Проверка через ИИ-детектор
Финальная редактура вручную

Для разработчиков и бизнеса (API)

Мы предоставляем API как для ИИ-детектора, так и для функции очеловечивания текста. Вы можете легко интегрировать наши технологии в свой сервис — просто напишите нам на team@retext.ai.

Подробнее о наших инструментах: читайте обзор ТОП-20 нейросетей онлайн в 2026 году, где мы подробно разбираем весь продуктовый стек ReText.AI.

FAQ

Что такое очеловечивание ИИ-текста?

Это технология, которая переписывает текст, сгенерированный нейросетью, таким образом, чтобы он читался как написанный человеком. Не простая замена слов синонимами, а глубокая переработка стиля, структуры и лексики с помощью специально обученной модели.

Какие нейросети вы тестировали?

Мы тестировали тексты, сгенерированные 8 моделями: Llama-3.2-3B, Qwen3-8B, GigaChat-2-Max, GLM-4.6, Llama-3.3-70B, GPT-oss-120B, Qwen3-235B и T-pro-it-1.0. Это покрывает текущий ландшафт от 3B до 235B параметров.

Какой размер был у тестового набора?

19 804 пары текстов (оригинальный человеческий текст + машинизированный вариант), классифицированных по 20 тематическим категориям.

Насколько это эффективно?

Для более чем 90% текстов вероятность определения как ИИ снижается. Для 14 из 20 категорий более половины текстов полностью меняют вердикт детектора из «ИИ» в «человек».

В каких категориях очеловечивание работает лучше всего?

Лидеры: рецепты и кулинария (66.7% hard flip), правовые тексты (64.2%), бизнес (61.0%), наука (60.8%), HR (59.9%) и маркетинг (58.9%).

Где очеловечивание работает хуже?

Самые сложные категории: повседневные тексты (41.0%), многоязычные тексты (43.6%), цифровые технологии (44.0%) и культура/искусство (47.4%). Но даже для них 83%+ текстов показывают улучшение.

Это этично?

Мы считаем, что ИИ — это инструмент, а не автор. Как калькулятор не заменяет математика, так и очеловечивание не заменяет писателя — оно помогает довести черновик до качества, достойного публикации. Важно: мы не призываем выдавать ИИ-текст за свой без доработки. Мы призываем использовать технологию как часть рабочего процесса.

Как попробовать очеловечивание?

Перейдите на retext.ai/ru/ochelovechit-text — до 1 000 символов можно обработать бесплатно.

Техническое приложение для разработчика

Параметры исследования

Оценочные датасеты	COLING-2025 (MGT Detection), AINL-eval (только для валидации)
Количество текстовых пар	19 804
Количество моделей-генераторов	8
Количество тематических кластеров	20
Базовая модель хуманизатора	Gemma-2-9B-IT (unsloth)
Метод оптимизации	SimPO (Simple Preference Optimization)
Метрика оценки	humanizer_score = (prob_orig − prob_hmnz) × confidence_weight
Детектор для оценки	isFake.ai / ReText.AI AI Detector
Основной язык	Русский (~80%), английский (~15%), другие (~5%)

Содержание:

Зачем мы провели это исследование

Данные: что мы анализировали

Источники текстов

Тематические домены

Генерация «машинных» вариантов

Оценочный датасет

Методология: как мы обучали модель

Базовая модель

Метод обучения: SimPO

Распределение humanizer_score по категориям

Результаты: снижение вероятности обнаружения ИИ

Общая картина

По тематическим категориям: доля улучшенных текстов

Результаты: кто полностью «обманул» детектор

Где очеловечивание работает лучше всего

🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)

⚖️ Правовые тексты — 64.2% hard flip

💼 Бизнес и наука — 60%+

Средняя дельта вероятности ИИ по категориям

Где есть сложности

🏠 Повседневная жизнь и размышления — 41.0% hard flip

🌐 Многоязычные тексты — 43.6% hard flip

🖥️ IT и разработка ПО — 49.3% hard flip

Общие выводы

Что это значит для пользователей

Если вы студент или аспирант

Если вы копирайтер или маркетолог

Если вы SEO-специалист

Оптимальный workflow

Для разработчиков и бизнеса (API)

FAQ

Что такое очеловечивание ИИ-текста?

Какие нейросети вы тестировали?

Какой размер был у тестового набора?

Насколько это эффективно?

В каких категориях очеловечивание работает лучше всего?

Где очеловечивание работает хуже?

Это этично?

Как попробовать очеловечивание?

Техническое приложение для разработчика

Параметры исследования

Как очеловечить текст нейросети: исследование на 20 000 текстах в 20 категориях

Зачем мы провели это исследование

Данные: что мы анализировали

Источники текстов

Тематические домены

Генерация «машинных» вариантов

Оценочный датасет

Методология: как мы обучали модель

Базовая модель

Метод обучения: SimPO

Распределение humanizer_score по категориям

Результаты: снижение вероятности обнаружения ИИ

Общая картина

По тематическим категориям: доля улучшенных текстов

Результаты: кто полностью «обманул» детектор

Где очеловечивание работает лучше всего

🍳 Рецепты и кулинария — лидер (100% улучшение, 66.7% hard flip)

⚖️ Правовые тексты — 64.2% hard flip

💼 Бизнес и наука — 60%+

Средняя дельта вероятности ИИ по категориям

Где есть сложности

🏠 Повседневная жизнь и размышления — 41.0% hard flip

🌐 Многоязычные тексты — 43.6% hard flip

🖥️ IT и разработка ПО — 49.3% hard flip

Общие выводы

Что это значит для пользователей

Если вы студент или аспирант

Если вы копирайтер или маркетолог

Если вы SEO-специалист

Оптимальный workflow

Для разработчиков и бизнеса (API)

FAQ

Что такое очеловечивание ИИ-текста?

Какие нейросети вы тестировали?

Какой размер был у тестового набора?

Насколько это эффективно?

В каких категориях очеловечивание работает лучше всего?

Где очеловечивание работает хуже?

Это этично?

Как попробовать очеловечивание?

Техническое приложение для разработчика

Параметры исследования

Рекомендуемые статьи

Лучшие нейросети 2026: рейтинг, сравнение и бенчмарки ТОП-20

Обновление ИИ-детектора ReText.AI: теперь определяет генерацию текста с высокой точностью