Проверка текста на ИИ: как ReText.AI проанализировал 13 000 дипломов
Проверка текста на ИИ: как ReText.AI проанализировал 13 000 дипломов
Команда ReText.AI провела исследование, чтобы посмотреть, как после массового появления нейросетей изменилась работа с академическими текстами.
Мы проанализировали 12 996 выпускных работ за 2013–2025 годы. В выборку вошло более 590 млн символов. Тексты проверялись не целиком, а по абзацам: так можно точнее увидеть, какие части работы выглядят как написанные человеком, а какие — как фрагменты, созданные или существенно переработанные языковой моделью.
В этой статье рассказываем, как проходила проверка текста на ИИ, какие фрагменты мы исключали из анализа, как считалась AI-доля и почему результаты важно читать именно как статистику по корпусу, а не как оценку отдельных работ.
Коротко: что показала проверка текста на ИИ
Главный вывод исследования — после 2022 года AI-доля в выпускных работах начала заметно расти.
По данным ReText.AI:
- AI-доля выросла с 9,9% в 2022 году до 42,3% в 2025 году;
- в 2025 году самые высокие значения чаще встречались в заключении — около 56%;
- во введении AI-доля составила около 49%;
- в основной части показатель был ниже — около 41%;
- доля работ, где почти нет признаков ИИ, снизилась: в 2022 году таких работ было около 70%, а в 2025 году — около 23%;
- при сохранении тренда в 2026 году AI-доля может выйти на диапазон 50–60% по корпусу.
Эти цифры показывают общий сдвиг в работе с академическими текстами: нейросети стали не экспериментом, а частью процесса подготовки, редактуры и структурирования материалов.
После 2022 года показатель начинает расти быстрее: с 9,9% в 2022 году до 42,3% в 2025 году.
Что мы изучали: проверка текста на ИИ в выпускных работах
Нейросети уже стали частью работы с текстами. Их используют для черновиков, редактуры, перевода, структурирования, сокращения, формулировки введений и выводов.
В академических текстах это особенно заметно: разные разделы работы пишутся по-разному. Введение и заключение чаще состоят из стандартных формулировок, а основная часть обычно требует больше данных, анализа и авторских выводов.
Поэтому задача исследования была не в том, чтобы просто найти “тексты от ИИ”. Мы хотели посмотреть на динамику:
- как менялась AI-доля по годам;
- в каких разделах работ признаки ИИ встречаются чаще;
- как ИИ-детектор текста реагирует на академический стиль;
- где могут появляться фоновые срабатывания;
- насколько заметен сдвиг после массового распространения LLM-инструментов.
Какой корпус вошёл в исследование
В исследовании использовались 12 996 выпускных квалификационных работ за период 2013–2025 годов.
После подготовки и фильтрации в анализ вошло 590 944 775 символов. Для каждой работы рассчитывалась AI-доля — доля текста, которую детектор ИИ классифицировал как похожую на машинную генерацию или LLM-переработку.
Средняя AI-доля по всему корпусу составила 14,7%, но важнее не среднее значение, а изменение по годам. В выборке много работ до 2022 года, когда современные LLM-инструменты еще не были массово доступны. Поэтому ранние годы помогают оценить фон: как часто детектор срабатывает на формальный академический стиль сам по себе.
Как мы готовили тексты к проверке на ИИ
Перед анализом тексты очищались от фрагментов, которые могли исказить результат.
В проверку не включались:
- титульные листы;
- аннотации;
- оглавления;
- списки литературы;
- приложения;
- благодарности;
- отчеты по практике;
- подписи к рисункам и таблицам;
- обрывки формул;
- служебные и слишком короткие фрагменты.
Для анализа брались только абзацы длиной от 500 символов. Короткие фразы часто не дают ИИ-детектору достаточно контекста, поэтому могут давать менее устойчивую оценку.
Также исключались работы, где после очистки оставалось слишком мало содержательного текста: например, меньше 10 подходящих абзацев или слишком маленький объём основной части.
Как проверить текст на ИИ: почему мы анализировали абзацы, а не весь документ целиком
Одна выпускная работа может состоять из очень разных фрагментов. Например, введение может быть написано шаблонно, основная часть — более авторски, а заключение — снова в стандартном академическом стиле.
Если проверять весь документ целиком, эти различия сглаживаются. Поэтому мы использовали абзацный анализ.
Каждый абзац проверялся отдельно. Так можно увидеть не только общий показатель по работе, но и распределение: какие части текста чаще получают метку AI, а какие выглядят более естественно для детектора.
Как работал ИИ-детектор текста
Для исследования использовался LLM-детектор, обученный отличать человеческие тексты от фрагментов, похожих на генерацию языковых моделей.
На вход детектору подавался отдельный абзац. На выходе модель определяла, относится ли фрагмент к человеческому тексту или к AI-тексту. Если абзац классифицировался как AI, дополнительно фиксировалась предполагаемая группа модели-генератора.
Важно учитывать, что детектор ИИ текста оценивает не историю создания документа, а языковые признаки: структуру, повторяемость, предсказуемость формулировок, академическую шаблонность и другие стилистические паттерны.
Именно поэтому результаты исследования использовались только для агрегированной аналитики: по годам, разделам и группам текстов.
Как считалась AI-доля
Важно отметить, что AI-доля считалась по символам, а не по количеству абзацев.
Формула:
AI-доля = количество символов в абзацах, классифицированных как AI / общее количество символов в проанализированных абзацах.
Например, если после очистки в работе осталось 100 000 символов содержательного текста, а 25 000 символов пришлись на абзацы, которые детектор отнес к AI, AI-доля такой работы составляла 25%.
Такой подход делает оценку устойчивее: длинные содержательные абзацы сильнее влияют на итоговый показатель, чем короткие фрагменты.
Что показала проверка на ИИ по годам
Главный результат исследования — заметный рост AI-доли после 2022 года.
В работах до массового распространения современных LLM-инструментов детектор тоже находил отдельные AI-похожие фрагменты. Это ожидаемый фон: формальный академический стиль, шаблонные вводные конструкции, переводы и стандартные обороты могут выглядеть для модели “машинно”.
Но после 2023 года картина меняется. AI-доля начинает расти значительно быстрее. По данным исследования, в 2025 году показатель достиг 42,3% для длинных абзацев.
В 2022 году около 70% работ находились в диапазоне 0–10% AI-доли. В 2025 году в этом диапазоне осталось около 23% работ: это показывает, что признаки ИИ стали встречаться заметно чаще.
Какие разделы чаще получают метку AI
Также мы решили отдельно сравнить введение, основную часть и заключение.
Самые высокие значения AI-доли чаще встречались во введении и заключении. Эти разделы обычно содержат более универсальные формулировки: актуальность, цель, задачи, общие выводы, переходы и обобщения.
В 2025 году AI-доля в заключении составила около 56%, во введении — около 49%, в основной части — около 41%.
Основная часть в среднем выглядела менее “генерируемой”. Вероятная причина — в ней больше конкретики: данных, анализа, расчётов, ссылок на источники, результатов и авторской аргументации.
Поэтому проверка текста на ИИ в академических работах требует аккуратной интерпретации: детектор может реагировать не только на возможную машинную переработку, но и на типовые формулировки жанра — особенно во введении и заключении.
Заключение и введение чаще получают признаки ИИ-генерации, потому что в этих разделах больше типовых академических формулировок.
Чем проверка текста на ИИ отличается от антиплагиата
Антиплагиат обычно ищет совпадения с уже опубликованными источниками: сайтами, статьями, рефератами, базами работ.
ИИ-детектор решает другую задачу: он оценивает, насколько текст похож на машинную генерацию или переработку.
Поэтому эти проверки нельзя заменять друг другом. Текст может быть оригинальным с точки зрения заимствований, но выглядеть AI-подобным для детектора. И наоборот: текст может быть написан человеком, но содержать совпадения с источниками.
В нашем исследовании анализировались именно признаки ИИ-генерации и LLM-переработки, а не заимствования.
Ограничения методологии
У исследования есть несколько важных ограничений.
Во-первых, ИИ-детектор не даёт абсолютной оценки. Он работает с вероятностными признаками текста.
Во-вторых, академический стиль сам по себе может повышать вероятность срабатывания: особенно во введениях, заключениях и фрагментах с типовыми формулировками.
В-третьих, детектор может по-разному реагировать на тексты разных языков и на тексты, прошедшие через перевод или редактуру.
В-четвертых, AI-доля не показывает, какую именно роль играла нейросеть: генерация с нуля, редактура, перевод, перефразирование или помощь с отдельными формулировками.
Именно поэтому главная ценность исследования — не в отдельных процентах, а в сравнении периодов и крупных трендов.
Главный вывод исследования
Исследование ReText.AI показало: после массового появления LLM-инструментов в академических текстах заметно выросла доля фрагментов, которые ИИ-детектор текста классифицирует как похожие на машинную генерацию или переработку.
Сильнее всего рост заметен после 2022 года. Особенно часто AI-похожие фрагменты встречаются во введениях и заключениях — разделах, где больше стандартных академических формулировок.
При этом результаты проверки текста на ИИ важно читать аккуратно. Они показывают не “историю создания” конкретного текста, а языковые признаки, которые становятся заметными на большом корпусе.
Главный вывод не в том, что нейросети “заменили” авторов, а в том, что они стали частью академического письма. Поэтому дальше важнее не спорить о самом факте использования ИИ, а выстраивать понятные правила: где нейросети допустимы как инструмент редактуры, как фиксировать их использование и как отличать помощь с текстом от подмены самостоятельной работы.