ReText.AI проанализировал 12 996 выпускных работ за 2013–2025 годы и более 590 млн символов. Рассказываем, как проходила проверка текста на ИИ, как работал ИИ-детектор и чем такой анализ отличается от антиплагиата.

Содержание:

Проверка текста на ИИ: как ReText.AI проанализировал 13 000 дипломов

Коротко: что показала проверка текста на ИИ

Что мы изучали: проверка текста на ИИ в выпускных работах

Какой корпус вошёл в исследование

Как мы готовили тексты к проверке на ИИ

Как проверить текст на ИИ: почему мы анализировали абзацы, а не весь документ целиком

Как работал ИИ-детектор текста

Как считалась AI-доля

Что показала проверка на ИИ по годам

Какие разделы чаще получают метку AI

Чем проверка текста на ИИ отличается от антиплагиата

Ограничения методологии

Главный вывод исследования

Проверка текста на ИИ: как ReText.AI проанализировал 13 000 дипломов

Команда ReText.AI провела исследование, чтобы посмотреть, как после массового появления нейросетей изменилась работа с академическими текстами.

Мы проанализировали 12 996 выпускных работ за 2013–2025 годы. В выборку вошло более 590 млн символов. Тексты проверялись не целиком, а по абзацам: так можно точнее увидеть, какие части работы выглядят как написанные человеком, а какие — как фрагменты, созданные или существенно переработанные языковой моделью.

В этой статье рассказываем, как проходила проверка текста на ИИ, какие фрагменты мы исключали из анализа, как считалась AI-доля и почему результаты важно читать именно как статистику по корпусу, а не как оценку отдельных работ.

Коротко: что показала проверка текста на ИИ

Главный вывод исследования — после 2022 года AI-доля в выпускных работах начала заметно расти.

По данным ReText.AI:

AI-доля выросла с 9,9% в 2022 году до 42,3% в 2025 году;
в 2025 году самые высокие значения чаще встречались в заключении — около 56%;
во введении AI-доля составила около 49%;
в основной части показатель был ниже — около 41%;
доля работ, где почти нет признаков ИИ, снизилась: в 2022 году таких работ было около 70%, а в 2025 году — около 23%;
при сохранении тренда в 2026 году AI-доля может выйти на диапазон 50–60% по корпусу.

Эти цифры показывают общий сдвиг в работе с академическими текстами: нейросети стали не экспериментом, а частью процесса подготовки, редактуры и структурирования материалов.

Проверка текста на ИИ в выпускных работах: график динамики AI-доли с 2013 по 2025 год по исследованию ReText.AI — Рис. 1. Динамика AI-доли в выпускных работах по годам.

После 2022 года показатель начинает расти быстрее: с 9,9% в 2022 году до 42,3% в 2025 году.

Что мы изучали: проверка текста на ИИ в выпускных работах

Нейросети уже стали частью работы с текстами. Их используют для черновиков, редактуры, перевода, структурирования, сокращения, формулировки введений и выводов.

В академических текстах это особенно заметно: разные разделы работы пишутся по-разному. Введение и заключение чаще состоят из стандартных формулировок, а основная часть обычно требует больше данных, анализа и авторских выводов.

Поэтому задача исследования была не в том, чтобы просто найти “тексты от ИИ”. Мы хотели посмотреть на динамику:

как менялась AI-доля по годам;
в каких разделах работ признаки ИИ встречаются чаще;
как ИИ-детектор текста реагирует на академический стиль;
где могут появляться фоновые срабатывания;
насколько заметен сдвиг после массового распространения LLM-инструментов.

Какой корпус вошёл в исследование

В исследовании использовались 12 996 выпускных квалификационных работ за период 2013–2025 годов.

После подготовки и фильтрации в анализ вошло 590 944 775 символов. Для каждой работы рассчитывалась AI-доля — доля текста, которую детектор ИИ классифицировал как похожую на машинную генерацию или LLM-переработку.

Инфографика исследования ReText.AI по проверке текста на ИИ: 12 996 выпускных работ, 2013–2025 годы и более 590 млн символов — Рис. 2. Ключевые параметры корпуса: 12 996 выпускных работ за 2013–2025 годы и более 590 млн символов в анализе.

Средняя AI-доля по всему корпусу составила 14,7%, но важнее не среднее значение, а изменение по годам. В выборке много работ до 2022 года, когда современные LLM-инструменты еще не были массово доступны. Поэтому ранние годы помогают оценить фон: как часто детектор срабатывает на формальный академический стиль сам по себе.

Как мы готовили тексты к проверке на ИИ

Перед анализом тексты очищались от фрагментов, которые могли исказить результат.

В проверку не включались:

титульные листы;
аннотации;
оглавления;
списки литературы;
приложения;
благодарности;
отчеты по практике;
подписи к рисункам и таблицам;
обрывки формул;
служебные и слишком короткие фрагменты.

Для анализа брались только абзацы длиной от 500 символов. Короткие фразы часто не дают ИИ-детектору достаточно контекста, поэтому могут давать менее устойчивую оценку.

Также исключались работы, где после очистки оставалось слишком мало содержательного текста: например, меньше 10 подходящих абзацев или слишком маленький объём основной части.

Как проверить текст на ИИ: почему мы анализировали абзацы, а не весь документ целиком

Одна выпускная работа может состоять из очень разных фрагментов. Например, введение может быть написано шаблонно, основная часть — более авторски, а заключение — снова в стандартном академическом стиле.

Если проверять весь документ целиком, эти различия сглаживаются. Поэтому мы использовали абзацный анализ.

Каждый абзац проверялся отдельно. Так можно увидеть не только общий показатель по работе, но и распределение: какие части текста чаще получают метку AI, а какие выглядят более естественно для детектора.

Как работал ИИ-детектор текста

Для исследования использовался LLM-детектор, обученный отличать человеческие тексты от фрагментов, похожих на генерацию языковых моделей.

На вход детектору подавался отдельный абзац. На выходе модель определяла, относится ли фрагмент к человеческому тексту или к AI-тексту. Если абзац классифицировался как AI, дополнительно фиксировалась предполагаемая группа модели-генератора.

Важно учитывать, что детектор ИИ текста оценивает не историю создания документа, а языковые признаки: структуру, повторяемость, предсказуемость формулировок, академическую шаблонность и другие стилистические паттерны.

Именно поэтому результаты исследования использовались только для агрегированной аналитики: по годам, разделам и группам текстов.

Как считалась AI-доля

Важно отметить, что AI-доля считалась по символам, а не по количеству абзацев.

Формула:

AI-доля = количество символов в абзацах, классифицированных как AI / общее количество символов в проанализированных абзацах.

Например, если после очистки в работе осталось 100 000 символов содержательного текста, а 25 000 символов пришлись на абзацы, которые детектор отнес к AI, AI-доля такой работы составляла 25%.

Такой подход делает оценку устойчивее: длинные содержательные абзацы сильнее влияют на итоговый показатель, чем короткие фрагменты.

Что показала проверка на ИИ по годам

Главный результат исследования — заметный рост AI-доли после 2022 года.

В работах до массового распространения современных LLM-инструментов детектор тоже находил отдельные AI-похожие фрагменты. Это ожидаемый фон: формальный академический стиль, шаблонные вводные конструкции, переводы и стандартные обороты могут выглядеть для модели “машинно”.

Но после 2023 года картина меняется. AI-доля начинает расти значительно быстрее. По данным исследования, в 2025 году показатель достиг 42,3% для длинных абзацев.

График распределения AI-доли в выпускных работах: в 2022 году около 70% работ были в диапазоне 0–10%, в 2025 году — около 23% — Рис. 3. Распределение AI-доли в выпускных работах: 2022 и 2025 годы.

В 2022 году около 70% работ находились в диапазоне 0–10% AI-доли. В 2025 году в этом диапазоне осталось около 23% работ: это показывает, что признаки ИИ стали встречаться заметно чаще.

Какие разделы чаще получают метку AI

Также мы решили отдельно сравнить введение, основную часть и заключение.

Самые высокие значения AI-доли чаще встречались во введении и заключении. Эти разделы обычно содержат более универсальные формулировки: актуальность, цель, задачи, общие выводы, переходы и обобщения.

В 2025 году AI-доля в заключении составила около 56%, во введении — около 49%, в основной части — около 41%.

Основная часть в среднем выглядела менее “генерируемой”. Вероятная причина — в ней больше конкретики: данных, анализа, расчётов, ссылок на источники, результатов и авторской аргументации.

Поэтому проверка текста на ИИ в академических работах требует аккуратной интерпретации: детектор может реагировать не только на возможную машинную переработку, но и на типовые формулировки жанра — особенно во введении и заключении.

ИИ-детектор текста показал AI-долю по разделам выпускных работ в 2025 году: заключение около 56%, введение около 49%, основная часть около 41% — Рис. 4. AI-доля по разделам выпускных работ в 2025 году.

Заключение и введение чаще получают признаки ИИ-генерации, потому что в этих разделах больше типовых академических формулировок.

Чем проверка текста на ИИ отличается от антиплагиата

Антиплагиат обычно ищет совпадения с уже опубликованными источниками: сайтами, статьями, рефератами, базами работ.

ИИ-детектор решает другую задачу: он оценивает, насколько текст похож на машинную генерацию или переработку.

Поэтому эти проверки нельзя заменять друг другом. Текст может быть оригинальным с точки зрения заимствований, но выглядеть AI-подобным для детектора. И наоборот: текст может быть написан человеком, но содержать совпадения с источниками.

В нашем исследовании анализировались именно признаки ИИ-генерации и LLM-переработки, а не заимствования.

Ограничения методологии

У исследования есть несколько важных ограничений.

Во-первых, ИИ-детектор не даёт абсолютной оценки. Он работает с вероятностными признаками текста.

Во-вторых, академический стиль сам по себе может повышать вероятность срабатывания: особенно во введениях, заключениях и фрагментах с типовыми формулировками.

В-третьих, детектор может по-разному реагировать на тексты разных языков и на тексты, прошедшие через перевод или редактуру.

В-четвертых, AI-доля не показывает, какую именно роль играла нейросеть: генерация с нуля, редактура, перевод, перефразирование или помощь с отдельными формулировками.

Именно поэтому главная ценность исследования — не в отдельных процентах, а в сравнении периодов и крупных трендов.

Главный вывод исследования

Исследование ReText.AI показало: после массового появления LLM-инструментов в академических текстах заметно выросла доля фрагментов, которые ИИ-детектор текста классифицирует как похожие на машинную генерацию или переработку.

Сильнее всего рост заметен после 2022 года. Особенно часто AI-похожие фрагменты встречаются во введениях и заключениях — разделах, где больше стандартных академических формулировок.

При этом результаты проверки текста на ИИ важно читать аккуратно. Они показывают не “историю создания” конкретного текста, а языковые признаки, которые становятся заметными на большом корпусе.

Главный вывод не в том, что нейросети “заменили” авторов, а в том, что они стали частью академического письма. Поэтому дальше важнее не спорить о самом факте использования ИИ, а выстраивать понятные правила: где нейросети допустимы как инструмент редактуры, как фиксировать их использование и как отличать помощь с текстом от подмены самостоятельной работы.

Содержание:

Проверка текста на ИИ: как ReText.AI проанализировал 13 000 дипломов

Коротко: что показала проверка текста на ИИ

Что мы изучали: проверка текста на ИИ в выпускных работах

Какой корпус вошёл в исследование

Как мы готовили тексты к проверке на ИИ

Как проверить текст на ИИ: почему мы анализировали абзацы, а не весь документ целиком

Как работал ИИ-детектор текста

Как считалась AI-доля

Что показала проверка на ИИ по годам

Какие разделы чаще получают метку AI

Чем проверка текста на ИИ отличается от антиплагиата

Ограничения методологии

Главный вывод исследования