Что такое заимствование в антиплагиате
Научная библиотека
Новости
Что делает «Антиплагиат» и как с ним работать правильно
Если вы хотите услышать действительно страшную историю из жизни студента, то обязательно спросите у него про Антиплагиат. Сегодня вокруг обычной проверки текста на оригинальность сложилось столько разных страшилок и мифов, что хватило бы на отдельную книгу. Распространять и анализировать их мы все-таки не решились, но зато написали о том, как правильно пользоваться этим инструментом. Читайте в нашем тексте про то, какие задачи решает Антиплагиат и как с ним работать.
Зачем мне вообще «Антиплагиат»?
Если совсем коротко, то для того, чтобы вы и ваши читатели были уверены в том, что в вашей работе нет некорректных заимствований (или “копипаста”) и что все оформлено в соответствии с требованиями к академическим текстам.
Цель проверки текста на «Антиплагиате» — посмотреть на свою работу «чужими глазами». В данном случае разглядывать текст будет алгоритм, который не обладает сознанием и ничего не понимает в вашем тексте содержательно. (С содержательной частью вам может помочь научный руководитель). «Антиплагиат» проанализирует работу на предмет совпадений вашего текста с текстами из различных внешних источников и покажет результат в виде процентов оригинальности, заимствований, цитирования и самоцитирования.
Сами по себе эти проценты ничего не значат. Все зависит от требований, установленных кафедрой при при приеме той или иной письменной работы. (Например, вполне очевидно, что процент оригинальности у дипломной работы должен быть выше, чем процент оригинальности у реферата).
Большое количество заимствований не всегда говорит о том, что студент является злостным нарушителем академической этики. Во многих случаях—это результат неправильно оформленных цитат и сносок.
Именно поэтому «Антиплагиат»—это прежде всего вспомогательный (а не карательный) инструмент, который поможет вам найти ошибки в оформлении своего текста и исправить их.
Сколько раз студенты могут пользоваться «Антиплагиатом»?
У студентов Академии есть три проверки в «Антиплагиате» на семь дней. Обратите внимание, что речь идет именно о количестве дней с первой проверки, а не календарной неделе. То есть, если в первый раз вы проверили работу в пятницу, то до следующей пятницы (когда откроется новый цикл проверок) вы сможете загрузить свой текст в «Антиплагиат» еще 2 раза.
Не стоит торопиться с повторной загрузкой текста в программу. Лучше по максимуму устранить все недочеты, дополнить текст содержательно и еще раз все проверить через несколько дней. Если вы пишите одну работу, процедура проверки не должна вызвать особых сложностей. Главное — не делать все в последний момент. Если работ, которые нужно сдавать, у вас много, то придется подключить свои навыки планирования, чтобы в нужный момент у вас была возможность проверить каждый из своих текстов.
Где проверять на предмет заимствований? Все «Антиплагиаты» одинаковые?
Не забывайте, что вам нужно получить справку из «Антиплагиата» Академии (то есть из вашего личного кабинета студента), а не просто с сайта «Антиплагиата», где есть и бесплатная версия, или аккаунта из другого университета, который может показать более удобную для вас цифру. Результаты бесплатной версии «Антиплагиата» и того, что доступен вам как студентам Академии будут разными.
Какой процент оригинальности правильный?
Сразу уточняйте, какой процент оригинальности принят у вас на кафедре. Обычно такие требования прописаны в рекомендациях по написанию курсовых и дипломных работ, а также диссертаций. Требования к разным видам работ могут различаться. При этом нужно понимать, что цифры эти могут отличаться от института к институту, даже от кафедры к кафедре. На уровне Академии конкретный процент нигде не указан, равно как и на уровне Министерства науки и высшего образования таких цифр вы не найдете. Решения принимают институты и кафедры самостоятельно. Поэтому не слушайте, что говорят друзья из других институтов. У них все может быть совсем иначе. Уточните процент и все детали у тех людей, которые вашу работу будут принимать.
Что такое «процент оригинальности»? Достаточно ли смотреть только на эту цифру?
На процент оригинальности влияют несколько показателей:
Самоцитирования. Скорее всего, вы с этим не столкнетесь, однако если у вас уже есть опубликованные тексты, то иногда вы на них будете ссылаться. Вот здесь-то и появится процент в разделе самоцитирования. Но в случае курсовой и диплома об этом можно не задумываться.
Цитирования. Преподаватели ждут от вас цитат, поскольку каждая научная работа опирается на ей предшествующие. Цитата — это воспроизведение части чужого текста, когда чужая фраза помещается в кавычки + вы указываете откуда точно взяли чужие слова. Цитата обязательно должна быть дословной, помещаться в кавычки — и не может быть слишком большой. Ответов на вопрос о том, насколько длинной может быть «хорошая» цитата, много и зависит все от вашего направления подготовки. Понятно, что литературоведы могут цитировать большие части анализируемого текста, а специалисты по электоральной статистике могут вообще ничего не цитировать и просто давать ссылки на данные. В любом случае, указание на другой текст должно быть максимально точным: указывать страницу в печатном или сверстанном источнике сторого обязательно. Если кавычки и ссылка присутствует, то мы имеем дело с правильно оформленной цитатой. И «Антиплагиат» будет считать такую цитату именно «цитированием», а не «заимствованием».
Не забывайте, что большой объем цитат не является достоинством курсовой/диплома/диссертации, поэтому не стоит увлекаться цитированием больше нужного минимума. От вас ждут ваших мыслей, а не сборника цитат из классиков.
Заимствования. В отличие от цитат, которых может быть много или мало: в зависимости от вашей исследовательский задачи, заимствований быть не должно. За одним исключением — общеупотребляемые фразы (в отчете они называются «Модуль поиска общеупотребительных выражений»). Переписывать их не нужно, потому что профессиональный (и академический) язык подразумевает, что вы пользуетесь профессиональным сленгом и в каком-то смысле вы просто обязаны повторять слова за другими. В справке к отчету из «Антиплагиата» в таких случаях можно указать, что отмеченные общеупотребимыми фразы являются типичными для той темы, про которую вы пишете. Все заимствования кроме общеупотребительных фраз совершенно недопустимы в соответствии с требованиями академической этики. Поэтому если вы забыли поставить кавычки их нужно поставить; если вы забыли сделать сноску на перефразированную мысль, то сноску нужно поставить. Кроме общеупотребительных фраз никаких других заимствований в вашем тексте быть не должно: ни 5%, ни 0,5%. Цитаты — допустимы и приветствуются, заимствования — строго запрещены.
Что делать, если в тексте много цитат, но сократить их размер и количество невозможно?
Случается всякое. Иногда для раскрытия темы вам нужно будет сопоставлять чужие тексты (если вы, например, занимаетесь сравнительным правоведением и анализируете тексты законов и законопроектов). Что делать, если работа написана, а нужных 60–70–80–90–о ужас!–95% оригинальности никак не получается? Пишите научному руководителю. Но делать это нужно не за день до сдачи, а заранее. Лучше хоть за пару недель, в крайнем случае — за неделю. Тогда у вашего научного руководителя будет возможность уточнить на кафедре/в совете по защите диссертаций можно будет сдать такой текст или нет, нужно ли будет писать какую-то специальную пояснительную записку или нет. Всегда ли вам пойдут на встречу? Нет, не всегда. Но если вы будете спрашивать заранее, то у вас останется время на правку уже готового текста.
Уникальность, плагиат и цитирование в антиплагиате – подробный обзор
Уникальность, плагиат и цитирование в антиплагиате – подробный обзор
Сегодня каждый студент, который сдает научную работу, обязательно проходит проверку антиплагиата в вузе. Результат данной проверки будет показан в виде процентного соотношения. В отчете будет указаны следующие параметры: уникальность, плагиат и цитирование.
Сегодня мы постараемся подробно рассмотреть данную систему процентов. Выясним, чем же отличается цитирование от плагиата, а плагиат от уникальности. Как правильно оформить цитату, чтобы программа не спутала ее с заимствованием.
Прочитайте статью до конца и узнайте, какие методы позволяют быстро и эффективно поднять уровень оригинальности.
Что такое уникальность текста в антиплагиате?
Самым важным параметром является, конечно же, уникальность текста. По-другому, это самостоятельность вашего документа, то, что вы прочитали и изложили абсолютно своими словами.
Уникальность текста выражается в процентах. Если результат, который показала системе АНтиплагиат составляет 50% оригинальности, это значит что половину работы вы написали самостоятельно, используя исключительно авторский текст и собственные мысли.
Чем выше процент самостоятельности в работе, тем лучше.
Для дипломов и курсовых проектов в вузах требуют писать с максимальной уникальностью текста, не менее 75-85%
Для рефератов требования чуть ниже, чтобы получить зачет будет достаточно набрать 60-70% авторского текста.
Такой показатель как “уникальность текста” важен не только для студентов и преподавателей, но и для тех, кто занимается написанием контента для сайтов или блогов.
Конечная цель любой статьи на сайте – попасть в топ выдачи в поисковиках яндекс и гугл. Так вот с низкой оригинальностью об этом можно не мечтать. Поисковики крайне негативно относятся к плагиату. Статья может подняться в выдаче только в том случае, если будет иметь максимальную степень уникальности.
Если вам необходимо поднять уровень оригинальности текста, то мы предлагаем прочитать нашу статью: Как поднять уровень оригинальности – лучшие 5 методов.
Таким образом, уникальность текста в антиплагиате является важным критерием не только для фрилансеров, которые пишут статьи на заказ, но и для студентов, которые хотят успешно сдать свою научную работу.
Что такое плагиат при проверке уникальности текста?
Что такое плагиат простыми словами? Плагиат при проверке уникальности текста – это заимствования из других источников.
Простыми словами, плагиат – это скаченный текст, сворованный у других авторов, тот материал, который был ранее опубликован другим автором.
Плагиат крайне негативное явление.
Старайтесь писать используя исключительно собственные выводы, рассуждения и проводя авторский анализ.
Для тех кто пишет статьи на сайты (копирайтеры), рекомендуем полностью исключить использование плагиата, в противном случае написанный материал не будет проиндексирован поисковиками и даже может попасть под фильтры с исключением страницы из поиска.
Студентам советуем всегда проверять работы на плагиат дома, заранее, в системе Антиплагиат.
Ведь по сути зачем нужен антиплагиат? Антиплагиат призван бороться с мошенниками, которые пытаются выдать чужую работу за свою. Если говорить юридическим языком, плагиат – это все-таки умышленное хищение чужого авторского права. Это уже грозит статьей УК РФ, а также потерей репутации. Поэтому если без чужих слов вам никак не обойтись, то старайтесь присвоить им статус цитаты. Что такое цитирование в антиплагиате разберем ниже.
Что такое цитирование в антиплагиате?
Цитирование в антиплагиате очень полезная вещь. Почему?
Если бы в программе не было функции выявления цитат, то все было бы очень плохо.
Разберемся подробнее с оформлением цитирования. Существует мнение, что оформление цитат играет большую роль при анализе текста. Некоторые говорят, что перед цитатой должен быть указан либо источник, либо автор слов.
Другие считают, что цитата должна иметь ссылку в конце страницы с полным указанием источника. Скажем сразу, что это миф.
Такое оформление обязательно лишь для преподавателя, который будет оценивать вашу работу. Программа Антиплагиат не смотрит на внешний вид документа. Самое важное для нее – выделение текста скобочками! Если весь фрагмент будет без скобок, либо какая-то часть цитаты останется за ней – это будет рассматриваться как плагиат.
Где проверить текст на уникальность, плагиат и цитирование?
Открытым остается вопрос – где проверить текст на уникальность, плагиат и цитирование?
Рассмотрим с вами несколько сервисов, которые предоставляют бесплатную возможность проверить антиплагиат.
Антиплагиат ру
Самым известным и популярным среди студентов является официальный сайт Антиплагиат.ру. Здесь вы можете получить бесплатный доступ к личному кабинету, зарегистрировавшись через электронную почту, либо же войти с помощью социальных сетей.
Чтобы загрузить документ, прежде всего проверьте, чтобы формат был либо PDF, либо TXT. К сожалению, форматы DOC и DOCX доступны только для платной версии. Быстро изменить формат вы можете самостоятельно при сохранении всего документа, либо же обратившись к онлайн-программам для конвертации. Конвертировать ворд в ПДФ можно на нашем сайте – это абсолютно бесплатно.
Есть другой вариант – вы можете скопировать только свой текст и загрузить его в отдельное окно.
После проверки можно увидеть распределение процентов по параметрам: заимствования / самоцитирования / цитирования / оригинальность. Все то же самое, что мы уже с вами разобрали. Остановимся только на объяснении пункта самоцитирование.
Обычно к данной технике прибегают в случае, когда тема слишком узкая или новая и исследователь разрабатывает одну и ту же проблему на протяжении нескольких лет. Как правило, в этом нет ничего зазорного, однако стоит помнить, что уникальность нового текста должна составлять не меньше 70-80%. Самоцитирование же допустимо в рамках 25-30 %, т.е. вместо цитирования других авторов, вы можете ссылаться на собственные работы. Главное, чтобы это не выглядело слишком честолюбиво.
Антиплагиат.ру в бесплатной версии предлагает вам краткий отчет, в котором могут высветиться только три ссылки с указанием на источники, используемые в документе.
Повторим, что данный сервис наиболее полезен для студентов. Дальше мы перейдем к сайтам, которые подходят для копирайтеров.
ЕТХТ И АДВЕГО
Загрузить текст файлом, можно путем (CRTL+C, CRTL+V).
Программа может быть очень полезной и приятной в использовании, однако есть одна проблема, которая встречается при анализе больших документов. В какой-то момент при обработке возникает каптча, которая приостанавливает действие, пока проверяющий не введет ее правильно.
Так может повторяться несколько раз. По окончании процесса вы получите полный отчет заимствований с выделением в тексте плагиата и оригинальных блоков и с указанием источников.
Антиплагиат Адвего точно таким же образом может проверить ваш текст онлайн или в приложении. Заранее скажем, что онлайн-сервис не всегда доступен, поэтому лучше сразу скачивать приложение на компьютер.
Технология такая же, как в предыдущем варианте с ETXT: загружаете документ, пока проходит анализ текста, вы занимаете себя введением каптчи, а под конец система выдаст финальный результат: например, «Отличная уникальность текста», «неуникальный текст» и указание точного процента.
Мы рассмотрели несколько вариантов, где вы можете проверить текст на уникальность, плагиат и цитирование.
Подводя итог, можем отметить, что разница между Адвего и ETXT в скорости обработки. Общий минус двух приложений в отличие от Антиплагиат.ру – невозможно скачать и распечатать отчет проверки, а также процент может быть завышен из-за неуказанных источников, доступом к которым обладает Антиплагиат.ру.
Как снизить плагиат в работе?
После пройденной проверки возникает вопрос, а как снизить плагиат в работе?
Сейчас мы постараемся на него ответить. Существует несколько способов.
В первую очередь необходимо сказать о том, что бесплатных способов несколько:
Конечно, второй вариант будет более быстрым, если работу будет выполнять профессионал. Однако необходимо проверять работу полностью, бывает такое, что рерайтеры исправляют лишь небольшую часть вначале документа и выдают всю работу за готовую. Также рерайтер сам может использовать программы, которые сделают текст бессмысленным и бессвязным.
Давайте сразу познакомимся с этими программами.
Поддержка при возникновении проблем и гарантия качества обеспечены. Ознакомиться подробнее, как работает Плагиатор можно, прочитав эту статью.
Таким образом, чтобы снизить плагиат в работе, можно обратиться к профессионалам, попробовать повысить уникальность самому, либо воспользоваться автоматическим сайтом Антиплагиат киллер.
Как мы уже сказали, можно легко повысить уникальность текста бесплатно. Разберем подробнее еще несколько методов.
Благодаря этим методам, вы легко сможете повысить уникальность текста бесплатно и самостоятельно.
Сегодня мы рассказали вам, что такое уникальность, плагиат и цитирование в антиплагиате. Теперь вы знаете, чем отличается плагиат и цитирование, как правильно оформить цитату, как снизить плагиат и увеличить уникальность текста. Спасибо за внимание и успехов в вашей работе.
Так устроен поиск заимствований в Антиплагиате
Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:
Как все начиналось
В 2005 году ректор одного из крупных московских вузов пришел к нам в компанию Forecsys за решением очень серьезной проблемы — в учебных заведениях студенты сдавали тотально списанные дипломы и курсовые работы. Мы взяли несколько сотен работ отличников и поискали их в сети простыми запросами. Больше половины «отличников» оказались жуликами, которые скачали диплом из интернета и заменили только титульную страницу. Больше половины отличников, Карл! Что происходило с обычными студентами — сложно даже представить. Проще всего работа искалась по запросу, содержащему слова с «очепятками». Нам стали понятны масштабы бедствия. Надо было срочно что-то решать. Зарубежные англоязычные вузы к тому времени уже пользовались решениями по поиску заимствований, но работы на русском языке почему-то не проверял никто.
Зарубежные игроки не захотели тогда адаптировать свои решения под русский язык. В результате 17 марта 2005 года стартовала разработка первой отечественной системы поиска заимствований. Само слово «Антиплагиат» было придумано чуть позже, а домен antiplagiat.ru зарегистрирован 28 апреля 2005 года. Мы планировали выпустить сайт к 1 сентября 2005 года, но, как это часто бывает с программистами, немного не успели. Официальный день рождения нашей компании — это день, когда antiplagiat.ru принял первых пользователей, а именно 4 сентября. Знаете, я даже этому рад, поскольку во время корпоратива по случаю дня рождения компании все могут спокойно праздновать, а не переживать за первый школьный день у своих детей.
Но что-то я отвлекся. В 2005 году мы создали своеобразный поисковик, в котором, в отличии от Яндекса и Гугла, запросом выступает не два-три слова, а целый текст, состоящий из нескольких предложений. Поэтому разумно использовать «Антиплагиат», если у вас есть текст от 1000 знаков (это примерно полстраницы).
Во время разработки сервиса был сделан прототип на php (web-часть) и Microsoft SQL Server (поисковый движок). Сразу же стало понятно, что это не взлетит и будет медленно работать уже на нескольких миллионах документов. Поэтому пришлось пилить свой поисковый движок. Сейчас система написана на C# и python, использует PostgreSQL и MongoDB (на самом деле много чего еще, но об этом в следующей статье). Поисковый движок у нас по-прежнему полностью собственной разработки. Ставьте лайки Пишите в комментариях, если хотите узнать об истории развития системы, смене процессов работы компании и железе, на котором «Антиплагиат» работал в разные моменты своей жизни, и работает сейчас.
Слово, давшее название компании, сейчас стало уже нарицательным. Часто в поисковике можно встретить такие выражения как «проверить на антиплагиат», «повысить антиплагиат». Все, кто так или иначе связан с областью поиска заимствований в России и ближнем зарубежье, пытаются использовать слово «антиплагиат» для поднятия в поисковой выдаче. Нас часто спрашивают про другие «антиплагиаты». Так вот, «Антиплагиат» — один, это торговая марка и название нашей компании.
В самом начале реализации сервиса поиска заимствований мы решили, что будем работать с текстом как с последовательностью символов. Сразу были отвергнуты различные семантические построения из текстов, поиск смыслов, разбор предложений и т.д. Выбранное нами решение дает два огромных преимущества — высокую скорость поиска и относительно небольшой объем поисковых индексов.
К настоящему моменту есть три продукта в нашей линейке. Они отличаются функциональностью, но содержат в своей основе один и тот же принцип работы поиска заимствований. В этой статье я расскажу о том, как устроен наш классический поиск заимствований — функционал, ставший основой сервиса с самого начала и концептуально не поменявшийся до сих пор. Схема поиска заимствований, как вы видите на изображении, проста и незамысловата, как рисование совы. Сначала мы получаем документ от пользователя, затем мы извлекаем из него текст. Дальше ищем заимствования в этом тексте, получаем «ревизии» (так мы называем отчет по одному модулю поиска) и, наконец, собираем ревизии в один большой отчет, который и показываем в итоге пользователю.
Давайте посмотрим, как все это происходит в деталях.
Извлечение текста
Прежде всего, «Антиплагиат» является сервисом поиска только текстовых заимствований, а значит, из всех документов нам нужно извлечь текст, чтобы дальше с ним работать. Система поддерживает возможность загрузки документов в docx, doc, txt, pdf, rtf, odt, html, pptx и еще нескольких (никогда не использовавшихся) форматах. Также все эти документы вы можете загружать в архивах (7z, zip, rar). Такой способ был популярен, когда у нас не было возможности загружать сразу несколько документов через веб-интерфейс. Ниже приведен график популярности форматов загружаемых документов в корпоративной части нашей системы. На нем видно, как за несколько лет doc вытесняется docx, и постепенно растет доля pdf. Если не рассматривать txt (извлечение текста для него тривиально), то для нас наиболее приятным является pdf. За рубежом pdf является стандартом де-факто, в нем публикуются статьи, готовятся студенческие работы. Согласно нашей статистике, pdf постепенно набирает популярность в России и странах СНГ. Мы и сами продвигаем этот формат в массы, рекомендуя загружать документы именно в нем.
Мы ограничили форматы загрузки документов для частных клиентов до pdf и txt, и именно поэтому сократили потребление ресурсов, уменьшили затраты на поддержку бесплатного сервиса. Вам ведь надо проверить текст, а не протестировать систему? Так какая разница в каком формате его загружать?
Следующим по простоте извлечения текста идет docx, т.к., по сути, это zip-архив с xml внутри, его достаточно просто обрабатывать, и многое можно сделать на низком уровне.
Итак, вернемся к отчету. Мы получили файл и начали извлекать текст. Вместе с текстом система извлекает и позиции слов на страницах, чтобы в дальнейшем иметь возможность показывать нашим пользователям разметку отчета о заимствовании на самом документе. Кроме того, на этом же этапе мы ищем технические обходы «Антиплагиата».
Как только появился «Антиплагиат», показывающий процент оригинальности, появились и желающие пройти проверку на заимствование с минимальными усилиями, а также люди, предлагающие такую услугу за деньги. Проблема в том, что числовой параметр так и просится стать оценкой. Ведь это так просто — вместо чтения работы с использованием системы в качестве инструмента, не читать ее, а оценить по проценту оригинальности! Именно эта беда и породила такое направление, как тюнинг работ (изменение в тексте с целью увеличить процент оригинальности работы). Подробнее о проблемах в вузовских процессах читайте в статье «О практике обнаружения заимствований в российских вузах».
В зарубежных системах поиска проблемы обнаружения технических обходов и противодействия им, практически, не стоит. Дело в том, что за обнаруженный «финт ушами» последует очень жесткое наказание — отчисление, и несмываемое пятно на научной репутации, несовместимое с дальнейшей карьерой. У нас же ситуация до комичного проста: «Ой, это система что-то напортачила!», «Ой, это не я, оно само!». Студента скорее всего отправят переделывать. Дело в том, что списать, увы, не является чем-то зазорным.
Но опять отвлекся. Еще одним способом извлечения текста является OCR. Мы печатаем документ на виртуальном принтере, а потом распознаем его. Подробнее об этом написано в статье «Распознавание изображений на службе у «Антиплагиата»».
Теперь немного нашей истории об извлечении текстов. Сначала мы извлекали тексты с помощью IFilter’ов. Они медленные, только под Windows, и не возвращают информацию о форматировании (непонятно, где белый текст на белом фоне, нельзя потом сделать разметку блоков заимствования прямо в документе пользователя). Мы думали, что эти проблемы решатся, если начать использовать платные библиотеки, но и тут обнаружили ограничения: по-прежнему под Windows, не видят формул, иногда падают на специально подготовленных документах (разные библиотеки на разных!). Следующая идея была в том, чтобы OCR’ить все входящие документы, но этот подход очень ресурсозатратен (обработка всего 10-и страниц в минуту на одном ядре), и местами текст извлекается не точно.
Серебряной пули мы не нашли, хотя пару раз думали, что вот оно, Счастье. Однако потом, немного пожив с этим, понимали, что это снова Опыт. Извлечение текста балансирует на тонкой грани между производительностью (надо извлекать текст из сотни документов в минуту), надежностью (надо извлекать текст из всего), функциональностью (форматирование, обходы, вот это вот все). Сейчас у нас работает все вышеперечисленное и еще немножко. Мы постоянно экспериментируем с этой областью и продолжаем искать свое Счастье.
Текст извлечен, обходы найдены и частично устранены, отправляемся искать заимствования!
Поиск заимствований
Идея, реализованная в процедуре поиска, была предложена Ильей Сегаловичем и Юрием Зеленковым (прочитать можно, например, в статье: Сравнительный анализ методов определения нечетких дубликатов для Web-документов). Расскажу, как это работает у нас. Возьмем, для примера, предложение: «Указ Президента РФ от 7 мая 2012 г. N 596 „О долгосрочной государственной экономической политике“».
Теперь для поиска нам нужна магическая функция, которая по такому списку хешей превращает документы, отранжированные по убыванию числа совпавших хешей, в документ-источник. Эта функция должна работать быстро, т.к. мы хотим искать в миллиардах документов. Для того, чтобы быстро находить такой набор, нам нужен обратный индекс, который по хешу возвращает список документов, в которых этот хеш есть. У нас реализована такая гигантская хеш-таблица. В отличии от наших старших братьев-поисковиков, мы храним эту таблицу на ssd, а не в памяти. Нам вполне хватает такой производительности. Поиск по индексу занимает малую часть времени от всего цикла обработки документа. Смотрите как проходит поиск:
Этап 1. Поиск по индексу
Для каждого хеша текста-запроса мы получаем список идентификаторов документов-источников, в которых он встречается. Дальше ранжируем список идентификаторов документов-источников по числу встретившихся хешей из текста-запроса. Получаем ранжированный список документов-кандидатов на источник заимствования.
Этап 2. Построение ревизии
Для большого текста-запроса кандидатов может быть порядка 10 тыс. Это все равно много для сравнения каждого документа с текстом-запросом. Действуем жадно, но решительно. Берем первый документ-источник, делаем сравнение с текстом-запросом и исключаем из всех остальных кандидатов те хеши, которые уже были в этом первом документе. Удаляем из списка кандидатов тех, у которых остался ноль хешей, пересортируем кандидатов по новому числу хешей. Берем первый документ из нового списка, сравниваем с текстом-источником, удаляем хеши, удаляем нулевых кандидатов, пересортируем кандидатов. Делаем так раз 10-20, обычно этого хватает, чтобы список иссяк или в нем остались только те документы, у которых есть совпадение по нескольким хешам.
Использование хешей слов позволяет нам проводить операции сравнения быстрее, экономить на памяти и хранить не тексты документов-источников, а их цифровые слепки (TextSpirit, как мы их ласково называем), полученные при индексации, тем самым не нарушая авторских прав. Выделение конкретных фрагментов заимствования делается с помощью суффиксного дерева.
В результате проверки одним модулем поиска получаем ревизию, в которой находится список источников, их метаданные и координаты блоков заимствований относительно текста-запроса.
Сборка отчета
Кстати, а что делать, если один из 10-15 модулей не ответил вовремя? Мы ищем по коллекциям РГБ, eLibrary и Гаранта. Эти модули поиска расположены на территории сторонних организаций, и не могут быть перенесены на нашу площадку по соображениям авторского права. Точкой отказа тут всегда может быть канал связи и различные форс-мажоры в дата центрах, не управляемых нами. С одной стороны, заимствование может быть найдено в любом модуле поиска, с другой, если один из компонентов системы недоступен, то можно ухудшить качество поиска, но отдать большую часть результата, предупредив при этом пользователя, что результат по некоторым модулям поиска пока не готов. Какой вариант применили ли бы вы? Мы применяем оба этих варианта в зависимости от обстоятельств.
Наконец, все ревизии получены, начинаем сборку отчета. Здесь используется подход аналогичный подготовке одной ревизии. Вроде бы ничего сложного, но и тут есть интересные задачи. У нас есть заимствования двух типов. Зеленым обозначаются «Цитирования» — корректно оформленные (по ГОСТу) цитаты из модуля «Цитирование», выражения типа «что и требовалось доказать» из модуля «Общеупотребительных выражений», нормативно правовые документы из баз Гаранта и Лекспро. Оранжевым отмечаются все остальные заимствования. Зеленые имеют приоритет над оранжевыми, если только не входят целиком в оранжевый блок.
В результате отчет можно сравнить с лежащим на столе распечатанным на бумаге текстом, поверх которого набросаны разноцветные полоски (блоки заимствований и цитирований), причудливо перекрывающие друг друга. То, что мы видим сверху, и есть отчет. У нас есть два показателя для каждого источника:
Доля в отчете — отношение объема заимствований, которое учитывается из данного источника, к общему объему документа. Если один и тот же текст был найден в нескольких источниках, то учитывается он только в одном из них. При изменении конфигурации отчета (включении или отключении источников) данный показатель источника может меняться. В сумме дает процент заимствований и цитирований (в зависимости от цвета источника).
Доля в тексте — отношение объема, заимствованного из данного источника текста к общему объему документа. Доли в тексте по источникам суммировать нет смысла, легко получится 146% или даже больше. Данный показатель не изменяется при изменении отчета.
Естественно, отчет можно редактировать. Это специальная функция для того, чтобы эксперт, проверяющий работу, отключил заимствования собственных работ автора (при этом может открыться, что данный фрагмент есть не только в собственной работе автора, но и где-то еще) и отдельные блоки заимствования, изменил тип источника с заимствования на цитирование. В результате редактирования отчета эксперт получает реальное значение заимствований. Любую работу для проверки надо прочитать. Это удобно делать, просматривая исходный вид документа, в котором размечены блоки заимствования, и сразу же, по мере прочтения, редактировать отчет. К сожалению, это вполне логичное действие не всеми совершается, многие довольствуются процентом оригинальности, даже не заглядывая в отчет.
Однако вернемся на шаг назад и узнаем, что же попадает в индекс модуля поиска по интернету, созданный Антиплагиатом.
Индексация интернета
Антиплагиат в значительной степени ориентирован на студенческие работы, научные публикации, выпускные квалификационные работы, диссертации и т.п. Интернет мы индексируем направлено — ищем большие скопления научных текстов, рефератов, статей, диссертаций, научных журналов и т.п. Индексация происходит так:
Заметили, что нигде не описана процедура удаления из индекса? А ее и нет! Мы принципиально не удаляем документы из индекса. Мы считаем, что если нам удалось увидеть что-то в интернете, то и другие люди могли видеть этот текст и использовать его тем или иным способом. В связи с этим появляется интересная статистика того, что когда-то было в интернете, а теперь уже больше там нет. Да, представьте себе, выражение «Попавшее в интернет останется там навсегда», — не верно! Что-то исчезает из интернета навсегда. Интересно ли вам узнать о нашей статистике по этому вопросу?
Заключение
Удивительно, как технические решения, принятые больше 10 лет назад, до сих пор остаются актуальными. Мы сейчас готовим к выпуску 4 версию индекса, она быстрее, технологичнее, лучше, однако в ее основе лежат всё те же решения. Появились новые направления поиска — переводные заимствования, перефразирование, но и там находит применение наш индекс, выполняя пусть и малую, но важную часть работы.
Уважаемые читатели, что вам было бы интересно узнать о нашем сервисе ещё?