Цитирую Земскова
http://ellib.gpntb.ru/ntb/2005/6/ntb_6_10_2005.htm Программа Copyscape (www.copyscape.com) позволяет автоматически сравнивать содержание двух сайтов и выделять явные повторы (т.е. плагиат), иными словами помогает авторам найти нарушения их авторских прав.
Еще одна, всем известная изюминка Гугл – собственный, нестандартный и неформальный подход к оценке результатов поиска. Алгоритм Гугл полагается не столько на нейтральные, безусловно объективные, но чаще всего бесполезные формальные данные о релевантности и пертинентности найденных документов, а работает «как все люди». Алгоритм ранжирования учитывает наличие и количество у найденной сетевой страницы гиперсвязей с другими активными (подчеркиваем, активными!) страницами сети, анализирует разговоры в сети (чаты), доски объявлений и другие проявления реальных интересов реальных пользователей. Проще говоря, алгоритм «прислушивается» к тому, что люди говорят о конкретном документе, и если говорят хорошо, то именно этот документ и возглавит список результатов поиска. Такой подход в чем-то копирует систему обмена научной информацией: известно, что у ученых на первом месте по значимости источников информации стоят не прочитанные материалы, а результаты живого обсуждения с коллегами, на семинарах, конференциях и т.п.