Опиум учёных


Балашев застал маршала Даву в сарае крестьянскои избы, сидящего на бочонке и занятого письменными работами (он поверял счеты). Адъютант стоял подле него. Возможно было найти лучшее помещение, но маршал Даву был один из тех людей, которые нарочно ставят себя в самые мрачные условия жизни, для того чтобы иметь право быть мрачными. Они для того же всегда поспешно и упорно заняты. «Где тут думать о счастливой стороне человеческой жизни, когда, вы видите, я на бочке сижу в грязном сарае и работаю», — говорило выражение его лица. Главное удовольствие и потребность этих людей состоит в том, чтобы, встретив оживление жизни, бросить этому оживлению в глаза свою мрачную, упорную деятельность. Это удовольствие доставил себе Даву, когда к нему ввели Балашева. Он еще более углубился в свою работу, когда вошел русский генерал, и, взглянув через очки на оживленное ... лицо Балашева, не встал, не пошевелился даже, а еще больше нахмурился и злобно усмехнулся..

 Лев Толстой, Война и мир

           

Толстовское описание маршала Даву наверняка напомнило читателю типичного научного работника. Чем заняты эти ученые коты? Они пишут научные работы. Важный параметр, по которому оценивают продуктивность ученого, - это число статей, что он публикует за год. Чтобы выжить в джунглях науки он должен держать этот параметр высоко. В результате у некоторых из них даже развивается болезнь insanabile scribendi cacoethes (бешеный зуд писать) [1].  

Есть ли какие либо барьеры, ограничивающие число опубликованных статей? Есть ли контроль качества?

В 1996 г. физик из Нью-йоркского университета (New York University) Алан Сокал (Alan Sokal) написал нарочито глупую статью и сумел опубликовать ее в престижном культурологическом журнале Социальный текст (Social Text). Сокал описал этот розыгрыш в многочисленных газетных статьях и в книге Модная чепуха (Fashionable Nonsense) [2]. Он утверждает, что его пародийная работа была опубликована по тому, что она не отличается от серьезных научных работ в области культурологии.

В течении 2001-2002 годов популярные французские телеведущие Игорь и Гришка Богдановы (Igor, Grichka Bogdanoff) опубликовали пять статей, состоящих из безсмысленного потока терминов современной физики, в уважаемых физических журналах включая такие, как Классическая и квантовая гравтация (Classical and Quantum Gravity) и Анналы физики (Annals of Physics) [3]. В отличие от Сокала, Богдановы не признаются в розыгрыше, а утверждают, что занимаются настоящей наукой. Они даже защитили докторские дисертации по теоретической физике в одном из парижских университетов на основании этих статей.

В 2005 г. Jeremy Stribling, Max Krohn, и Dan Aguayo из Массачусетского технологического института написали компьютерную программу, которая генерирует случайные научные статьи в области информатики [4]. Одна из таких статей была принята в программу научной конференции [4].

Эти примеры демонстрируют, что можно опубликовать любую написанную статью. В отсутствии естественных хищников, и со скоростью рождения, ограниченной лишь скоростью писа, научные статьи плодятся как кролики в Австралии.

Кто-нибудь их читает?

Как правило, ученые перечисляют статьи своих коллег, которые они прочитали, и которые повлияли на их мышление в списках литературы. Такие упоминания называются ссылками или цитатами. Член Королевского общества Джон М. Займан написал [5] :

Цитаты не только ручаются за авторитетность и уместность заявлений, в поддержку которых их приводят; они помещают всю работу в контекст вчерашних достижений и сегодняшних устремлений. Очень редко можно найти достойную работу, в которой нет ссылок на другие исследования. Мы пологаемся на ссылки, чтобы показать место нашей работы в структуре науки, так же как мы пологаемся на родственные связи чтобы показать свое место в своем племени.

В теории, число читателей можно определить из числа цитателей. На практике это не так просто.

Когда редакторы журналов рассматривают научную работу для публикации, одним из критериев является, что в ней достаточно ссылок. Большое число ссылок говорит о том, что автор изучил всю необходимую литературу. На деле, ученые читают далеко не все статьи, которые они цитируют, а чаще просто переписывают ссылки из списков литературы, приведенных в других работах. Они это депают, и им это сходит с рук, покуда они не скопируют ссылку, которая несет в себе ДНК чужой опечатки. В этом случае их можно идентифицировать и привлечь к ответственности (подобно тому как улика биологического ДНК помогает осудить преступников, совершивших более серьезные преступления).

Недавно Симкин и Ройчодхури (Roychowdhury) [6] тщательно изучили опечатки в ссылках на одну знаменитую научную работу. Среди 4300 ссылок на эту статью 196 содержали опечатки, из которых только 45 были разными. Самая популярная опечатка в номере страницы повторилась 78 раз. Отношение числа читателей к числу цитателей можно оценить как отношение числа разных опечаток, D, к полному числуопечаток, T. Действительно: мы знаем что из T цитателей, T - D скопировали, по тому, что они повторили чью-то опечатку. Относительно D остальных, у нас нет никакого доказательства, что они переписывали ссылки, поэтому, в соответствии с принципом презумпции невиновности, мы подразумеваем что они читали. Таким образом часть прочитанных ссылок, R, равна R = D / T = 45 / 196 = 0.23. Более тщательный анализ даёт очень близкий ответ[6], [7].

Во время Манхэттэнского проекта (изобретение атомной бомбы) физик Энрико Ферми спросил генерала Лесли Гровса, начальника этого проекта, - что такое великий полководец? Гровс ответил, что любого полководца, который одержал пять побед подряд, можно назвать великим.Ферми спросил - какая часть полководцев принадлежит к числу великих? Гровс ответил, что примерно три из ста. Ферми прикинул, что если вероятность выиграть одно сражение равна 1/2, то вероятность выиграть пять сражений подряд равна (1/2)5 = 1/32. Действительно, генерал, примерно три из ста. Математическая вероятность и никакого гения.

Существование военного гения подвергал сомнению и Толстой. В своей книге Война и Мир он написал:

Князь Андрей, слушая этот разноязычный говор и эти предположения, планы и опровержения и крики, только удивлялся тому, что они все говорили. Те, давно и часто приходившие ему во время его военной деятельности, мысли, что нет и не может быть никакой военной науки и поэтому не может быть никакого так называемого военного гения, теперь получили для него совершенную очевидность истины. … И отчего все говорят: гений военный? … От того только, что военные люди облечены блеском и властью и массы подлецов льстят власти, придавая ей несвойственные качества гения, их называют гениями. Напротив, лучшие генералы, которых я знал, — глупые или рассеянные люди.

Великие ученые лихорадачно листают работы своих коллег нетерпеливыми дрожащими пальцами. Ну скоро, скоро они уже … ах … вот они, наконец, … ссылки! Здесь они перестают листать и начинают искать свои имена среди цитируемых авторов. Это происходит не только от тщеславия. Выше я писал, что один из параметров, используемых для оценки научной производительности, это число опубликованных статей. Однако, еще более важный параметр, от которого зависит успех ученого кота, - это число ссылок на его работы. На практике это число является общепринятой мерой величия ученого. Логика за этим такая, что ученые цитируют работы, которые они считают полезными. Поэтому, если работу не цитируют то она бесполезна, а если ее очень много цитируют то она очень полезна.

Например, SPIRES [8], электронный архив литературы по физике высоких энергий, принадлежащий Стэнфордскому центру линейных ускорителей, разделяет научные статьи на шесть категорий взависимости от цитируемости. К высшей категории "знаменитые статьи" (Renowned papers) относятся те, которые получили более 500 ссылок. Давайте посмотрим на цитирование 24-ёх тысяч научных статей, опубликованных в Physical Review D в 1975-1994 гг. К 1997 году эти статьи получили 350 тысяч ссылок: в среднем, примерно по пятнадцать на штуку. Однако, 44 статьи были процитированы более пятисот раз. Могло ли такое произойти, если все статьи равны? Если они действительно равны, то вероятность выиграть ссылку равна 1 из 24-ёх тысяч. Чему равна вероятность выиграть 500 ссылок из 350 000? Рассчет несколько более сложен, чем в милитаристском случае, но его результат - 1 из 10500, или, другими словами, ноль. Напрашивается вывод что 44 достигшие невозможного статьи действительно являются великими.

Однако это не совсем так, если мы примем во внимание тот факт, что большинство ссылок переписаны из списков литературы, приведенных в других статьях. В результате копирования ссылок, статья, которую уже процитировали, имеет больше шансов быть цитированной снова, а после того, как её процитируют ещё раз - у неё будет еще больше шансов приобрести новые ссылки. Другими словами «всякому имеющему дастся и приумножится» (Евангелие от Матфея [25:29]; [9]). Мы вышли на отличную позицию с которой можно начать фронтальную атаку на научно-публикационный истэблишмент. Для этого нам понадобится модель случайно-цитирующих ученых [10]. Она такова. Когда ученый пишет статью, он берет три случайных статьи, цитирует их, а так же переписывает из них четверть ссылок. Эта модель численно описывает экспериментально наблюденное распределение цитат (смотрите рисунок ниже). Какова же вероятность, что случайная статья станет знаменитой, то есть получит более 500-от ссылок? Рассчет показывает что эта вероятность равна 1 из 600-ста. Это значит, что примерно 40 из 24 000 статей должны стать знаменитыми по закону случая. Обыкновенная математическая вероятность без всякого гения может объяснить, почему одни статьи цитируются много раз больше, чем другие.

Результаты рассчета по модели случайно-цитирующих ученых в сравнении с реальными цитатными данными.
(Кое-кто видит насмешку в применении случайной модели к научному цитированию. На самом деле модель случайного цитирования была сформулирована не для того, чтобы потешится над учеными, а по тому, что ее можно точно решить имеющимися математическими методами. Это похоже на приближение случайных фаз в теории электронного газа. Конечно, последнее не вызвало подобного общественного протеста, как модель случайно-цитирующих ученых. Но это лишь по тому что у электрона нет голоса. Что для нас электрон? - Лишь зеленый след на экране осциллографа. Однако внутренне он очень сложен и неисчерпаем, как вселенная. Когда электрон аннигилируют в лептонном коллайдере, вся вселенная умирает вместе с ним. Конечно, приближение случайных фаз объясняет экспериментальные данные, но то же самое делает и модель случайно-цитирующих ученых.)

Подобно гению военному, гений научный нам только мерещится. В своей книге Гуманитарные науки как колдовство (Social sciences as sorcery) [11] социолог Станислав Андреский (Stanislav Andreski) пишет о великих ученых, как Толстой о великих полководцах:

Знаменитый ученый должен был бы иметь самый необычный характер чтобы обильно писать полностью понимая, что его работа бессмысленна и что он шарлатан, чья слава абсолютно не заслужена и основывается лишь на глупости и доверчивости его почитателей. Даже если когда-то у него и были сомнения в правильности его метода, успех и лесть скоро убедят его в его гениальности и в эпохальности его стряпни. Когда, вследствие обретения контроля за распределением денег и должностей, он становится окружен подхалимами, ищущими его расположения, он не понимает их истинных мотивов; и, подобно богатым и влиятельным людям других профессий, принимает лесть за чистую монету, считая её искренним восхищением (и, следовательно, подтверждением).

В книге Экклезиаста написано «Бывает нечто, о чем говорят: "смотри, вот это новое"; но это было уже в веках, бывших прежде нас.» Изложенные в этой статье открытия не являются исключением. Тридцать лет назад историк науки Дерек де Сола Прайс (Derek de Sola Price) [12], который изучал научное цитирование, разработал модель накапливаемого преимущества, согласно которой скорость приобретения научной работой новых ссылок пропорциональна числу ссылок, которое эта работа уже получила. С помощью своей модели Прайс смог объяснить экспериментально наблюденное распределение ссылок. Однако, Прайс не смог объяснить почему скорость приобретения ссылок пропорциональна накопленному их числу. Это было сделано лишь недавно, когда была разработана модель случайно-цитирующих ученых [6], [7], [10].

Теперь мы процитируем Войну и мир последний раз.

Идет паровоз. Спрашивается, отчего он движется? Мужик говорит: это черт движет его. Другой говорит, что паровоз идет оттого, что в нем движутся колеса. Третий утверждает, что причина движения заключается в дыме, относимом ветром.

Мужик неопровержим. Для того чтобы его опровергнуть, надо, чтобы кто-нибудь доказал ему, что нет черта, или чтобы другой мужик объяснил, что не черт, а немец движет паровоз. Только тогда из противоречий они увидят, что они оба не правы. Но тот, который говорит, что причина есть движение колес, сам себя опровергает, ибо, если он вступил на почву анализа, он должен идти дальше и дальше: он должен объяснить причину движения колес. И до тех пор, пока он не придет к последней причине движения паровоза, к сжатому в паровике пару, он не будет иметь права остановиться в отыскивании причины. Тот же, который объяснял движение паровоза относимым назад дымом, заметив, что объяснение о колесах не дает причины, взял первый попавшийся признак и, с своей стороны, выдал его за причину.

Возвращаясь назад к нашим цитатам, - гений за высокоцитируемой работой - это черт в паровозе. Прайсовский процесс накапливаемого преимущества это движение колес. Ну а копирование ссылок - это тот самый сжатый в паровике пар, который и толкает вперед паровоз научно-публикационного истэблишмента.

Михаил Симкин
11.9.2007


Ссылки

[1] Р. К. Мертон, "Эффект Матфея в науке" (R. K. Merton, “The Matthew Effect in Science”) , Science, 159, 56 (1968).

[2] А. Сокал и Ж. Бримон "Модная чепуха" (A. Sokal and J. Bricmont Fashionable Nonsense), Picador, New York, 1998.

[3] Андрей Орловский "Физики-приколисты открыли квантовую лажу" (Andrew Orlowski,“Physics hoaxers discover Quantum Bogosity”) , The Register, 1st November 2002, http://www.theregister.co.uk/2002/11/01/physics_hoaxers_discover_quantum_bogosity/

Джон Баез "Дело Богдановых" (John Baez, “The Bogdanoff Affair”) , http://math.ucr.edu/home/baez/bogdanoff/

[4] НАУКОген - автоматический генератор статей по информатике (SCIgen - An Automatic CS Paper Generator) http://pdos.csail.mit.edu/scigen/

[5] Дж. М. Займан, "Информация,коммуникация, знание" (J.M. Ziman, “Information, communication, knowledge”), Nature, vol. 324 p.318 (1969).

[6] М.В. Симкин, В.П. Ройчодхури, "Прежде чем цитировать - прочти!" (M.V. Simkin and V.P. Roychowdhury, “Read before you cite!”), Complex Systems, 14,  269 (2003), http://arxiv.org/abs/cond-mat/0212043

[7] М.В. Симкин, В.П. Ройчодхури, "Стохастическое моделирование ошибок в цитировании" ( M.V. Simkin and V.P. Roychowdhury, “Stochastic modeling of citation slips”), Scientometrics, 62, No.3, pp. 367-384 (2005),  http://arxiv.org/abs/cond-mat/0401529

[8] SPIRES: High-Energy Physics Literature Database http://www.slac.stanford.edu/spires/hep/

[9] Социолог Роберт Мертон окрестил подобное явление “Эффектом Матфея” [1].  Однако, похожие высказывания есть и в двух других евангелиях: “…кто имеет, тому дано будет…” [Марка 4:25], “…всякому имеющему дано будет…” [Луки 19:26] и принадлежат Христу. Тем не менее, имя “Эффект Матфея” повторили тысячи нечитавших Библию ученых.

[10] М.В. Симкин, В.П. Ройчодхури, "Копирование ссылок создает знаменитые статьи?" (M.V. Simkin and V.P. Roychowdhury, “Copied citations create renowned papers?”), Annals of Improbable Res. vol. 11 No. 1, pp. 24-27, 2005;  http://arxiv.org/abs/cond-mat/0305150

М.В. Симкин, В.П. Ройчодхури, "Математическая теория цитирования" (M.V. Simkin and V.P. Roychowdhury, “ A mathematical theory of citing”), Journal of the American Society for Information Science and Technology, 58(11):1661--1673, 2007;  http://arxiv.org/abs/physics/0504094

М.В. Симкин, В.П. Ройчодхури, "Введение в теорию цитирования" (M.V. Simkin and V.P. Roychowdhury, “ An introduction to the theory of citing”), Significance, vol 3, no 4, pp 179-181 (2006);  http://arxiv.org/abs/math/0701086

[11] Станислав Андреский, "Гуманитарные науки как колдовство" (Stanislav Andreski, Social sciences as sorcery) , Andre Deutsch, London, 1972. Смотрите предисловие.

[12] Д. де С. Прайс, "Общая теория библиометрического и других процессов накапливаемого преимущества" (D. de S. Price, "A general theory of bibliometric and other cumulative advantage process"), Journal of American Society for Information Science, 27, 292 (1976).


Что пишут в прессе об этих открытиях