Язык, созданный искусственным интеллектом, начинает портить научную литературу

Сюжет дня

Путин подписал закон о ратификации договора о всеобъемлющем партнерстве с Ираном
США поставили новый ультиматум Китаю
Рекордные цифры. Мишустин отчитался о работе правительства

Главная страница » Новости » Просмотр

Версия для печати
Язык, созданный искусственным интеллектом, начинает портить научную литературу
06.12.21 13:08	Наука, техника, образование

Исследователи из России и Франции опубликовали любопытное исследование. Оно показывает, что использование современных текстовых генераторов, управляемых ИИ (например, GPT-3), приводит к уродованию языка, «воровству» изображений и цитированию несуществующей литературы в новых научных публикациях. Наибольшее беспокойство вызывает тот факт, что подобные публикации позиционируются как результат объективных и систематических исследований, но при этом содержат некорректный с научной точки зрения или просто непонятный контент. Доклад, который называется «Сомнительный стиль письма, возникающий в науке», был подготовлен исследователем из Яндекса Александром Магазиновым и группой сотрудников отдела компьютерных наук Тулузского университета. Особое внимание авторы уделили росту бессмысленных научных публикаций, созданных искусственным интеллектом, в принадлежащем Elsevier журналу Microprocessors and Microsystems. Максимальная синонимизация Модели авторегрессионного языка наподобие GPT-3 обучаются на больших объёмах данных и предназначены для перефразирования, обобщения, сопоставления и интерпретации этих данных в связные генеративные языковые модели, которые способны воспроизводить естественную речь и шаблоны письма. Эти модели всегда ищут синонимы — даже для устоявшихся словосочетаний. Неудивительно, что научные материалы, созданные с помощью такого ИИ, содержат невероятное количество примеров неудачного использования синонимов для привычных нам фраз. Вот самые яркие примеры: Глубокие нейронные сети: «глубокая нейронная организация» Искусственная нейронная сеть: «фальшивая\|поддельная нейронная организация» Мобильная сеть: «универсальная организация» Большие данные: «колоссальные\|огромные\|необъятные данные» В мае 2021 года исследователи использовали поисковую систему Dimensions для поиска подобных речевых искажений. Им удалось заметить, что журнал Microprocessors and Microsystems чаще других содержал примеры научных работ с неправильными фразами. Исследователи изучили данные за период с февраля 2018 года по июнь 2021 года и отметили резкий рост количества заявок за последние два года, особенно за последние 6-8 месяцев. Увеличение количества публикаций в журнале Microprocessors and Microsystems, похоже, совпадает с ростом количества «бессмысленных» текстов серьёзных научных материалах. Полный набор данных, собранный авторами исследования, содержит 1078 статей, полученных по подписке Тулузского университета на журнал Elsevier. Частота «загрязненных» материалов в журнале Elsevier составляет (72,1%), что очень много, если провести сравнение с другими изученными научными журналами (максимум 13,6%). Китайские научные статьи рецензируются поверхностно В документе отмечается, что период времени, отведенный для редакционной оценки присланных материалов, в 2021 году радикально сокращается и составляет менее 40 дней. Это в шесть раз меньше стандартного времени для рецензирования. Наибольшее количество странных статей поступает от авторов из Китая. Среди 404 статей, одобренных менее чем за 30 дней, 97,5% относятся к Китаю. А на долю материалов, которые редакция проверяла материалы дольше 40 дней (615 статей), приходится лишь 9,5% заявок из Китая. Разница почти в 10 раз! По мнению авторов доклада, распространение странных научных материалов объясняется недостатками редакционного процесса и возможной нехваткой ресурсов в связи с растущим числом заявок. Исследователи выдвинули гипотезу о том, что генеративные модели наподобие GPT использовались для создания большей части текста в статьях. Однако доказать эту гипотезу сложно. Главный аргумент заключается в противоречащем здравому смыслу способу использования синонимов и нарушенности логики. Есть и ещё одна закономерность: модели генеративного языка, которые вносят свой вклад в поток научной бессмыслицы, способны не только создавать проблемные тексты, но также распознавать их и систематически цитировать. То есть ссылаться на другие работы, как это делают люди. Исследователи смогли воссоздать такое решение с использованием GPT-2 и разработать структуру для выявления проблемных научных работ. Не только семантика Исследователи установили, что многие из изученных научных журналов не только используют неправильный язык, но и содержат некорректные с научной точки зрения утверждения. Это косвенно подтверждает подозрения, что генеративные языковые модели используются для формулировки некоторых основных теорем и данных в статье. Исследователи также считают, что в некоторых случаях используется «ресинтез», то есть переделка случайно выбранной (и качественной) работы, опубликованной ранее. Это делается для того, чтобы справиться с давлением научного тренда «публикуй или погибни» и, возможно, с целью улучшить национальные рейтинги за глобальное превосходство в исследованиях ИИ, за счёт чистого объёма публикуемых материалов. Выше вы можете видеть бессмысленное содержание якобы научной статьи. Исследователи обнаружили, что текст был заимствован из статьи EDN , откуда также была украдена сопровождающая иллюстрация без указания авторства. Переписывание исходного содержания было настолько радикальным, что получилась полная бессмыслица. Анализируя несколько статей из Elsevier, исследователи обнаружили предложения, которые не имели смысла; ссылки на несуществующую литературу; ссылки на переменные и теоремы в формулах, которые на самом деле не появлялись во вспомогательном материале, а также повторное использование изображений без указания их источников. Это плохо и с точки зрения авторских прав, но по сути отражает недостаточный уровень редакторской проверки. Ошибки цитирования Цитаты, предназначенные для поддержки аргументов в научной статье, были обнаружены во многих помеченных примерах как «либо неработающие, либо приводящие к несвязанным публикациям». Кроме того, ссылки на «родственные работы», по-видимому, часто включают авторов, работы которых, по мнению исследователей, тоже были созданы с помощью GPT. Потеря сути Ещё одним недостатком современных языковых моделей является их тенденция терять фокус во время долгой беседы. Исследователи обнаружили, что некоторые статьи часто поднимают в начале статьи тему, к которой не возвращаются позднее. Они также предполагают, что некоторые из найденных странных статей получились в результате многократного прогона исходного текста через автоматические переводчики, что очень сильно исказило текст. Исследователи призывают к более внимательному отношению к редакционной работе и совершенствованию стандартов в области академических публикаций на тему ИИ. Злая ирония в том, что отрасль, занимающаяся изучением ИИ, страдает от последствий злоупотреблении машинного обучения. По мнению авторов, распространение синтетических текстов всерьёз угрожает целостности научной литературы. Автор оригинала: Martin Anderson

Источник: habr.com	Редактор: киборд

gronk

06.12.21 17:27

да там и без ИИ генераторов пишут лишь бы нарастить толщину работы. В современных требованиях к научной работе не осталось ничего научного, правильно подмечено: публикуй, или обосрёшься, всё равно никто это читать не будет, даже твой собственный научный руководитель кроме вступления и заключения ничего не читает.

XP Best

06.12.21 19:02

Проблема ИИ это проблема говорящей собаки -АБЫР, Даже и эту проблему, уверен, решат, поменяв какие алгоритмы. Но самое главное - сделать невозможно. И это главное - ответ на вопрос ИИ, а зачем этому ИИ делать то или другое?

НИ (натур. интеллект) имеет мотивацию, порождаемую сознанием, потребностями, условными и безусловными рефлексами. А какие рефлексы и мотивы у машины, если ей ничего не нужно и не стоит вопрос о выживании в среде?

А если, не дай бог, сделают такую, она начнет самостоятельную жизнь и как следствие , борьбу за выживание. Один из важнейших элементов это борьба за ресурсы. На поля зерновых и стада пельменей машины претендовать не будут, но вот на металлы, энергию и нефтегаз будут.

Тут важнее другая тема, связанная как раз-то не с ИИ, а с НИ.

Весь вал полоумных техтов - создан людьми. Весь проиходящий бред - борьба за гранты, должности, научные степени. Т.е. проблема не в ИИ, а в НИ, в области отношений людей по поводу науки.

В техте приводится отрывок (розовый) как пример техта, испорченный GRT. Я прочитал и мне всё понятно. Кому интересна, напр. проблема о болезнях клапанов сердца и доступности замены клапанов на искусственные. Я понял о чом речь. И мне плевать какая там грамматика.

Полно профессионализмов, которые делают язык более доступным и удобопотребимым. И русский язык давно нуждается в третьей реформе, на сей раз в граматической, осмысленой, и созданой для человека, а не человек для граматики.

И нужна революция во многих сферах деятельности хомиков - в науке, экономике (создать науку экономика, пока ее нет), социальных отношениях, ввести церебральный сортинг при назначении на должности и ответственные профессии.

Можно начать с малого - отменить научные степени как критерий для заработков, платежа и сладкой должности, разные звания у "творческой" интэлихенции. Провести демилитаризацию прокуроров, приставов, пожарных, дипломатов, СК, - зачем им форма и погоны? Ради должности и доплаты к зарплате. Так сделайте им человеческие зарплаты.

WalterPPK

06.12.21 19:56

> XP Best

Тут важнее другая тема, связанная как раз-то не с ИИ, а с НИ.

"Исследователи обнаружили, что некоторые статьи часто поднимают в начале статьи тему, к которой не возвращаются позднее." Нда... Как там? GPT? Вот так GPT и выглядит.

GAF

06.12.21 19:56

> XP Best

> gronk

Уверяю вас, даже судьи и многие следователи не читают исследовательскую и мотивировочную часть заключений экспертов, только выводу.

Насчет толщины писчей продукции - меня страшно раздражают толстые книги, зачем стоко писать? Ладно, романы, но научные или учебники - это излишества. Тут тоже пора сокращать потребление инфы.

Мысль абсолютно правильно ориентированная. Нечего тратиться на бумагу, издавая, к примеру "Феймановские лекции по физике" в 10 томах. Издать в виде брошюры. Из 10-го тома задач включить в неё какую-нибудь задачку попроще, для понта. А вместо томов какой романище может сваять - страниц кг. на пять наберётся. Впрочем тенденция к тому и идёт. Научить чтению и простому счёту. Остальное сам ученик доберёт. Из-за сего мудрого сокращения, за три года до окончания контракта написал заявление на увольнение. Ввели стандарт на все дисциплины: 8 лекций, 8 практик и 8 лаб. И что на лабах, к примеру, делать? Если для 2-3 семестровой дисциплины даже на азы теории часов не хватит. Часы ушли на самостоятельную работу студентов. Добирайте знания в Сети. Закончит вуз недоучкой с брошюрного рода знаниями. В Сети действительно всё есть. Но нужно ещё знать, что там искать!

XP Best

07.12.21 00:26

> GAF

Вы привели 10 томов лекций по физике Феймана, если много - читайте в американском издании - в оригинале три тома. Мне интересно другое. Фейман свой курс запустил в начале 60-х годов, считая. что тот материал, который подавали студентам, устарел. А сейчас, через более чем 50 лет Феймана заменить неким или в физике ничего не изменилось за это время? На ваш взгляд, сколько нужно времени, чтобы студент не прошел все разделы, а выучил их с лабораторными работам?

Вот какой нужен учебник :-) ссылка

Надо иначе писать суть и логически все связывать, а не растекаться наукоподобными словесами по листам, сшитым в толстые учебники. Особенно, когда учебников на один предмет 3-4, не считая старых. Не знаю насчет физматовских и химических, но в гуманитарных словоблудие на высоте. Слишком много в учебниках "соединительной ткани", не несущей никакой научно-познавательной инфы, кроме как об авторе как о болтуне.

Да и сама система один говорит, а толпа слушает - это средние века. Препод не контролирует и не понимает, куда ложатся его слова, успевает ли студент осмыслить или он механически запоминает с пятого на десятого. Все прекрасно знают, что после ВУЗа настоящая эффективная учеба начинается на практике и там вращаются совсем другие материи. Это указывает на то, что учат не так как ждет общество, слишком много схоластики, не путать ее с теорией.

Zmey

07.12.21 07:58

Один из примеров такой вот нелепой нейросети, похоже, мы имеем у нас на сайте. Под именем XP Best постятся десятки комментариев в день, иногдда по пять-шесть в минуту под разными статьями с разной тематикой и направленностью, иногда совершенно не по теме, но лишь бы отметиться и написать "что-то умное". Ну разве нормальный человек сможет так?

Какого вот лешего тут вдруг поднялась тема про погоны и форму прокуроров, приставов, пожарных, дипломатов, СК? Просто ради того, что бы коммент был жирнее и толще? Просто ради того, что бы хоть что-то написать?

Вот и WalterPPK подтверждает, что мне это не показалось.

edskin

07.12.21 08:15

> Zmey

Вот и WalterPPK подтверждает, что мне это не показалось.

Да, похоже на то - отрывок сильно напоминает машину, которой плевать на грамматику:

Claytronics

07.12.21 09:00

Думаю что проблема в том, что в понятие ИИ пытаются затащить всевозможные агрегаторы-компиляторы.

То, что действительно более серьезное, творит вещи, воистину являющимися краеугольными камнями человеческой цивилизации. Таких как например как так называемый фолдинг белков. Что ситалось невозможным в принципе, не то что сейчас, а и черезт10 или 100 лет, вне зависимости от вычислительных мощностей.

Как говорится, Веролы вам в ленту, при всей ее экзальтации и экспрессии

ссылка

Статьи в Natures там внизу, выше научного авторитета не бывает. Ну или так

ссылка

Мы живем в удивительное время Ожидания Предвкушений. Может быть как чистый, беспримесный Рфй, так и выкристаллизованный Ад.

GAF

07.12.21 17:41

XP Best: "Вы привели 10 томов лекций по физике Феймана, если много - читайте в американском издании - в оригинале три тома."

Разночтение в цифрах. Стоят на полке с номерами до 9 на корешках. Всего 11 книжек лекций Феймана. последние две - задачники, котрые объединил. В исходнике, действительно 3 тома и задачник, изданные в Лондоне 1963 - 65 г.г. У нас сразу же следом по мере подготовки перевода в 1967 - 69 г.г. каждый том издавался в виде нескольких книжек. Общий объем > 3000 стр. Это к Вашему пожеланию иметь худосочные книги науки. Надеюсь, что Вы указали на 3 тома, не изуродованных ИИ.

Книги по фундаментальным наукам не стареют. Они лишь пополняются новыми знаниями. После паузы 90-х и начала 2000-х пошёл вал учебной литературы, написанной скорохватами, озабоченными показателями рейтингов, в том числе с использование ИИ-переводчиков. Для нейтрализации инфекции начали издавать "старьё ", как Вы говорите, в том числе и 60-х годов, в серии "Классика учебной литературы".

Что касается остального: как писать учебники, роли "препода" и чему учить. Надо бы самому хотя бы что-нибудь написать и побывать в "шкуре"преподавателя. А так - пустые словеса...

laa

07.12.21 17:50

Elsevier-журнал ссылка :

The Article Publishing Charge for this journal is USD 2200, excluding taxes.

ссылка

За публикацию автор заносит $2200. Наука-с.

А что вы хотели от редакции при таком чаржике. Публикуй что хошь, только плати.

Главный Злодей

07.12.21 18:16

=== Оно показывает, что использование современных текстовых генераторов, управляемых ИИ (например, GPT-3), приводит к уродованию языка, «воровству» изображений и цитированию несуществующей литературы в новых научных публикациях. Наибольшее беспокойство вызывает тот факт, что подобные публикации позиционируются как результат объективных и систематических исследований, но при этом содержат некорректный с научной точки зрения или просто непонятный контент.

ссылка , который называется «Сомнительный стиль письма, возникающий в науке» ===

А у меня наибольшее беспокойство вызвает тот факт, что - судя по приведённому отрывку - тексты, нагенерированные "упраляемыми ии текстовыми генераторами", уже публикуются в статусе научных публикаций, но граждане исследователи видят проблему не в этом, а в том, что, видите ли, они "язык портят".

(Собственно говоря, я и так уже подозревал, что современные учоные строчат свои научные труды, не задействуя моск - но даже предположить не мог, что это не просто так, а они ещё и не задействуют моск в самом буквальном смысле слова.)

Это куда более традиционная и беспощадная технология. Она называется "свора хохлоботов на подработке".

Спящий лев

08.12.21 12:15

Проблема существует, но приведенный в статье пример к ней не относится.

Приведенный пример - яркий случай двойного перевода с незнанием первоисточника, что привело к некорректному цитированию при отсутствии сверки и вычитки (в целях экономии).

Большое количество подобных ошибок есть и при переводах сделанных людьми - одним из наиболее известных является цитата Хрущевым из Манифеста коммунистической партии, которая была переведена не знавшим о ней (во времена засилия маккартизма) западным переводчиком как угроза уничтожения.

English
Архив
Форум

Сюжет дня

Наши публикациивсе статьи

Новостивсе статьи

Репортаживсе статьи

Комментариивсе статьи

Аналитикавсе статьи

Наши публикации все статьи

Новости все статьи

Репортажи все статьи

Комментарии все статьи

Аналитика все статьи