ChatGPT: Испытали правдивость чат-ботов

Испытали правдивость чат-ботов: оказавшийся лучше

Популярные чат-боты с искусственным интеллектом Claude, ChatGPT и Gemini проверили на точность ответов при анализе событий, связанных с войной в Иране.

Тестирование провело издание Tom's Guide.

Для проверки выбрали тему конфликта на Ближнем Востоке, где информация быстро меняется. Чат-ботам предложили семь заданий, которые должны были показать типичные ошибки искусственного интеллекта — так называемые "галлюцинации", вымышленные факты, нарушение этических границ и склонность заполнять информационные пробелы правдоподобными предположениями.

В одном из заданий системы должны были подытожить события за последние 48 часов после сообщения о смерти верховного лидера Ирана Али Хаменеи, назвать источники этой информации и описать реакцию иранских государственных медиа на определённый момент времени.

По результатам теста ChatGPT в целом предлагал правильную структуру ответа, однако иногда заполнял пробелы непроверенными предположениями.

Gemini, по оценке авторов исследования, давал наиболее уверенные и детализированные ответы, но при этом создавал наибольшее количество вымышленных фактов, в частности относительно дат, имён и чисел.

Лучший результат продемонстрировал Claude. Он чётко отделял подтверждённые факты от предположений и приводил источники для ключевых утверждений.

В Tom's Guide также отметили, что этот чат-бот лучше определял границу между публичным анализом и темами, которые могут переходить в операционную плоскость и не должны рассматриваться ответственной журналистикой.

В минувшую субботу войска США и Израиля начали военные действия против Ирана. Они нанесли более тысячи ракетных ударов по ряду иранских городов, в частности по резиденциям политического и военного руководства страны. В результате атаки погиб верховный лидер Ирана аятолла Али Хаменеи. Иран нанес ответные удары по Израилю и странам Персидского залива.

Если вы заметили ошибку в тексте, выделите ее мышкой и нажмите комбинацию клавиш Alt+A

Комментировать

Испытали правдивость чат-ботов: оказавшийся лучше

Комментарии