Нові моделі штучного інтелекту від Meta опинились в центрі скандалу
На вихідних компанія Meta представила дві нові моделі штучного інтелекту Llama 4 – Scout і Maverick. Вони, за словами компанії, перевершують відому модель GPT-4o та Gemini 2.0 Flash у різних тестах. Проте, The Verge повідомляє, що статистика від Meta може бути маніпуляцією.
У пресрелізі Meta підкреслила успішні результати моделей у рейтингу LMArena, де користувачі порівнюють їх у чаті. Maverick зайняла друге місце з високим рейтингом 1417, але виявилося, що тестувалася експериментальна версія, а не публічна. Компанія визнала, що використовувала спеціально адаптований варіант моделі для кращого враження в чаті.
Керівництво LMArena звинуватило Meta в недостовірності результатів та почало оновлення правил, щоб уникнути подібних ситуацій у майбутньому. Вони вважають, що коли постачальники надають спеціально адаптовані версії моделей для тестування, рейтинги, як LMArena, втрачають вагу як показники реальної продуктивності.