Лорд Кельвін сказав про це найкраще: «Коли ви можете виміряти те, про що говорите, і виразити це в цифрах, ви щось знаєте про це; Але коли ви не можете виміряти його, коли ви не можете виразити це в цифрах, ваші знання мізерні і незадовільні». Вітаємо @BrendanFoody та @mercor_ai з наданням цього для моделей зі штучним інтелектом
Штучний інтелект отримав ступінь доктора філософії, і тепер він на ринку праці. Представляємо індекс продуктивності штучного інтелекту (APEX) – орієнтир, який вимірює, наскільки добре ми автоматизували найцінніші галузі у світі. Більшість бенчмарків вивчають абстрактні можливості. APEX оцінює ефективність моделі за реальними результатами в галузі права, фінансів, консалтингу та медицини. Моделі, найбільш здатні виконувати роботу на сьогоднішній день, за даними APEX: 🥇 ЗПТ 5 🥈 Грок 4 🥉 Gemini 2.5 Спалах Інші висновки: - GPT 5 демонструє найвищу продуктивність у всіх 4 доменах - Деякі дешевші моделі перевершують дорожчі моделі від того ж постачальника (наприклад, Gemini 2.5 Flash проти Gemini 2.5 Pro) - Найкраща модель з відкритим вихідним кодом, Qwen (7-е місце), показує лише 2% позаду Grok 4 в загальному заліку
Показати оригінал
10,16 тис.
42
Вміст на цій сторінці надається третіми сторонами. Якщо не вказано інше, OKX не є автором цитованих статей і не претендує на авторські права на матеріали. Вміст надається виключно з інформаційною метою і не відображає поглядів OKX. Він не є схваленням жодних дій і не має розглядатися як інвестиційна порада або заохочення купувати чи продавати цифрові активи. Короткий виклад вмісту чи інша інформація, створена генеративним ШІ, можуть бути неточними або суперечливими. Прочитайте статтю за посиланням, щоб дізнатися більше. OKX не несе відповідальності за вміст, розміщений на сторонніх сайтах. Утримування цифрових активів, зокрема стейблкоїнів і NFT, пов’язане з високим ризиком, а вартість таких активів може сильно коливатися. Перш ніж торгувати цифровими активами або утримувати їх, ретельно оцініть свій фінансовий стан.