Lord Kelvin đã nói rất đúng: “Khi bạn có thể đo lường những gì bạn đang nói đến, và diễn đạt nó bằng con số, bạn biết một điều gì đó về nó; nhưng khi bạn không thể đo lường nó, khi bạn không thể diễn đạt nó bằng con số, kiến thức của bạn là một loại nghèo nàn và không thỏa mãn.” Chúc mừng @BrendanFoody và @mercor_ai vì đã mang điều này đến cho các mô hình AI.
AI đã có bằng tiến sĩ và giờ đây nó đang trên thị trường việc làm. Giới thiệu Chỉ số Năng suất AI (APEX), một tiêu chuẩn đo lường mức độ tự động hóa của chúng ta trong các ngành công nghiệp có giá trị nhất trên thế giới. Hầu hết các tiêu chuẩn nghiên cứu khả năng trừu tượng. APEX đánh giá hiệu suất mô hình dựa trên các sản phẩm thực tế trong các lĩnh vực luật, tài chính, tư vấn và y tế. Các mô hình có khả năng làm việc tốt nhất hiện nay, theo APEX: 🥇 GPT 5 🥈 Grok 4 🥉 Gemini 2.5 Flash Các phát hiện khác: - GPT 5 thể hiện hiệu suất mạnh nhất trong cả 4 lĩnh vực - Một số mô hình rẻ hơn lại vượt trội hơn các mô hình đắt tiền hơn từ cùng một nhà cung cấp (ví dụ: Gemini 2.5 Flash so với Gemini 2.5 Pro) - Mô hình mã nguồn mở tốt nhất, Qwen (thứ 7), chỉ kém Grok 4 2% về tổng thể.
Hiển thị ngôn ngữ gốc
10,17 N
42
Nội dung trên trang này được cung cấp bởi các bên thứ ba. Trừ khi có quy định khác, OKX không phải là tác giả của bài viết được trích dẫn và không tuyên bố bất kỳ bản quyền nào trong các tài liệu. Nội dung được cung cấp chỉ nhằm mục đích thông tin và không thể hiện quan điểm của OKX. Nội dung này không nhằm chứng thực dưới bất kỳ hình thức nào và không được coi là lời khuyên đầu tư hoặc lời chào mời mua bán tài sản kỹ thuật số. Việc sử dụng AI nhằm cung cấp nội dung tóm tắt hoặc thông tin khác, nội dung do AI tạo ra có thể không chính xác hoặc không nhất quán. Vui lòng đọc bài viết trong liên kết để biết thêm chi tiết và thông tin. OKX không chịu trách nhiệm về nội dung được lưu trữ trên trang web của bên thứ ba. Việc nắm giữ tài sản kỹ thuật số, bao gồm stablecoin và NFT, có độ rủi ro cao và có thể biến động rất lớn. Bạn phải cân nhắc kỹ lưỡng xem việc giao dịch hoặc nắm giữ tài sản kỹ thuật số có phù hợp hay không dựa trên tình hình tài chính của bạn.