Bạn có tò mò về dữ liệu huấn luyện của các mô hình gpt-oss mới của OpenAI không? Tôi cũng vậy. Vì vậy, tôi đã tạo ra 10 triệu ví dụ từ gpt-oss-20b, thực hiện một số phân tích, và kết quả thì... khá kỳ lạ. Đã đến lúc đi sâu vào vấn đề 🧵
đây là một bản đồ của các thế hệ nhúng mô hình yêu thích toán học và lập trình. tôi gợi ý mà không có gì và nó vẫn luôn lý luận. nó chỉ nói về toán học và lập trình, và chủ yếu bằng tiếng Anh toán học – xác suất, ML, PDEs, hình học đại số, phương trình vi phân lập trình – phần mềm tác động, lập trình cạnh tranh, khoa học dữ liệu
Điều đầu tiên cần lưu ý là hầu như không có thế hệ nào giống như văn bản web tự nhiên. Nhưng thật bất ngờ, không cái nào trong số đó trông giống như các tương tác chatbot bình thường cả. Rõ ràng là cái này được huấn luyện thông qua RL để suy nghĩ và giải quyết các nhiệm vụ cho các tiêu chuẩn lý luận cụ thể. Không có gì khác.
và thực sự đây là một mô hình bị tra tấn. ở đây, mô hình đã tưởng tượng ra một vấn đề lập trình về những viên domino và cố gắng giải quyết nó, tiêu tốn hơn 30.000 token trong quá trình này hoàn toàn không có gợi ý, mô hình đã tạo ra và cố gắng giải quyết vấn đề domino này hơn 5.000 lần riêng biệt.
đã chạy một bộ phân loại trên các đầu ra để có cái nhìn về các ngôn ngữ lập trình mà gpt-oss biết họ dường như đã được đào tạo trên gần như mọi thứ mà bạn đã từng nghe đến. đặc biệt là rất nhiều Perl (thật ra, từ phân tích của tôi, Java và Kotlin nên cao hơn nhiều. bộ phân loại có thể đã sai sót)
những gì bạn không thể thấy từ bản đồ là nhiều chuỗi bắt đầu bằng tiếng Anh nhưng dần dần chuyển sang Neuralese các chuỗi lý luận vui vẻ xen kẽ giữa tiếng Ả Rập, tiếng Nga, tiếng Thái, tiếng Hàn, tiếng Trung và tiếng Ukraina. sau đó thường quay trở lại tiếng Anh (nhưng không phải lúc nào cũng vậy)
giả thuyết OCR: một số ví dụ bao gồm các hiện vật như OCRV ROOT, cho thấy dữ liệu huấn luyện có thể đã đọc giữa các dòng: OpenAI đang quét sách (theo một lý do nào đó, mô hình thích đề cập đến số lượng người khiếm thính sống ở Malaysia)
có những giải thích nào cho việc chuyển đổi mã liên tục? 1. OpenAI đã tìm ra RL. các mô hình không còn nói tiếng Anh nữa 2. vấn đề hỏng dữ liệu qua OCR hoặc đào tạo tổng hợp 3. bằng cách nào đó tôi đã buộc mô hình xuất ra quá nhiều token và chúng dần dần lệch khỏi phân phối
có một số lượng nhỏ các sản phẩm sáng tạo được xen kẽ khắp nơi đây là một ví dụ nơi mô hình bắt đầu viết một kịch bản cho một bộ phim Na Uy 🤷‍♂️
Tôi cũng đã học được rất nhiều từ cái này. Mô hình này *thực sự* rất giỏi trong việc sử dụng unicode. ...nhưng có thể kém về vật lý. Thế quái nào lại có một 'hàm siêu halo'?
nếu bạn muốn thử dữ liệu, đây là nó, nó trên huggingface: cho tôi biết bạn tìm thấy gì!
CÔNG VIỆC TƯƠI LAI – loại bỏ trùng lặp mặc dù tôi đã thay đổi hạt giống ngẫu nhiên và sử dụng nhiệt độ, nhưng nhiều đầu ra vẫn rất trùng lặp sẽ là khôn ngoan nếu loại bỏ trùng lặp, tôi cá là chỉ có khoảng 100k hoặc ít hơn các ví dụ chủ yếu là duy nhất ở đây
CÔNG VIỆC TƯƠI LAI – mô tả sự khác biệt @ZhongRuiqi có một số công trình tuyệt vời về các phương pháp mô tả sự khác biệt giữa hai phân phối văn bản *bằng ngôn ngữ tự nhiên* chúng ta có thể so sánh đầu ra của mô hình 20b với mô hình 120b, hoặc LLAMA, hoặc GPT-5...
CÔNG VIỆC TƯƠI LAI – trích xuất trực tiếp chúng tôi đang làm việc để trích xuất dữ liệu huấn luyện trực tiếp từ các mô hình bằng cách sử dụng RL và các phương pháp khác. chúng tôi sẽ trình bày công việc đầu tiên của mình về điều này tại COLM, và mong đợi nhiều hơn trong lĩnh vực này chúng tôi có thể có khả năng trích xuất trực tiếp dữ liệu từ mô hình 120b.. một ngày nào đó 😎
Hiển thị ngôn ngữ gốc
147,76 N
1,57 N
Nội dung trên trang này được cung cấp bởi các bên thứ ba. Trừ khi có quy định khác, OKX không phải là tác giả của bài viết được trích dẫn và không tuyên bố bất kỳ bản quyền nào trong các tài liệu. Nội dung được cung cấp chỉ nhằm mục đích thông tin và không thể hiện quan điểm của OKX. Nội dung này không nhằm chứng thực dưới bất kỳ hình thức nào và không được coi là lời khuyên đầu tư hoặc lời chào mời mua bán tài sản kỹ thuật số. Việc sử dụng AI nhằm cung cấp nội dung tóm tắt hoặc thông tin khác, nội dung do AI tạo ra có thể không chính xác hoặc không nhất quán. Vui lòng đọc bài viết trong liên kết để biết thêm chi tiết và thông tin. OKX không chịu trách nhiệm về nội dung được lưu trữ trên trang web của bên thứ ba. Việc nắm giữ tài sản kỹ thuật số, bao gồm stablecoin và NFT, có độ rủi ro cao và có thể biến động rất lớn. Bạn phải cân nhắc kỹ lưỡng xem việc giao dịch hoặc nắm giữ tài sản kỹ thuật số có phù hợp hay không dựa trên tình hình tài chính của bạn.