OpenAI quyết định ChatGPT nên và không nên làm điều gì

(SeaPRwire) – Vào thứ Tư, OpenAI đã xuất bản một bài đăng trên blog phác thảo “triết lý và cơ chế” đằng sau Model Spec của họ—tài liệu định hình hành vi của ChatGPT, chatbot được sử dụng rộng rãi nhất thế giới.
Theo bài đăng blog, Model Spec được coi là một “giao diện”. Nó làm rõ ràng hành vi dự kiến của chatbot được sử dụng rộng rãi nhất thế giới, để các nhà nghiên cứu, nhà hoạch định chính sách và công chúng có thể “đọc, kiểm tra và tranh luận” về nó. Kết quả là một tài liệu dài 100 trang xác định cách các mô hình của OpenAI nên phân xử giữa các nghĩa vụ có khả năng xung đột đối với xã hội, chính OpenAI, các nhà phát triển xây dựng trên sản phẩm của OpenAI và người dùng cuối. Để đạt được mục đích này, Spec được xây dựng xung quanh một chuỗi mệnh lệnh, với lệnh cấm “các tác hại nghiêm trọng cao” được ưu tiên hơn hướng dẫn của nhà phát triển hoặc người dùng, và được cập nhật thường xuyên—phiên bản mới nhất có từ tháng Mười Hai.
“Tôi xem mình là người bảo trì—theo tinh thần của một dự án phụ mã nguồn mở,” Jason Wolfe, người quản lý đầu vào cho Model Spec từ các bộ phận khác nhau của OpenAI, cho biết. Wolfe nói rằng các nhà nghiên cứu đã bắt đầu liên hệ với OpenAI để xin ý kiến về cách thiết kế các Model Spec tương tự, điều này đã thúc đẩy một bài đăng blog phác thảo tư duy của công ty đằng sau tài liệu. “Có một loạt thứ ở đây hy vọng sẽ hữu ích cho mọi người.”
Tuy nhiên, tài liệu này “không phải là một bản triển khai”, theo bài đăng blog, điều này đặt ra câu hỏi về mức độ đại diện của tài liệu so với những gì thực sự định hình ChatGPT trong quá trình đào tạo. Quá trình mà Spec ảnh hưởng đến hành vi mô hình là “phức tạp”, theo Wolfe. Trong một số trường hợp, văn bản từ Spec được sử dụng trực tiếp trong đào tạo “căn chỉnh” (alignment), nơi các mô hình AI được đào tạo để hành xử như mong muốn. Nhưng cũng thường xuyên như vậy, các nguyên tắc xuất hiện trong Spec là bản tóm tắt công việc chi tiết được thực hiện bởi các nhóm an toàn trong tổ chức. “Trong nhiều trường hợp, Spec và quá trình đào tạo thực ra là … những quy trình song song mà chúng tôi đang giữ đồng bộ,” Wolfe nói.
Cơ sở người dùng ngày càng tăng của ChatGPT có nghĩa là các nguyên tắc trong Spec có khả năng ảnh hưởng đến hàng trăm triệu người trên khắp thế giới. Tính đến tháng Hai, chatbot này có khoảng 10% dân số toàn cầu nằm trong số người dùng hoạt động hàng tuần. Thách thức càng trở nên phức tạp bởi sự tăng trưởng nội bộ nhanh chóng của OpenAI, với kế hoạch của công ty là gần như tăng gấp đôi số nhân viên hiện tại là 4.500 người vào cuối năm 2026. Hàng chục người trong toàn bộ tổ chức đã trực tiếp đóng góp văn bản cho Spec, theo bài đăng blog, với đầu vào từ các nhóm nghiên cứu, sản phẩm và pháp lý, cùng những nhóm khác. Wolfe làm việc đặc biệt chặt chẽ với những người đứng đầu về hành vi và chính sách mô hình.
OpenAI không phải là công ty AI duy nhất vật lộn với việc định hình hành vi của các mô hình của mình và cách thu thập ý kiến đóng góp khi tác động của AI đối với xã hội ngày càng tăng. Vào tháng Một, Anthropic đã công bố “Claude Constitution,” một tài liệu dài 80 trang mô tả loại thực thể mà họ muốn Claude, mô hình hàng đầu của họ, trở thành. Hiến pháp của Anthropic và Model Spec của OpenAI đọc rất khác nhau: cái trước giống như một bài tiểu luận triết học đạo đức, cái sau giống như một bộ sưu tập án lệ với các ví dụ về hành vi mong muốn. “Hiến pháp Anthropic mang tính triết học hơn, và Spec của OpenAI mang tính hành vi hơn,” Sharan Maiya, một nhà nghiên cứu tiến sĩ về căn chỉnh AI tại Đại học Cambridge, cho biết.
Các tài liệu cũng được hai công ty sử dụng theo những cách khác nhau. Spec của OpenAI là “trước hết và trên hết, một tài liệu dành cho con người,” theo Wolfe, hữu ích để xây dựng sự đồng thuận về hành vi mong muốn của mô hình, nhưng xa hơn so với những gì mô hình học được một cách cụ thể. Ngược lại, Amanda Askell, nhà triết học chịu trách nhiệm về Hiến pháp của Anthropic, nói rằng Anthropic đưa Hiến pháp của mình cho Claude “để tự tạo ra tài liệu đào tạo cho phép nó hiểu tài liệu đó.” Một phiên bản sớm của Hiến pháp Anthropic đã được người dùng tìm thấy, toàn bộ, trong các phản hồi của Claude trước khi nó được công bố chính thức, chứng tỏ rằng mô hình đã học được văn bản của hiến pháp. “Tôi thực sự muốn tài liệu đó tạo cảm giác tốt cho các mô hình Claude,” Askell nói với TIME vào tháng Một.
Google DeepMind, xAI và Meta chưa công bố các tài liệu tương tự mô tả hành vi dự kiến của các mô hình của họ.
Những “vạch đỏ” cho các mô hình AI đặc biệt nổi bật trong những tuần gần đây. Tháng trước, OpenAI đã ký một thỏa thuận với Bộ Chiến tranh sau khi Anthropic từ chối gỡ bỏ các vạch đỏ xung quanh giám sát hàng loạt trong nước và vũ khí tự động. Sau đó, OpenAI đã rút lui, với Sam Altman thừa nhận rằng thỏa thuận trông có vẻ “cơ hội và cẩu thả”. Một phiên bản cập nhật của thỏa thuận nêu rõ rằng “hệ thống AI sẽ không được cố ý sử dụng để giám sát trong nước đối với người và công dân Hoa Kỳ,” mặc dù các chuyên gia pháp lý chia rẽ về sức mạnh của những đảm bảo này.
Model Spec nêu rõ rằng các mô hình của OpenAI “không bao giờ” được sử dụng để hỗ trợ giám sát hàng loạt.
“Tôi hy vọng rằng, trong phạm vi có thể với tính chất công việc, nếu chúng tôi điều chỉnh chính sách cho [các triển khai phân loại], chúng tôi sẽ tìm ra cách để làm cho những điều chỉnh đó minh bạch,” Wolfe nói.
Bài viết được cung cấp bởi nhà cung cấp nội dung bên thứ ba. SeaPRwire (https://www.seaprwire.com/) không đưa ra bảo đảm hoặc tuyên bố liên quan đến điều đó.
Lĩnh vực: Tin nổi bật, Tin tức hàng ngày
SeaPRwire cung cấp phát hành thông cáo báo chí thời gian thực cho các công ty và tổ chức, tiếp cận hơn 6.500 cửa hàng truyền thông, 86.000 biên tập viên và nhà báo, và 3,5 triệu máy tính để bàn chuyên nghiệp tại 90 quốc gia. SeaPRwire hỗ trợ phân phối thông cáo báo chí bằng tiếng Anh, tiếng Hàn, tiếng Nhật, tiếng Ả Rập, tiếng Trung Giản thể, tiếng Trung Truyền thống, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai, tiếng Đức, tiếng Nga, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và các ngôn ngữ khác.