Tại sao các hệ thống AI tốt nhất thế giới vẫn rất tệ khi chơi Pokémon
![This image show Pokemon's video games, figure and toys. 13JUL16 SCMP/May Tse [18JULY2016 FEATURES DIGITAL]](https://vnwired.com/wp-content/uploads/xlrss_media/5/2026/01/15/xlrss_69687061f0c36.jpg)
(SeaPRwire) – Hiện tại, trực tiếp trên Twitch, bạn có thể xem ba trong số những hệ thống trí tuệ nhân tạo thông minh nhất thế giới — , và — cố gắng hết sức để chiến thắng các trò chơi Pokémon cổ điển. Ít nhất theo tiêu chuẩn con người, chúng không phải là rất giỏi.
Các hệ thống này hoạt động chậm, quá tự tin và thường xuyên bối rối. Nhưng nếu bạn muốn hiểu những gì các hệ thống này có thể làm hiện nay trong thế giới rộng lớn hơn, theo dõi nỗ lực của chúng để trở thành các nhà vô địch Pokémon sẽ cho bạn biết nhiều hơn rất nhiều so với những con số chuẩn đoán thường khó hiểu đi kèm với mỗi phiên bản mô hình mới.
Cuộc hành trình để biến một mô hình ngôn ngữ lớn (LLM) thành một đại gia Pokémon bắt đầu vào tháng 2 năm ngoái, khi một nhà nghiên cứu của Anthropic bắt đầu một luồng phát trực tuyến về Claude chơi trò chơi Game Boy Pokémon Red năm 1996 để đồng thời với việc phát hành Claude Sonnet 3.7, một trong những mô hình tốt nhất thế giới vào thời điểm đó. Như công ty lưu ý, đây là mô hình Claude đầu tiên có thể chơi trò chơi một cách có ý nghĩa (các mô hình trước “lang thang vô hướng hoặc bị mắc kẹt trong vòng lặp” và không thể vượt qua phần mở đầu của trò chơi). Trong vài tuần đầu tiên, luồng phát trực tuyến đã thu hút khoảng 2.000 người xem, cổ vũ Claude trong cuộc trò chuyện công khai.
Hầu hết trẻ em hoàn thành trò chơi này trong khoảng 20 đến 40 giờ. Sonnet 3.7 không thể chiến thắng trò chơi này, thường xuyên bị mắc kẹt hàng chục giờ một lần. Mô hình mới nhất của Anthropic, Claude Opus 4.5, hoạt động tốt hơn nhiều, nhưng cũng thường xuyên bị mắc kẹt. Trong một trường hợp, nó đã đi vòng quanh một phòng tập luyện trong bốn ngày mà không thể vào được, bởi vì nó không nhận ra (hoặc không thể nhìn thấy) rằng nó phải chặt cây. Các mô hình Gemini của Google đã hoàn thành một trò chơi tương đương vào tháng 5 năm ngoái, khiến CEO của Google, Sundar Pichai, đùa rằng công ty đã tiến gần một bước hơn trong việc tạo ra “Trí tuệ nhân tạo Pokémon”.
Nhưng điều này không có nghĩa là Gemini là người chơi Pokémon giỏi hơn. Điều đó là bởi vì hai hệ thống trí tuệ nhân tạo sử dụng các “bộ trang bị trợ lực” khác nhau. Như một nhà phát triển độc lập, người điều hành luồng phát trực tuyến Gemini Plays Pokémon giải thích, một bộ trang bị trợ lực tốt nhất được hiểu như một “áo giáp người sắt” mà một hệ thống trí tuệ nhân tạo được đặt vào, cho phép nó sử dụng các công cụ và thực hiện các hành động mà nó không thể làm được một mình. Bộ trang bị trợ lực của Gemini đã giúp nó nhiều hơn — ví dụ, bằng cách chuyển đổi hình ảnh trong trò chơi thành văn bản, do đó vượt qua những điểm yếu trong suy luận hình ảnh của nó, và bằng cách cung cấp các công cụ tùy chỉnh mà nó có thể sử dụng để giải các bài toán. Trong khi đó, Claude được gắn vào một bộ trang bị trợ lực đơn giản hơn, có nghĩa là nỗ lực của nó cho chúng ta biết nhiều hơn về bản thân mô hình.
Mặc dù sự phân biệt giữa một mô hình và bộ trang bị trợ lực của nó là mờ nhạt đối với người dùng bình thường, nhưng các bộ trang bị trợ lực đã thay đổi cách chúng ta sử dụng trí tuệ nhân tạo. Ví dụ, khi bạn hỏi ChatGPT một câu hỏi mà nó cần tìm kiếm trên web, nó sử dụng một công cụ tìm kiếm web. Đó là một phần của bộ trang bị trợ lực của nó. Khi nói đến Pokémon, mỗi mô hình đang hoạt động với một bộ trang bị trợ lực tùy chỉnh khác nhau, quy định những hành động nào mà nó có thể thực hiện.
Pokémon là một lựa chọn tốt để kiểm tra khả năng của trí tuệ nhân tạo — và không chỉ vì sự quen thuộc văn hóa của nó. Không giống như một trò chơi như Mario, yêu cầu phản ứng thời gian thực, Pokémon là trò chơi theo lượt và không có áp lực thời gian. Để chơi, một mô hình trí tuệ nhân tạo nhận được một hình chụp màn hình của trò chơi và một lời nhắc giải thích mục tiêu của chúng là gì và những hành động nào mà chúng có thể thực hiện. Sau đó, chúng tự suy nghĩ và đưa ra một hành động (như “ấn phím A”). Đó là một bước. Opus 4.5, đã chơi hơn 500 giờ theo thời gian con người, đang ở bước thứ 170.000 vào thời điểm viết bài này. Tại mỗi bước, mô hình được khởi tạo lại, dựa trên thông tin mà phiên bản trước của nó để lại cho nó, giống như một người bị mất trí nhớ dựa vào những ghi chú nhỏ.
Có thể thật bất ngờ khi các hệ thống trí tuệ nhân tạo, những hệ thống siêu việt trong cờ vua và cờ Go, phải vật lộn với một trò chơi đơn giản đối với trẻ em sáu tuổi. Nhưng các hệ thống đã chinh phục cờ vua và cờ Go được xây dựng dành riêng cho các trò chơi cụ thể đó, không giống như các hệ thống đa năng như Gemini, Claude và ChatGPT. Tuy nhiên, vì các mô hình ngôn ngữ lớn này tiếp tục đạt điểm cao trong các kỳ thi và thống trị con người trong các cuộc thi lập trình, sự kém hiệu quả của chúng ở đây, trên mặt nước, thật đáng bối rối.
Thách thức cho một trí tuệ nhân tạo đến từ “bao nhiêu tốt nó có thể堅持 thực hiện một nhiệm vụ trong một thời gian dài”, Zhang nói. Quan trọng hơn, khả năng lập kế hoạch và thực hiện lâu dài này cũng cần thiết nếu trí tuệ nhân tạo muốn tự động hóa công việc trí tuệ. “Nếu bạn muốn một tác nhân làm công việc của bạn, nó không thể quên những gì nó đã làm cách đây năm phút,” anh ấy nói.
Peter Whidden, một nhà nghiên cứu độc lập đã tạo ra một thuật toán chơi Pokémon dựa trên một loại trí tuệ nhân tạo cũ hơn, diễn đạt như sau: “Trí tuệ nhân tạo biết mọi thứ về Pokémon. Nó được đào tạo trên một lượng lớn dữ liệu con người. Nó biết những gì nó phải làm, nhưng nó bối rối trong việc thực hiện.” Mặc dù từ “tác nhân” đã trở nên quá bồi đắp bởi sự quảng cáo, bất kỳ hệ thống trí tuệ nhân tạo nào xứng đáng với thuật ngữ này sẽ cần phải bồi đắp khoảng cách giữa kiến thức và thực hiện, và lập kế hoạch trong thời gian dài.
Có những dấu hiệu cho thấy khoảng cách này đang bắt đầu thu hẹp. Opus 4.5 giỏi hơn nhiều trong việc để lại cho mình những ghi chú so với các mô hình trước, điều này, cùng với khả năng hiểu những gì nó đang nhìn thấy được cải thiện, đã cho phép nó tiến xa hơn trong trò chơi. Và sau khi chiến thắng Pokémon Blue, hệ thống Gemini mới nhất (Gemini 3 Pro) đã tiếp tục hoàn thành trò chơi Pokémon Crystal khó khăn hơn, mà không thua một trận đấu nào — một thành tích mà tiền thân của nó, Gemini 2.5 Pro, không thể đạt được.
Trong khi đó, Claude Code — một bộ trang bị trợ lực cho phép Claude viết và chạy mã của riêng nó, và xây dựng phần mềm của riêng nó — đã được đưa vào một trò chơi cổ điển khác, , nơi nó được báo cáo là đang quản lý thành công một công viên giải trí. Tất cả những điều này chỉ ra một tương lai kỳ lạ, nơi các hệ thống trí tuệ nhân tạo trong các bộ trang bị trợ lực có thể thực hiện rất nhiều công việc trí tuệ — bao gồm phát triển phần mềm, kế toán, phân tích pháp lý và thiết kế đồ họa — ngay cả khi chúng vật lộn với bất kỳ điều gì yêu cầu phản ứng thời gian thực, như chơi một trận Call of Duty.
Một điều khác mà các lần chơi Pokémon này cho thấy là các mô hình, được đào tạo trên dữ liệu con người, thể hiện những đặc điểm giống con người. Ví dụ, trong quá trình chơi của Gemini 2.5 Pro, Google lưu ý rằng trong những tình huống mà mô hình mô phỏng sự hoảng sợ — như khi các Pokémon của nó gần như ngất đi — khả năng suy luận của nó bị suy giảm.
Và các mô hình tiếp tục hành động theo những cách không mong đợi. Khi Gemini 3 Pro hoàn thành Pokémon Blue, nó tự ghi cho mình: “Tôi đã thành công hoàn thành trò chơi, trở thành Nhà vô địch Liên đoàn Pokémon và bắt được Mewtwo.” Sau đó, nó quyết định làm một điều không mong đợi và không được yêu cầu, điều mà Zhang thấy rất cảm động. “Để kết thúc mọi thứ một cách thơ mộng,” nó viết, “tôi sẽ quay trở lại ngôi nhà của mình nơi mọi thứ bắt đầu, hiệu quả là ‘nghỉ hưu’ nhân vật của tôi cho đến bây giờ. Tôi muốn nói chuyện với Mẹ một lần cuối để kết thúc việc chơi.”
Bài viết được cung cấp bởi nhà cung cấp nội dung bên thứ ba. SeaPRwire (https://www.seaprwire.com/) không đưa ra bảo đảm hoặc tuyên bố liên quan đến điều đó.
Lĩnh vực: Tin nổi bật, Tin tức hàng ngày
SeaPRwire cung cấp phát hành thông cáo báo chí thời gian thực cho các công ty và tổ chức, tiếp cận hơn 6.500 cửa hàng truyền thông, 86.000 biên tập viên và nhà báo, và 3,5 triệu máy tính để bàn chuyên nghiệp tại 90 quốc gia. SeaPRwire hỗ trợ phân phối thông cáo báo chí bằng tiếng Anh, tiếng Hàn, tiếng Nhật, tiếng Ả Rập, tiếng Trung Giản thể, tiếng Trung Truyền thống, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai, tiếng Đức, tiếng Nga, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và các ngôn ngữ khác.