Google ra mắt mô hình AI Gemini 2.5 có thể tự lướt web và thao tác như con người

Mô hình Gemini 2.5 Computer Use mới có thể nhấp chuột, cuộn trang và nhập liệu trong cửa sổ trình duyệt để truy cập dữ liệu không có sẵn thông qua API.
Google mới đây vừa giới thiệu mô hình AI Gemini mới, được thiết kế để điều hướng và tương tác với trang web, cho phép các tác nhân AI thực hiện các tác vụ bên trong các giao diện được thiết kế cho con người chứ không phải robot. Có tên gọi là Gemini 2.5 Computer Use, mô hình AI này sử dụng "khả năng hiểu và lập luận trực quan" để phân tích yêu cầu của người dùng và thực hiện một tác vụ.

Theo Google, Gemini 2.5 Computer Use có thể được sử dụng để kiểm tra giao diện người dùng (UI) hoặc điều hướng các giao diện được thiết kế cho những người không có API hoặc kết nối trực tiếp khác.
Các phiên bản khác của mô hình này đã được sử dụng trong các tính năng tác nhân (agentic) của AI Mode và Project Mariner - một nguyên mẫu nghiên cứu cho phép các tác nhân AI tự động thực hiện tác vụ trong trình duyệt, chẳng hạn như thêm sản phẩm vào giỏ hàng dựa trên danh sách mua sắm.

Thông báo của Google được đưa ra chỉ một ngày sau khi OpenAI công bố loạt ứng dụng ChatGPT mới trong sự kiện Dev Day thường niên. Công ty này cho thấy trọng tâm của họ vẫn là các tính năng ChatGPT Agent, cho phép AI hoàn thành các nhiệm vụ phức tạp thay cho người dùng. Trong khi đó, Anthropic đã phát hành phiên bản AI Claude hỗ trợ “computer use” từ năm ngoái.
Google đã đăng một số video demo cho thấy công cụ sử dụng máy tính của họ hoạt động như thế nào và lưu ý rằng chúng được tăng tốc gấp 3 lần.
Google cho biết mô hình computer use của họ “vượt trội hơn các đối thủ hàng đầu trên nhiều bài kiểm tra chuẩn cho web và di động.” Tuy nhiên, khác với ChatGPT Agent của OpenAI hay và công cụ sử dụng máy tính của Anthropic, mô hình AI mới của Google chỉ có quyền truy cập vào trình duyệt web, không phải toàn bộ môi trường máy tính.
Gã khổng lồ công nghệ này lưu ý rằng, mô hình này "chưa được tối ưu hóa để điều khiển ở cấp độ hệ điều hành máy tính để bàn" và hiện hỗ trợ 13 thao tác , bao gồm mở trình duyệt web, nhập văn bản, cũng như kéo và thả các thành phần.
Gemini 2.5 Computer Use có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI, nhưng cũng có bản demo trên Browserbase, nơi bạn có thể theo dõi quá trình hoàn thành các nhiệm vụ, chẳng hạn như "Chơi game 2048" hoặc "Duyệt Hacker News để biết các cuộc tranh luận đang thịnh hành".
Nguồn: Theverge
Xem thêm:
- Hướng dẫn đăng ký Google Gemini Pro và 2TB dung lượng miễn phí cho sinh viên
- Gemini đã có mặt trên Google TV: Tóm tắt phim, tìm kiếm phim bằng mô tả,...
CellphoneS hiện đang bán nhiều laptop AI chất lượng với giá hấp dẫn mà bạn có thể tham khảo ở danh sách bên dưới:
[Product_Listing categoryid="2197" propertyid="" customlink="https://cellphones.com.vn/laptop/ai.html" title="Danh sách Laptop AI đang được quan tâm nhiều tại CellphoneS"]

Bình luận (0)