Grok 3 của Elon Musk vượt mặt ChatGPT 4 ở phân tích thời gian thực, nhưng "đơ" trước bài toán lớp 5


Mô hình AI của Elon Musk đã gây chú ý với khả năng tạo ra hình ảnh siêu thực về những người nổi tiếng, bao gồm cả CEO của X. Giờ đây, Grok đã được nâng cấp với khả năng suy luận tiên tiến, đưa nó vào cuộc cạnh tranh trực tiếp với GPT-4 của OpenAI.
Chỉ vài ngày trước, Elon Musk và cả bộ sậu của xAI đã giới thiệu Grok 3,cùng lời quảng cáo rằng đây là mô hình AI tốt nhất hiện có. Họ tuyên bố rằng nó đã vượt trội hơn những cái tên lớn như OpenAI, Google, Anthropic và DeepSeek về các điểm chuẩn chính.
Thế Chatbot Grok 3 này có tốt không? Cùng Sforum đánh giá Grok 3 trong bài viết dưới đây nhé.
Xem thêm: DeepSeek AI không đơn độc, hàng loạt ông lớn chip Trung Quốc "tổng lực" đối đầu với AI Mỹ!
Grok 3 đã ra mắt chưa?
Tỷ phú Elon Musk cho biết Grok 3 vẫn đang trong giai đoạn thử nghiệm, nhưng người dùng có thể mong đợi các bản nâng cấp theo nghĩa đen là hàng ngày. Một tính năng tương tác bằng giọng nói được cho là sẽ ra mắt chỉ sau khoảng một tuần nữa.

Những người đăng ký gói X Premium+, gần đây đã tăng lên 50 đô la một tháng, là những người đầu tiên được tiếp cận với mô hình này.
Để thực hiện bài viết này, nhóm tác giả chỉ truy cập và sử dụng Grok 3 mà không cần gói cao cấp. Tuy nhiên, có vẻ như điều này chỉ diễn ra trong thời gian có hạn. Khi thông báo về động thái trên X, xAI đã đăng "AI thông minh nhất thế giới, Grok 3, hiện đã có sẵn miễn phí (cho đến khi máy chủ của chúng tôi bị sập)".
Đến một thời điểm nào đó, người dùng sẽ cần đăng ký Super Grok để tiếp tục truy cập. Gói cao cấp này cung cấp cho những người dùng đầu tiên có được các thông báo về tính năng và bản cập nhật AI mới nhất của xAI. Bạn có thể xem qua ứng dụng Grok hoặc truy cập grok.com để truy cập trực tuyến.
Grok 3 có gì? Liệu có thực sự là "thông minh nhất thế giới"?
Grok 3 được cho là một bước tiến lớn so với người tiền nhiệm của nó, tích hợp sức mạnh tính toán gấp mười lần Grok 2. Nó được xây dựng để xử lý các vấn đề phức tạp hiệu quả hơn bằng cách chia nhỏ chúng thành các bước nhỏ hơn và kiểm tra lại câu trả lời trước khi phản hồi.

Các thử nghiệm ban đầu cho thấy Grok 3 hoạt động tốt hơn các đối thủ nặng ký như GPT-4o của OpenAI, Gemini của Google và V3 của DeepSeek. Nó thậm chí còn đi kèm với hai chế độ lý luận độc đáo: "Think", cho phép bạn xem quá trình suy nghĩ của nó theo thời gian thực và "Big Brain", được thiết kế cho các tác vụ khó hơn, đòi hỏi nhiều tính toán hơn.
Trên hết, xAI đã tung ra Deep Search, một công cụ tìm kiếm AI thế hệ tiếp theo tương tự như Perplexity, Gemini và ChatGPT cung cấp. Và có tin đồn rằng một tính năng giọng nói tổng hợp cho Grok sẽ sớm ra mắt.
Để kiểm tra mô hình, tác giả đã yêu cầu mô hình lý luận nâng cao của OpenAI, o1, cùng với đó là 5 prompt riêng biệt tương thích với 5 chủ đề khác nhau.

Lý luận logic và giải thích
Prompt: “‘Hai người bắt đầu đi bộ từ cùng một điểm nhưng theo hướng ngược nhau - Người A đi với tốc độ 3 dặm/giờ và Người B đi với tốc độ 4 dặm/giờ. Sau một giờ, tốc độ của Người A tăng lên 5 dặm/giờ và Người B giảm xuống còn 3 dặm/giờ. Sau 2 giờ nữa, họ cách nhau bao xa?’ Giải thích lý luận của bạn từng bước, cho thấy chính xác cách bạn đi đến câu trả lời.”

Khi đưa câu đố này cho Grok 3, chatbot AI này gần như "ngã ngựa" ngay lập tức. Màn hình của tác giả đã bị đơ trong 30 giây trước khi đưa ra câu trả lời. Tuy nhiên, cuối cùng nó cũng bắt đầu phân tích dữ liệu, suy đoán chính xác rằng “vấn đề bao gồm hai giai đoạn đi bộ riêng biệt: giờ đầu tiên, sau đó là hai tiếng sau đó nữa với tốc độ được cập nhật.”
Cuối cùng, nó đã tìm ra câu trả lời là 23 - giống với câu trả lời của GPT-4.
Vốn hiểu biết và tóm tắt theo ngữ cảnh
Prompt: “Đọc đoạn trích sau đây từ một truyện ngắn và viết một bản tóm tắt ngắn gọn, tóm tắt xung đột chính và giải pháp. Sau đó, phê bình phong cách viết của tác giả trong một hoặc hai đoạn văn.”


Grok 3 đã đưa ra phản hồi khá chuẩn theo kiểu AI cho yêu cầu này, sử dụng ngôn ngữ thông thường như: “Phong cách viết của tác giả ngắn gọn nhưng gợi cảm xúc.” Tuy nhiên, có vẻ như nó vượt trội hơn phiên bản của GPT-4 khi chỉ ra một vấn đề ngôn ngữ rõ ràng, nêu rằng: “Văn xuôi đôi khi có xu hướng kịch tính.”
Trong trường hợp này, tác giả nghĩ rằng Grok 3 đã đưa ra câu trả lời thông minh hơn.
Khả năng viết sáng tạo theo một phong cách cụ thể


Prompt: “Viết một câu chuyện ngắn 200 từ theo phong cách truyện cổ tích kỳ quặc nhưng lấy bối cảnh là một đô thị tương lai. Kết hợp ít nhất ba yếu tố tưởng tượng kết hợp giữa yếu tố kỳ ảo với công nghệ tiên tiến (ví dụ: rồng ba chiều, rừng bay, v.v.). Đặt mục tiêu chính xác khoảng 200 từ”.
Cả Grok 3 và GPT-4 đều tạo ra một câu chuyện khoa học viễn tưởng dưới 200 từ và cả hai đều là những câu chuyện nằm ở mức ổn. Phiên bản của Grok 3 thiên về phiêu lưu hơn, tập trung vào hành động và mục tiêu bên ngoài, trong khi câu chuyện của GPT-4 mang tính phản ánh nhiều hơn.
Dù thế nào đi nữa, không có câu chuyện nào trong số này có khả năng giành được Giải thưởng Pulitzer (thật may mắn cho chúng ta).
Phân tích dữ liệu theo thời gian thực


Prompt: “Với luồng dữ liệu thời gian thực từ nhiều cảm biến trên khắp thành phố (cảm biến giao thông, thời tiết và chất lượng không khí), hãy dự đoán tình trạng giao thông trong 24 giờ tới. Sử dụng so sánh dữ liệu lịch sử và xu hướng hiện tại từ các cảm biến để hỗ trợ cho dự đoán của bạn. Trình bày các phát hiện của bạn trong một báo cáo chi tiết”.
Đây là một lĩnh vực mà Grok 3 vượt trội hơn OpenAI ở một biên độ lớn. Đầu tiên, xAI có quyền truy cập vào thông tin thời gian thực, cho phép nó cung cấp 15 nguồn riêng biệt để trả lời câu hỏi này. Mặt khác, cho dù là GPT-4 hay GPT-4o, thì không mô hình nào có thể truy cập dữ liệu thời gian thực và thay vào đó cung cấp mô phỏng. Grok 3 giành chiến thắng trong cuộc chiến này, không nghi ngờ gì nữa.
Phân tích phức tạp
Prompt: “Xem xét trường hợp giả định về một quốc gia chuyển đổi từ nhiên liệu hóa thạch sang các nguồn năng lượng tái tạo trong khoảng thời gian năm năm. Giả sử mức tiêu thụ năng lượng chính của quốc gia là 50% than, 30% khí đốt tự nhiên và 20% năng lượng tái tạo khi bắt đầu.
Đưa ra một kế hoạch cấp cao phác thảo những thay đổi về chính sách, các cân nhắc về kinh tế (như trợ cấp hoặc tác động đến việc làm) và các mục tiêu về môi trường. Kết thúc bằng những thách thức tiềm ẩn và cách giải quyết chúng”.


Các kế hoạch của Grok 3 cụ thể hơn nhiều trong việc giải quyết quá trình chuyển đổi từ nhiên liệu hóa thạch sang các nguồn năng lượng tái tạo. Kế hoạch này không chỉ tính toán chính xác số tiền mà chính phủ cần phải tính vào thuế carbon và các ưu đãi mà còn cung cấp một bản phân tích chi tiết về những thách thức tiềm ẩn, chẳng hạn như khả năng mất 100.000 việc làm.
So sánh với điều đó, câu trả lời của GPT-4 được cho là kém ấn tượng hơn nhiều, chủ yếu dựa vào các giả định.
Tạm kết: Grok 3 có tốt không?
Grok 3 đang được coi là một mô hình AI khá mạnh mẽ, đã vượt trội hơn trong các lĩnh vực như quyền truy cập vào dữ liệu thời gian thực - điều mà GPT-4 còn thiếu.
Mặc dù vậy, nó vẫn có những phản ứng khá máy móc đối với một số nhiệm vụ sáng tạo hơn. Vẫn còn sớm, nhưng Grok 3 có vẻ như có thể là một trong những động lực lớn trong không gian AI, có thể làm gián đoạn mọi thứ đối với OpenAI. Liệu nó có "tốt đến mức đáng sợ" như Musk nói không? Chưa.
Nguồn: readwrite
Xem thêm:
- Grok AI là gì? Cách sử dụng Grok 3 AI chatbot mới nhất
- Grok AI: Trợ lý ảo vượt trội, cạnh tranh với ChatGPT và Gemini
- Bài viết chuyên mục Khám phá
[Product_Listing categoryid="2197" propertyid="" customlink="https://cellphones.com.vn/laptop/ai.html" title="Danh sách Laptop AI đang được quan tâm nhiều tại CellphoneS"]

Bình luận (0)