Google Cloud ra mắt Gemma 4: Mô hình mở cho AI tác tử và chủ quyền số

Jun 2, 2026

12 views

Ngày 03/04/2026, Google Cloud đã chính thức phát hành Gemma 4, thế hệ mô hình mở (open models) mạnh mẽ nhất của hãng tính trên từng byte. Được phát triển từ cùng nền tảng nghiên cứu với Gemini 3, Gemma 4 mang đến cho doanh nghiệp sự cân bằng giữa khả năng xử lý logic phức tạp và bảo mật dữ liệu, đồng thời tạo nền tảng vững chắc cho chủ quyền số.

Gemma 4: Vượt xa giới hạn của chatbot

Gemma 4 được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng thương mại. Các mô hình này vượt trội hơn các chatbot thông thường nhờ các tính năng đột phá:

Cửa sổ ngữ cảnh (context window) lớn: Lên đến 256K token, cho phép xử lý các tác vụ đòi hỏi lượng thông tin đầu vào lớn.
Đa phương thức (multimodal): Xử lý tự nhiên cả hình ảnh và âm thanh.
Đa ngôn ngữ: Thông thạo hơn 140 ngôn ngữ.
Khả năng vượt trội: Xuất sắc trong việc xử lý logic phức tạp, tạo mã nguồn offline và các quy trình agentic (AI tác tử).

Đối với doanh nghiệp, AI cần có khả năng thực thi logic phức tạp trong khi vẫn đảm bảo dữ liệu nằm trong ranh giới an toàn. Gemma 4 giải quyết bài toán này bằng cách cho phép triển khai trên toàn bộ nền tảng Google Cloud, đáp ứng các cam kết tuân thủ nghiêm ngặt, bao gồm cả các giải pháp Sovereign Cloud. Điều này cung cấp nền tảng cho chủ quyền số, trao cho các đội ngũ quyền kiểm soát hoàn toàn đối với dữ liệu, hạ tầng và mô hình của họ.

Các phương thức triển khai Gemma 4 trên Google Cloud

Google Cloud cung cấp nhiều tùy chọn linh hoạt để doanh nghiệp có thể bắt đầu với Gemma 4.

Vertex AI

Doanh nghiệp có thể triển khai Gemma 4 trên các endpoint Vertex AI của riêng mình. Bằng cách chọn mô hình từ Model Garden và cấp phát tài nguyên tính toán cần thiết, doanh nghiệp có toàn quyền kiểm soát trực tiếp hạ tầng và chi phí, đồng thời giữ dữ liệu trong môi trường Google Cloud của mình.

Ngoài ra, Gemma 4 có thể được fine-tuning (tinh chỉnh) bằng Vertex AI Training Clusters (VTC), cung cấp các công thức SFT tối ưu và khả năng phục hồi cao. Điều này đảm bảo doanh nghiệp có thể tùy biến hiệu quả mọi biến thể, từ mô hình 2B (E2B) cho tác vụ biên đến mô hình 31B cho các quy trình điều phối phức tạp.

Google Cloud cũng công bố kế hoạch cung cấp mô hình Gemma 4 26B MoE dưới dạng dịch vụ được quản lý hoàn toàn và serverless trên Model Garden trong những ngày tới (tính từ thời điểm công bố).

Agent Development Kit (ADK)

ADK là một framework mã nguồn mở, linh hoạt và module hóa để phát triển và triển khai các AI agent. Với các khả năng agentic tiên tiến của Gemma 4 như suy luận, gọi hàm, tạo mã và đầu ra có cấu trúc, ADK giúp các nhà phát triển xây dựng các AI agent đầy đủ chức năng.

Cloud Run

Giờ đây, doanh nghiệp có thể chạy các workload inference đòi hỏi cao của Gemma 4 một cách hiệu quả trên Cloud Run, tận dụng sức mạnh của GPU NVIDIA RTX PRO 6000 (Blackwell). Với 96GB bộ nhớ vGPU, việc triển khai các mô hình như Gemma-4-31B-it trên GPU serverless trở nên dễ dàng.

Cloud Run tự động quản lý hạ tầng, cho phép mô hình scale về 0 khi không hoạt động và tự động điều chỉnh theo nhu cầu, giúp tối ưu hóa chi phí khi chỉ trả tiền cho những gì sử dụng.

Google Kubernetes Engine (GKE)

GKE cung cấp một môi trường có khả năng mở rộng cao và tùy biến sâu, phù hợp cho các đội ngũ cần kiểm soát chi tiết hạ tầng AI. Doanh nghiệp có thể tùy chỉnh tài nguyên tính toán, chọn GPU hoặc TPU cụ thể và triển khai các chỉ số autoscaling riêng.

Kể từ ngày 03/04/2026, người dùng có thể phục vụ các mô hình Gemma 4 trên GKE một cách hiệu quả bằng vLLM, một engine phục vụ LLM có thông lượng cao và tiết kiệm bộ nhớ.

Trong tương lai, việc kết hợp khả năng lập kế hoạch đa bước của Gemma 4 với GKE Agent Sandbox mới sẽ cho phép các nhà phát triển thực thi an toàn mã do LLM tạo ra trong các môi trường biệt lập. Hơn nữa, GKE Inference Gateway với tính năng lập lịch dựa trên độ trễ dự đoán có thể giảm tới 70% độ trễ time-to-first-token (TTFT).

Google Cloud TPUs

Google Cloud công bố Gemma 4 sẽ khả dụng trên TPUs thông qua GKE, GCE và Vertex AI. Người dùng có thể sử dụng các dự án mã nguồn mở phổ biến cho TPU như MaxText để tùy chỉnh mô hình hoặc vLLM TPU cho các workload inference trong môi trường production.

Sovereign Cloud

Gemma 4 sẽ có mặt trên tất cả các giải pháp Sovereign Cloud của Google, bao gồm public cloud với Data Boundary, Google Cloud Dedicated và Google Distributed Cloud cho các môi trường air-gapped và on-premises. Điều này cho phép các doanh nghiệp và cơ quan chính phủ triển khai các dịch vụ AI bản địa hóa, đáp ứng các quy định nghiêm ngặt về lưu trữ và chủ quyền dữ liệu.

Bắt đầu ngay hôm nay

Từ Vertex AI đến Sovereign Cloud, doanh nghiệp có thể bắt đầu xây dựng với Gemma 4 ngay từ bây giờ. Bằng cách chọn Gemma 4 trên Google Cloud, các tổ chức có được một nền tảng đáng tin cậy, minh bạch, cung cấp các khả năng tiên tiến đồng thời đáp ứng các tiêu chuẩn cao nhất về bảo mật và độ tin cậy.