Google Cloud ra mắt Gemini 3.1 Flash-Lite: Tối ưu chi phí và tốc độ cho AI

May 26, 2026

13 views

Google Cloud chính thức công bố Gemini 3.1 Flash-Lite, mô hình nhanh và hiệu quả nhất về chi phí trong dòng Gemini 3, đã sẵn sàng cho mọi khách hàng (generally available). Được thiết kế cho các tác vụ khối lượng lớn, yêu cầu độ trễ cực thấp và chi phí tối ưu, Flash-Lite đang thay đổi cách các doanh nghiệp xây dựng ứng dụng quy mô lớn.

Gemini 3.1 Flash-Lite trên nền tảng Gemini Enterprise Agent Platform

Các nhà phát triển và doanh nghiệp ghi nhận mô hình này cung cấp độ chính xác cần thiết cho các tác vụ tự hành (agentic) như gọi công cụ (tool calling) và điều phối, kết hợp với hiệu quả chi phí để vận hành các quy trình tự động ở quy mô lớn. Dưới đây là cách một số khách hàng của Google Cloud đã khai thác giá trị từ mô hình này.

Phát triển phần mềm và kỹ thuật

Các đội ngũ kỹ sư cần những mô hình có thể theo kịp môi trường lập trình thời gian thực. Với việc Gemini 3.1 Flash-Lite được phát hành chính thức, các nhà phát triển đang khai thác khả năng phản hồi tức thì cần thiết cho việc hoàn thiện mã phức tạp, thiết kế UX liền mạch và các công cụ dành cho nhà phát triển tự hành.

Việc tích hợp Gemini 3.1 Flash-Lite đã thay đổi hoàn toàn khả năng phản hồi của trợ lý AI trong IDE và tác tử Junie của chúng tôi. Sự cân bằng giữa trí thông minh cao và độ trễ tối thiểu khiến nó trở thành mô hình hoàn hảo để hỗ trợ nhà phát triển theo thời gian thực.

– Vladislav Tankov, Giám đốc AI, JetBrains

Trải nghiệm khách hàng và dịch vụ khối lượng lớn

Đối với hoạt động dịch vụ khách hàng của doanh nghiệp, việc xử lý khối lượng tương tác khổng lồ đòi hỏi các mô hình có thể mở rộng với chi phí hợp lý mà không làm giảm khả năng suy luận.

Gladly cung cấp dịch vụ khách hàng cho một số thương hiệu bán lẻ hàng đầu thế giới. Cốt lõi của tác tử AI trên kênh văn bản của họ chạy trên Flash-Lite. Bằng cách xử lý hàng triệu lệnh gọi từ khách hàng mỗi tuần qua các kênh như SMS, WhatsApp và Instagram, họ đã đạt được chi phí thấp hơn khoảng 60% so với các mô hình cấp tư duy tương đương trên cùng một hỗn hợp token.

Mô hình này hỗ trợ mọi bước trong vòng đời của tác tử — từ chọn công cụ, phân loại kịch bản đến quyết định khi nào cần chuyển cho nhân viên — tất cả trong khi vẫn duy trì độ trễ p95 khoảng 1,8 giây cho việc tạo phản hồi đầy đủ và dưới một giây cho các lệnh gọi phân loại và công cụ, cùng với tỷ lệ thành công ~99,6% dưới tải đồng thời cao.

Quy trình sáng tạo và game

Trong các ngành công nghiệp sáng tạo và game có nhịp độ nhanh, khả năng đa phương thức và độ trễ cực thấp là yếu tố cần thiết để giữ chân người dùng và duy trì luồng nội dung. Flash-Lite đang trao quyền cho các nền tảng xử lý đa phương tiện và tạo ra các môi trường siêu cá nhân hóa.

Astrocade cho phép bất kỳ ai tạo trò chơi bằng cách mô tả những gì họ muốn bằng ngôn ngữ tự nhiên. Họ đã tích hợp Flash-Lite để phục vụ lượng người dùng toàn cầu đang phát triển nhanh chóng. Đối với mỗi yêu cầu tạo game, mô hình thực hiện kiểm tra an toàn đa phương thức — phân tích cả văn bản và hình ảnh — trước khi các tác tử xây dựng bắt đầu công việc. Nó còn hỗ trợ cộng đồng toàn cầu thông qua dịch bình luận nội tuyến, cho phép người chơi ở các quốc gia khác nhau cùng “biến tấu” trên cùng một trò chơi. Và như một phần của quy trình tạo tài sản, nó giúp tinh chỉnh các prompt cuối cùng để đảm bảo chất lượng hình thu nhỏ luôn ở mức cao.

Nền tảng sáng tạo krea.ai cũng đã ghi nhận kết quả tích cực khi sử dụng Flash-Lite như một công cụ tăng cường prompt trong công cụ Nodes của họ. Bằng cách lấy ý tưởng sơ bộ của người dùng và mở rộng nó thành một quy trình tạo prompt hình ảnh hoàn chỉnh, mô hình cung cấp một mức độ chi tiết “sáng tạo một cách kỳ lạ” so với mức giá của nó. Những kết quả này tạo ra sự khác biệt trong sản xuất hình ảnh, mang lại độ tin cậy và quy mô mà trước đây quá tốn kém cho việc thiết kế prompt phức tạp.

Dịch vụ tài chính và vận hành dữ liệu

Trong thế giới tài chính và phát triển sản phẩm doanh nghiệp, hiệu quả cũng quan trọng như độ chính xác. Gemini 3.1 Flash-Lite mang lại cho các nhà phân tích tài chính và quản lý sản phẩm sự cân bằng lý tưởng giữa trí thông minh, độ trễ thấp và hiệu quả chi phí để chạy các ứng dụng mô hình hóa và nhạy cảm với độ trễ.

OffDeal sử dụng Flash-Lite để cung cấp năng lượng cho “Archie”, một tác tử AI mà các nhân viên ngân hàng đầu tư sử dụng để nghiên cứu, tra cứu dữ liệu và thực hiện tác vụ theo thời gian thực trong các cuộc gọi Zoom. Trong những kịch bản này, các nhân viên ngân hàng thường cần truy xuất dữ liệu tài chính ngay giữa cuộc trò chuyện. OffDeal nhận thấy rằng Flash-Lite là mô hình duy nhất có khả năng đáp ứng thời gian phản hồi cần thiết cho các câu trả lời tức thì thực sự mà không phải đánh đổi về chất lượng. Ngoài các cuộc gọi trực tiếp, họ còn sử dụng Flash-Lite như một lớp phân loại cho lưu lượng email đến và đi. Bằng cách trả lời các câu hỏi có cấu trúc về tin nhắn song song, chẳng hạn như một email có phải là phản hồi tự động hay liên quan đến một giao dịch đang hoạt động, Flash-Lite xác định tác tử AI nào ở hạ nguồn sẽ được gọi và với ngữ cảnh nào.

Gemini là một phần cốt lõi của ngăn xếp mô hình mà chúng tôi sử dụng trên các ứng dụng tại Ramp. Như đã chỉ ra trong các bài kiểm thử của chúng tôi, chúng tôi thấy Gemini dẫn đầu về chi phí, độ trễ và trí thông minh—cung cấp sự cân bằng tuyệt vời giữa ba yếu tố này và làm cho nó rất phù hợp cho các ứng dụng nhạy cảm với độ trễ. Gemini 3.1 Flash-Lite đặc biệt có giá trị, cung cấp năng lượng cho nhiều tính năng có khối lượng lớn nhất và nhạy cảm với độ trễ nhất của chúng tôi mà không ảnh hưởng đến chất lượng.

– Anton Biryukov, Kỹ sư AI Ứng dụng, Ramp

Gemini 3.1 Flash-Lite cung cấp sự cân bằng tuyệt vời giữa tốc độ, chi phí và hiệu suất, cho phép AlphaSense mở rộng quy trình xử lý dữ liệu tiên tiến và cung cấp thông tin tình báo chất lượng cao trên mọi lớp của ngăn xếp dữ liệu của chúng tôi.

– Chris Ackerson, Phó Chủ tịch Cấp cao về Sản phẩm, AlphaSense

Bắt đầu ngay

Đọc tài liệu về Gemini 3.1 Flash-Lite và tìm hiểu về cấu trúc giá mới nhất. Tìm hiểu thêm về Nền tảng Gemini Enterprise Agent, tiêu chuẩn mới cho việc phát triển tác tử AI doanh nghiệp.