Google AI Edge Portal: Tối ưu LLM trên 120+ thiết bị Android

May 21, 2026

54 views

Các mô hình ngôn ngữ lớn (LLM) ngày càng mạnh mẽ hơn với kích thước nhỏ hơn, nhưng việc triển khai chúng trên các thiết bị biên như điện thoại thông minh vẫn là một thách thức lớn. Google AI Edge Portal ra đời để giải quyết những vấn đề này, cho phép nhà phát triển thử nghiệm các tác vụ học máy trên một hệ thống gồm hơn 120 loại thiết bị Android đại diện. Mới đây, Google Cloud đã công bố hai tính năng mới giúp mở rộng khả năng của AI Edge Portal cho kỷ nguyên AI tạo sinh: đo lường hiệu năng (benchmarking) và gỡ lỗi (debugging) các mô hình LLM ngay trên thiết bị.

Đo lường hiệu năng LLM trên hơn 120 loại thiết bị di động

Khi người dùng tương tác với một ứng dụng tích hợp LLM, họ mong đợi hiệu suất nhanh và ổn định. Các vấn đề phổ biến như thời gian khởi tạo lâu có thể khiến ứng dụng trông như bị treo, hoặc tệ hơn là gặp sự cố hoàn toàn nếu mô hình tiêu thụ hết bộ nhớ khả dụng.

Với bản phát hành mới nhất của Google AI Edge Portal, doanh nghiệp có thể chạy các bài đo lường hiệu năng AI tạo sinh tự động trực tiếp trên một phòng lab vật lý với hơn 120 thiết bị Android đa dạng. Cổng thông tin này hỗ trợ đo lường hiệu năng CPU và GPU cho các mô hình LLM ở định dạng LiteRT-LM.

Giao diện đo lường hiệu năng của Google AI Edge Portal với các biểu đồ về tốc độ và bộ nhớ.

Khi kích hoạt một tác vụ đo lường hiệu năng AI tạo sinh, AI Edge Portal sẽ phân tích các chỉ số quan trọng quyết định trải nghiệm của người dùng cuối:

Thời gian khởi tạo (Initialization time): Đo lường thời gian cần thiết để tải mô hình vào bộ nhớ. Thời gian khởi tạo cao có thể gây ra độ trễ hoặc đóng băng giao diện người dùng khi ứng dụng khởi động.
Tốc độ xử lý prompt (Prefill speed): Ghi lại tốc độ thiết bị xử lý các token của câu lệnh đầu vào để tạo ra token đầu ra đầu tiên. Chỉ số này quyết định độ trễ ban đầu trước khi người dùng thấy phản hồi đầu tiên.
Tốc độ giải mã (Decode speed): Ghi lại tốc độ mô hình tạo ra các token trong quá trình phản hồi. Chỉ số này quyết định tốc độ nội dung đầu ra được tạo ra.
Mức sử dụng bộ nhớ đỉnh (Peak memory): Theo dõi mức sử dụng RAM tối đa. Điều này giúp cảnh báo nguy cơ sự cố “hết bộ nhớ”, đặc biệt phổ biến trên các thiết bị có bộ nhớ hạn chế.

Với những thông tin chi tiết này, doanh nghiệp có thể tự tin quyết định thiết bị nào sẵn sàng để chạy mô hình của mình và điều chỉnh hoặc tối ưu hóa LLM tốt hơn trước khi phát hành.

Gỡ lỗi hiệu năng dễ dàng với Model Explorer

Đo lường hiệu năng chỉ hữu ích khi doanh nghiệp có thể khắc phục các vấn đề được phát hiện. Khi một LLM hoạt động kém, việc tìm ra nguyên nhân gốc rễ trong một biểu đồ phức tạp gồm nhiều lớp và hàng nghìn nút là một nhiệm vụ khó khăn, tốn nhiều thời gian.

Để giải quyết vấn đề này, Google Cloud đã tích hợp công cụ Model Explorer vào AI Edge Portal, giúp trực quan hóa và so sánh các biểu đồ mô hình một cách dễ dàng. Nhà phát triển có thể tìm kiếm và định vị các nút cụ thể, so sánh các mô hình cạnh nhau, xem hình dạng tensor, theo dõi đầu vào và đầu ra, và nhiều hơn nữa.

Những hình ảnh trực quan này là một trong những cách hiệu quả nhất để xác định các mục tiêu cần tối ưu hóa, bao gồm:

Chuyển đổi (Conversion): Model Explorer đơn giản hóa việc xác định các bất thường trong quá trình chuyển đổi thông qua công cụ so sánh hai chế độ xem.
Lượng tử hóa (Quantization): Công cụ này giúp phát hiện các hoạt động cụ thể mà việc lượng tử hóa có thể làm giảm hiệu suất, cho phép đánh giá các chiến lược khác nhau để đạt được sự cân bằng tối ưu giữa kích thước mô hình và chất lượng đầu ra.
Tối ưu hóa (Optimization): Sử dụng Model Explorer để trực quan hóa khả năng tương thích phần cứng, sắp xếp các hoạt động theo độ trễ và tiến hành so sánh hiệu suất chi tiết trên từng hoạt động giữa các bộ tăng tốc phần cứng khác nhau.

Sơ đồ kiến trúc mô hình AI được hiển thị trong Model Explorer.

Với Model Explorer, nhà phát triển có thể xem biểu đồ mô hình, tìm kiếm các lớp cụ thể và so sánh các mô hình cạnh nhau để gỡ lỗi hiệu suất.

Bắt đầu đo lường hiệu năng LLM trên thiết bị ngay hôm nay

Trong kỷ nguyên của LLM trên thiết bị, Google Cloud mong muốn giúp thu hẹp khoảng cách quan trọng trong việc đo lường hiệu năng để mang sức mạnh của AI đến hàng nghìn loại điện thoại thông minh trên thị trường hiện nay. Để sử dụng các tính năng mới nhất này, doanh nghiệp có thể bày tỏ sự quan tâm bằng cách hoàn thành biểu mẫu đăng ký.

Google AI Edge Portal hiện có sẵn trong phiên bản xem trước riêng tư (private preview) cho các khách hàng Google Cloud được đưa vào danh sách cho phép. Trong giai đoạn này, quyền truy cập được cung cấp miễn phí, tuân theo các điều khoản của phiên bản xem trước.