Akamai Perkenalkan Cloud Inference untuk Mengurangi Biaya dan Latensi AI

cloud computing, Akamai, data center, akamai, artificial intelegence, Akamai Perkenalkan Cloud Inference untuk Mengurangi Biaya dan Latensi AI

Layanan ini dirancang untuk mendekatkan proses inferensi kecerdasan buatan (AI) langsung ke titik terdekat dengan pengguna, dalam skema komputasi yang dikenal sebagai edge computing.

Inferensi dalam AI adalah proses menjalankan model untuk menghasilkan output dari input baru. Bukan proses belajar lagi, tapi menggunakan apa yang sudah dipelajari.

Solusi dari Akamai ini ditujukan untuk menjawab kebutuhan perusahaan yang ingin menjalankan model AI, seperti large language model (LLM) di luar tahap pelatihan, yang selama ini bergantung pada data center berukuran besar.

"Mendekatkan data AI ke pengguna dan perangkat itu sulit, dan di situlah tantangan yang dihadapi platform cloud lama," kata Adam Karon, Chief Operating Officer Akamai, dalam keterangan resmi yang diterima KompasTekno, Rabu (28/5/2025).

Karon mengatakan bahwa proses inferensi, yakni penerapan model AI dalam pengambilan keputusan secara langsung, semakin menuntut efisiensi dan kecepatan respons yang sulit dicapai oleh arsitektur cloud tradisional.

Meski demikian, menurut Karon, pelatihan LLM akan tetap dilakukan di data center besar, tapi inferensi akan semakin banyak dilakukan di edge.

Solusi baru Akamai ini diklaim mampu memberikan throughput 3x lebih baik, mengurangi latensi hingga 2,5x, dan menghemat biaya hingga 86 persen dibandingkan dengan infrastruktur hyperscaler tradisional.

Sistem ini menawarkan berbagai jenis kemampuan komputasi, mulai dari CPU dan GPU hingga VPU (Visual Processing Unit) yang dirancang khusus untuk kebutuhan inferensi AI.

Layanan ini juga terintegrasi dengan ekosistem perangkat lunak dari Nvidia, termasuk Triton Inference Server, TAO Toolkit, TensorRT, dan NVFlare, yang dapat membantu mengoptimalkan performa inferensi berbasis GPU.

Sistem ini juga dilengkapi penyimpanan obyek yang dapat diskalakan secara besar-besaran, serta mendukung integrasi dengan database vektor, seperti Aiven dan Milvus.

Untuk mempermudah manajemen dan skalabilitas, platform ini menyediakan sistem kontainerisasi dengan dukungan dari Linode Kubernetes Engine (LKE) Enterprise, versi skala besar dari sistem orkestrasi Akamai.

Salah satu aspek yang turut diperkuat oleh Akamai adalah komputasi edge. Dalam skenario ini, proses inferensi tidak lagi bergantung pada server sentral melainkan dapat dilakukan dari aplikasi ringan, termasuk aplikasi tanpa server yang berjalan langsung di perangkat pengguna.

Teknologi ini memungkinkan pengembang untuk menjalankan inferensi AI secara lokal, misalnya untuk skenario, seperti asisten suara di kendaraan atau analisis masukan dari pelanggan secara real-time.

Akamai menyebut bahwa arsitektur terdistribusi mereka memungkinkan pengiriman data hingga lebih dari satu petabyte per detik, melalui lebih dari 4.200 titik kehadiran di 1.200 jaringan yang tersebar di 130 negara.

Peluncuran Akamai Cloud Inference juga mencerminkan perubahan fokus dalam industri AI, dari membangun LLM ke bagaimana model tersebut dimanfaatkan secara konkret.

Menurut Akamai, perusahaan kini mulai melihat nilai yang lebih besar dari penerapan AI yang dapat digunakan langsung untuk menyelesaikan masalah bisnis yang spesifik.

Contoh penerapan awal termasuk deskripsi otomatis produk di marketplace, visualisasi interaktif dalam pengalaman belanja online, analisis hasil medis berbasis AI, dan asisten suara yang berjalan langsung di perangkat.

"Melatih LLM seperti membuat peta. Pekerjaan ini lambat dan memerlukan banyak sumber daya. Inferensi AI itu seperti menggunakan GPS, langsung menerapkan pengetahuan itu, menghitung ulang secara real-time, dan beradaptasi dengan perubahan untuk membawa ke tempat yang Anda tuju," ujar Karon.