🏷️ inference-efficiency

1 articles about 'inference-efficiency'

Google Brain Unveils Mixture-of-Depths Architecture

2026-05-06 research 👁 10

Google Brain's new Mixture-of-Depths transformer architecture dynamically allocates compute per token, cutting inference…