IBM lança Granite quatro com arquitetura híbrida Mamba dois e Transformer que reduz memória sem perder desempenho e ajuda você a cortar custos
3 dias ago · Updated 3 dias ago

- Ouça este artigo
- IBM lança Granite 4.0: LLMs híbridos (Mamba‑2/Transformer) para reduzir custos de inferência Você vai conhecer o Granite 4.0 da IBM, uma família de modelos open source que substitui Transformers monolíticos por um stack híbrido Mamba‑2/Transformer. O objetivo é cortar significativamente o uso de memória em inferência sem sacrificar a qualidade, reduzindo custo de GPU e melhorando cenários de contexto longo e sessões contínuas. Os artefatos têm licença Apache‑2.0, são assinados criptograficamente e a IBM afirma que é a primeira família aberta com gestão de IA certificada ISO/IEC 42001:2023. Você pode testar via watsonx.ai ou baixar checkpoints em Hugging Face, Docker Hub e outros hubs.Leia também a cobertura externa do lançamento:https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/Principais benefícios resumidos: Arquitetura híbrida que intercala atenção com camadas Mamba‑2 para reduzir uso de memória.Redução de até >70% de RAM em inferência de longo contexto e multi‑sessão (segundo a IBM).Variantes MoE que ativam poucos parâmetros efetivos para manter qualidade sem aumentar memória.Lançamento aberto com licença permissiva, artefatos assinados e gestão de IA certificada.Bom desempenho em instruction‑follow, uso de ferramentas e fluxos de recuperação, facilitando a produção. IBM lança Granite 4.0: família de LLMs híbridos para reduzir custos de inferência
- Principais pontos para você
- O que mudou no design técnico
- Modelos iniciais e variantes
- Desempenho e benchmarks
- Onde acessar e integrar
- Impacto esperado para implantação
- Conclusão
- Perguntas frequentes
Ouça este artigo
IBM lança Granite 4.0: LLMs híbridos (Mamba‑2/Transformer) para reduzir custos de inferência
Você vai conhecer o Granite 4.0 da IBM, uma família de modelos open source que substitui Transformers monolíticos por um stack híbrido Mamba‑2/Transformer. O objetivo é cortar significativamente o uso de memória em inferência sem sacrificar a qualidade, reduzindo custo de GPU e melhorando cenários de contexto longo e sessões contínuas. Os artefatos têm licença Apache‑2.0, são assinados criptograficamente e a IBM afirma que é a primeira família aberta com gestão de IA certificada ISO/IEC 42001:2023. Você pode testar via watsonx.ai ou baixar checkpoints em Hugging Face, Docker Hub e outros hubs.
Leia também a cobertura externa do lançamento:
https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/
Principais benefícios resumidos:
- Arquitetura híbrida que intercala atenção com camadas Mamba‑2 para reduzir uso de memória.
- Redução de até >70% de RAM em inferência de longo contexto e multi‑sessão (segundo a IBM).
- Variantes MoE que ativam poucos parâmetros efetivos para manter qualidade sem aumentar memória.
- Lançamento aberto com licença permissiva, artefatos assinados e gestão de IA certificada.
- Bom desempenho em instruction‑follow, uso de ferramentas e fluxos de recuperação, facilitando a produção.
IBM lança Granite 4.0: família de LLMs híbridos para reduzir custos de inferência
A IBM liberou o Granite 4.0, uma família de modelos de linguagem open source que troca grandes Transformers monolíticos por uma arquitetura híbrida Mamba‑2/Transformer para reduzir o uso de memória em serviços de inferência. Segundo a empresa, a combinação mantém a qualidade e reduz o custo operacional. Para contextos de produção e estratégias de redução de memória, técnicas como as descritas em como escalar Transformers com menos memória usando DeepSpeed podem ser complementares às abordagens híbridas.
Principais pontos para você
- Redução de memória: até >70% de RAM em inferência de contexto longo e sessões múltiplas (relatórios técnicos da IBM).
- Licença e governança: modelos sob Apache‑2.0, assinados criptograficamente; gestão de IA com certificação ISO/IEC 42001:2023.
- Disponibilidade: disponíveis em watsonx.ai e em múltiplas plataformas públicas e privadas.
- Formatos e execução: checkpoints públicos em BF16; conversões para GGUF e opções de execução em FP8 em hardware compatível — veja orientações práticas sobre conversões e otimização em como otimizar modelos Transformer com Hugging Face, ONNX e quantização.
O que mudou no design técnico
Entenda o novo arranjo interno:
- A arquitetura intercala poucas camadas de self‑attention com maioria de camadas do espaço de estado Mamba‑2, numa razão aproximada de 9:1 (Mamba:attention).
- A mistura reduz uso de memória em cenários de contexto longo e múltiplas sessões, permitindo maior rendimento com menos GPUs — uma solução que pode ser combinada com técnicas de inferência especulativa e encadeada, como as discutidas em cascatas especulativas para acelerar e baratear inferência.
- O treinamento incluiu amostras de até 512K tokens; avaliações foram feitas até 128K tokens — avanços que dialogam com pesquisas sobre processamento de contextos muito extensos, por exemplo em técnicas que permitem processar contextos muito mais longos eficientemente.
Modelos iniciais e variantes
A IBM lançou quatro variantes iniciais:
Modelo | Tipo | Parâmetros totais (aprox.) | Parâmetros ativos (aprox.) |
---|---|---|---|
Micro | Dense | 3B | 3B |
H‑Micro | Híbrido | 3B | 3B |
H‑Tiny | MoE híbrido | 7B | ~1B |
H‑Small | MoE híbrido | 32B | ~9B |
- Todos os modelos têm versões Base e Instruct.
- A IBM planeja variantes otimizadas para raciocínio (Thinking) ao longo de 2025 — iniciativas concorrentes e relatórios técnicos sobre modelos híbridos, como o relatório do Falcon H1, mostram que a comunidade vem explorando combinações híbridas similares para eficiência.
Desempenho e benchmarks
Relatórios e testes públicos indicam ganhos práticos:
- Em benchmarks de instruction‑following e uso de ferramentas, o H‑Small aparece entre os melhores modelos open‑source, atrás apenas de modelos de escala muito maior.
- Em tarefas de function calling e fluxos de recuperação multi‑turno, os modelos mostram resultados competitivos a custos menores — e, para pipelines de recuperação, usar embeddings eficientes também ajuda; veja o exemplo de EmbeddingGemma para buscas rápidas e privadas.
- Versões menores superam modelos anteriores mesmo com menos parâmetros efetivos, graças ao design híbrido e MoE.
Onde acessar e integrar
Artefatos e pontos de integração:
- watsonx.ai
- Hugging Face (checkpoints BF16, conversões GGUF)
- Docker Hub
- LM Studio, NVIDIA NIM, Ollama, Replicate
- Dell Pro AI Studio / Enterprise Hub, Kaggle, Azure AI Foundry (integrações anunciadas)
A IBM também trabalha em habilitações para vLLM, llama.cpp, NexaML e MLX para servir o modelo em arquiteturas variadas; para quem pretende rodar localmente ou em infraestrutura própria, vale conferir textos sobre modelos e práticas para execução local e as técnicas de otimização já mencionadas.
Mais detalhes e cobertura externa:
https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/
Impacto esperado para implantação
- Para quem administra infraestrutura, a meta é reduzir a frota de GPUs necessária para cargas de contexto longo e multiusuário — abordagens de escalonamento e pausa/retomada em treinamento e inferência, como ZenFlow para eliminar paradas em treinamentos, mostram que o ecossistema está focado em eficiência end‑to‑end.
- Checkpoints em BF16 e conversões facilitam testes locais e provas de conceito; combinar quantização e runtime otimizado reduz ainda mais memória e custo.
- Assinatura criptográfica e cobertura ISO/IEC 42001 visam facilitar requisitos de proveniência e conformidade em ambientes corporativos.
Conclusão
O Granite 4.0 da IBM é uma aposta prática: troca a armadura pesada dos Transformers monolíticos por um stack híbrido Mamba‑2/Transformer que corta memória e, com isso, reduz custos de GPU — às vezes em >70%. Para quem gerencia infraestrutura ou leva modelos à produção, isso significa mais contexto, mais sessões e menos gasto. Modelos com licença Apache‑2.0, artefatos assinados e cobertura ISO/IEC 42001 ajudam na conformidade corporativa. Em resumo: menos memória, custos menores e pronto para produção.
Como leitura complementar sobre trade‑offs de eficiência e modelos econômicos, considere artigos sobre otimização e modelos compactos, por exemplo soluções que reduzem tokens e aceleram pipelines ou modelos econômicos para empresas.
Se quiser leitura adicional e análises, veja também:
https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/
Perguntas frequentes
- O que é o Granite 4.0?
É uma família de LLMs open‑source da IBM que usa uma pilha híbrida Mamba‑2 Transformer para reduzir memória, com variantes Base e Instruct (do Micro 3B ao H‑Small 32B MoE).
- Como a arquitetura híbrida reduz memória e custo?
Intercala cerca de 9 camadas Mamba‑2 para cada camada de atenção, reduzindo RAM em mais de 70% em inferência longa e multi‑sessão. Menos memória = menos GPUs e menor custo, sem perda visível de qualidade.
- Quais formatos e onde encontro os modelos?
Checkpoints BF16 no Hugging Face; conversões GGUF e opções FP8 para hardware compatível. Disponíveis via watsonx.ai, Docker Hub, Hugging Face, LM Studio, NVIDIA NIM, Ollama, Replicate, Dell, Kaggle e Azure AI Foundry.
- É seguro e pronto para uso empresarial?
Sim. Licença Apache‑2.0, artefatos assinados criptograficamente e cobertura por sistema AIMS acreditado ISO/IEC 42001:2023, o que facilita conformidade e auditoria.
- Qual modelo escolher para meu projeto?
- Uso leve/local: Micro 3B (denso).
- Menor memória com boa qualidade: H‑Micro 3B.
- Eficiência em RAG e multi‑turn: H‑Tiny 7B MoE (~1B ativos).
- Melhor para instruction/tool‑use: H‑Small 32B MoE (~9B ativos).
Variantes de raciocínio chegam em 2025.
Referências e leitura adicional:
- Cobertura externa do lançamento: https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/
- Blog da Aidirectory: https://blog.aidirectory.com.br
Se você quiser conhecer outros artigos semelhantes a IBM lança Granite quatro com arquitetura híbrida Mamba dois e Transformer que reduz memória sem perder desempenho e ajuda você a cortar custos, você pode visitar a categoria Notícias e Tendências.