IBM lança Granite quatro com arquitetura híbrida Mamba dois e Transformer que reduz memória sem perder desempenho e ajuda você a cortar custos

3 dias ago · Updated 3 dias ago

ibm-lanca-granite-quatro-com-arquitetura-hibrida-mamba-dois-e-transformer-que-reduz-memoria-sem-perd
Table
  1. Ouça este artigo
  2. IBM lança Granite 4.0: LLMs híbridos (Mamba‑2/Transformer) para reduzir custos de inferência Você vai conhecer o Granite 4.0 da IBM, uma família de modelos open source que substitui Transformers monolíticos por um stack híbrido Mamba‑2/Transformer. O objetivo é cortar significativamente o uso de memória em inferência sem sacrificar a qualidade, reduzindo custo de GPU e melhorando cenários de contexto longo e sessões contínuas. Os artefatos têm licença Apache‑2.0, são assinados criptograficamente e a IBM afirma que é a primeira família aberta com gestão de IA certificada ISO/IEC 42001:2023. Você pode testar via watsonx.ai ou baixar checkpoints em Hugging Face, Docker Hub e outros hubs.Leia também a cobertura externa do lançamento:https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/Principais benefícios resumidos: Arquitetura híbrida que intercala atenção com camadas Mamba‑2 para reduzir uso de memória.Redução de até >70% de RAM em inferência de longo contexto e multi‑sessão (segundo a IBM).Variantes MoE que ativam poucos parâmetros efetivos para manter qualidade sem aumentar memória.Lançamento aberto com licença permissiva, artefatos assinados e gestão de IA certificada.Bom desempenho em instruction‑follow, uso de ferramentas e fluxos de recuperação, facilitando a produção. IBM lança Granite 4.0: família de LLMs híbridos para reduzir custos de inferência
  3. Principais pontos para você
  4. O que mudou no design técnico
  5. Modelos iniciais e variantes
  6. Desempenho e benchmarks
  7. Onde acessar e integrar
  8. Impacto esperado para implantação
  9. Conclusão
  10. Perguntas frequentes

Ouça este artigo


IBM lança Granite 4.0: LLMs híbridos (Mamba‑2/Transformer) para reduzir custos de inferência

Você vai conhecer o Granite 4.0 da IBM, uma família de modelos open source que substitui Transformers monolíticos por um stack híbrido Mamba‑2/Transformer. O objetivo é cortar significativamente o uso de memória em inferência sem sacrificar a qualidade, reduzindo custo de GPU e melhorando cenários de contexto longo e sessões contínuas. Os artefatos têm licença Apache‑2.0, são assinados criptograficamente e a IBM afirma que é a primeira família aberta com gestão de IA certificada ISO/IEC 42001:2023. Você pode testar via watsonx.ai ou baixar checkpoints em Hugging Face, Docker Hub e outros hubs.

Leia também a cobertura externa do lançamento:
https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/

Principais benefícios resumidos:

  • Arquitetura híbrida que intercala atenção com camadas Mamba‑2 para reduzir uso de memória.
  • Redução de até >70% de RAM em inferência de longo contexto e multi‑sessão (segundo a IBM).
  • Variantes MoE que ativam poucos parâmetros efetivos para manter qualidade sem aumentar memória.
  • Lançamento aberto com licença permissiva, artefatos assinados e gestão de IA certificada.
  • Bom desempenho em instruction‑follow, uso de ferramentas e fluxos de recuperação, facilitando a produção.

IBM lança Granite 4.0: família de LLMs híbridos para reduzir custos de inferência

A IBM liberou o Granite 4.0, uma família de modelos de linguagem open source que troca grandes Transformers monolíticos por uma arquitetura híbrida Mamba‑2/Transformer para reduzir o uso de memória em serviços de inferência. Segundo a empresa, a combinação mantém a qualidade e reduz o custo operacional. Para contextos de produção e estratégias de redução de memória, técnicas como as descritas em como escalar Transformers com menos memória usando DeepSpeed podem ser complementares às abordagens híbridas.


Principais pontos para você

  • Redução de memória: até >70% de RAM em inferência de contexto longo e sessões múltiplas (relatórios técnicos da IBM).
  • Licença e governança: modelos sob Apache‑2.0, assinados criptograficamente; gestão de IA com certificação ISO/IEC 42001:2023.
  • Disponibilidade: disponíveis em watsonx.ai e em múltiplas plataformas públicas e privadas.

O que mudou no design técnico

Entenda o novo arranjo interno:

  • A arquitetura intercala poucas camadas de self‑attention com maioria de camadas do espaço de estado Mamba‑2, numa razão aproximada de 9:1 (Mamba:attention).
  • A mistura reduz uso de memória em cenários de contexto longo e múltiplas sessões, permitindo maior rendimento com menos GPUs — uma solução que pode ser combinada com técnicas de inferência especulativa e encadeada, como as discutidas em cascatas especulativas para acelerar e baratear inferência.

Modelos iniciais e variantes

A IBM lançou quatro variantes iniciais:

Modelo Tipo Parâmetros totais (aprox.) Parâmetros ativos (aprox.)
Micro Dense 3B 3B
H‑Micro Híbrido 3B 3B
H‑Tiny MoE híbrido 7B ~1B
H‑Small MoE híbrido 32B ~9B
  • Todos os modelos têm versões Base e Instruct.
  • A IBM planeja variantes otimizadas para raciocínio (Thinking) ao longo de 2025 — iniciativas concorrentes e relatórios técnicos sobre modelos híbridos, como o relatório do Falcon H1, mostram que a comunidade vem explorando combinações híbridas similares para eficiência.

Desempenho e benchmarks

Relatórios e testes públicos indicam ganhos práticos:

  • Em benchmarks de instruction‑following e uso de ferramentas, o H‑Small aparece entre os melhores modelos open‑source, atrás apenas de modelos de escala muito maior.
  • Em tarefas de function calling e fluxos de recuperação multi‑turno, os modelos mostram resultados competitivos a custos menores — e, para pipelines de recuperação, usar embeddings eficientes também ajuda; veja o exemplo de EmbeddingGemma para buscas rápidas e privadas.
  • Versões menores superam modelos anteriores mesmo com menos parâmetros efetivos, graças ao design híbrido e MoE.

Onde acessar e integrar

Artefatos e pontos de integração:

  • watsonx.ai
  • Hugging Face (checkpoints BF16, conversões GGUF)
  • Docker Hub
  • LM Studio, NVIDIA NIM, Ollama, Replicate
  • Dell Pro AI Studio / Enterprise Hub, Kaggle, Azure AI Foundry (integrações anunciadas)

A IBM também trabalha em habilitações para vLLM, llama.cpp, NexaML e MLX para servir o modelo em arquiteturas variadas; para quem pretende rodar localmente ou em infraestrutura própria, vale conferir textos sobre modelos e práticas para execução local e as técnicas de otimização já mencionadas.

Mais detalhes e cobertura externa:
https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/


Impacto esperado para implantação

  • Para quem administra infraestrutura, a meta é reduzir a frota de GPUs necessária para cargas de contexto longo e multiusuário — abordagens de escalonamento e pausa/retomada em treinamento e inferência, como ZenFlow para eliminar paradas em treinamentos, mostram que o ecossistema está focado em eficiência end‑to‑end.
  • Checkpoints em BF16 e conversões facilitam testes locais e provas de conceito; combinar quantização e runtime otimizado reduz ainda mais memória e custo.
  • Assinatura criptográfica e cobertura ISO/IEC 42001 visam facilitar requisitos de proveniência e conformidade em ambientes corporativos.

Conclusão

O Granite 4.0 da IBM é uma aposta prática: troca a armadura pesada dos Transformers monolíticos por um stack híbrido Mamba‑2/Transformer que corta memória e, com isso, reduz custos de GPU — às vezes em >70%. Para quem gerencia infraestrutura ou leva modelos à produção, isso significa mais contexto, mais sessões e menos gasto. Modelos com licença Apache‑2.0, artefatos assinados e cobertura ISO/IEC 42001 ajudam na conformidade corporativa. Em resumo: menos memória, custos menores e pronto para produção.

Como leitura complementar sobre trade‑offs de eficiência e modelos econômicos, considere artigos sobre otimização e modelos compactos, por exemplo soluções que reduzem tokens e aceleram pipelines ou modelos econômicos para empresas.

Se quiser leitura adicional e análises, veja também:
https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/


Perguntas frequentes

  • O que é o Granite 4.0?
    É uma família de LLMs open‑source da IBM que usa uma pilha híbrida Mamba‑2 Transformer para reduzir memória, com variantes Base e Instruct (do Micro 3B ao H‑Small 32B MoE).
  • Como a arquitetura híbrida reduz memória e custo?
    Intercala cerca de 9 camadas Mamba‑2 para cada camada de atenção, reduzindo RAM em mais de 70% em inferência longa e multi‑sessão. Menos memória = menos GPUs e menor custo, sem perda visível de qualidade.
  • Quais formatos e onde encontro os modelos?
    Checkpoints BF16 no Hugging Face; conversões GGUF e opções FP8 para hardware compatível. Disponíveis via watsonx.ai, Docker Hub, Hugging Face, LM Studio, NVIDIA NIM, Ollama, Replicate, Dell, Kaggle e Azure AI Foundry.
  • É seguro e pronto para uso empresarial?
    Sim. Licença Apache‑2.0, artefatos assinados criptograficamente e cobertura por sistema AIMS acreditado ISO/IEC 42001:2023, o que facilita conformidade e auditoria.
  • Qual modelo escolher para meu projeto?
  • Uso leve/local: Micro 3B (denso).
  • Menor memória com boa qualidade: H‑Micro 3B.
  • Eficiência em RAG e multi‑turn: H‑Tiny 7B MoE (~1B ativos).
  • Melhor para instruction/tool‑use: H‑Small 32B MoE (~9B ativos).
    Variantes de raciocínio chegam em 2025.

Referências e leitura adicional:

  • Cobertura externa do lançamento: https://www.marktechpost.com/2025/10/02/ibm-released-new-granite-4-0-models-with-a-novel-hybrid-mamba-2-transformer-architecture-drastically-reducing-memory-use-without-sacrificing-performance/
  • Blog da Aidirectory: https://blog.aidirectory.com.br

Se você quiser conhecer outros artigos semelhantes a IBM lança Granite quatro com arquitetura híbrida Mamba dois e Transformer que reduz memória sem perder desempenho e ajuda você a cortar custos, você pode visitar a categoria Notícias e Tendências.

Go up