sobregrupos de trabalhoeventos
publicações
notíciasrevistaswhitepaperscanal abranetmídia
contato
  • Fone (11) 3078-3866
  • WhatsApp +55 11 94528-2739
  • E-mail sec@abranet.org.br
Rua MMDC, 450, cj 304, Butantã, São Paulo-SP, 05510-000
Conheça nosso podcast Pensai!
#005 - Marketing e IA: conversa com Thiago Gonçalves, Country Manager da Blip México
#005 - Marketing e IA: conversa com Thiago Gonçalves, Country Manager ...
01h00/30 abr 2025
/
YouTubeSpotifyInstagram
Copyright © 2014 - 2025
Abranet - Associação Brasileira de Internet
Produzido e gerenciado por Editora Convergência Digital / Site criado pela SENNO
  1. home
  2. publicações
  3. notícias
  4. AI Index 2025: A corrida pela IA já não é por capacidade, e sim por controle

AI Index 2025: A corrida pela IA já não é por capacidade, e sim por controle

14 de abril de 2025

por Cristina De Luca

AI Index 2025: A corrida pela IA já não é por capacidade, e sim por controle

O uso de IA de nível GPT-3.5 ficou 280 vezes mais barato em apenas 18 meses. Modelos pequenos estão vencendo – Phi-3-mini (parâmetros 3.8B) agora corresponde aos modelos 540B de 2022. O hardware ficou 40% mais eficiente em um ano (o uso de energia, nem tanto). O desempenho dos modelos disparou em benchmarks rígidos como o SWE-bench (de 4,4% para 71,7%). A adoção aumentou (78% das empresas agora, contra 55% em 2023). E a maioria relata ganhos de custo/receita de cerca de 10%, especialmente em Marketing, Operações e Cadeia de Suprimentos.

Em resumo, as mais de 450 páginas do relatório “AI Index 2025”, da HAI, de Stanford, mostra que a IA está se tornando invisível, incorporada em tudo. Que o poder está mudando para aqueles que a implementam, não apenas para aqueles que a inventam. E que a corrida silenciosa agora é por controle, não por capacidade.

Cada capítulo (são oito, no total) tem conteúdo para horas de discussão. O que o torna leitura obrigatória para todos que desejam se manter atualizados e se aprofundar nos principais temas da evolução da IA. Em vez de tentar espremer tudo em um post, vamos nos aprofundar no que mais importa para o ambiente de negócios.

Parte inferior do formulário

• Investimento. Foram US$ 252 bilhões em 2024. EUA lideraram com US$ 109 bilhões – 12 vezes mais que a China.

• Geopolítica. Os EUA continuam sendo os líderes nos principais modelos de IA, mas a China está se recuperando rapidamente, dominando a pesquisa e as patentes. Novos players da América Latina, Sudeste Asiático e Oriente Médio estão deixando sua marca com modelos competitivos.

• Formação. O ensino de IA e Ciência da Computação está se expandindo, mas ainda há lacunas no acesso e na preparação. Dois terços dos países agora oferecem ou planejam oferecer educação em Ciência da Computação do Ensino Fundamental ao Médio – o dobro de 2019 – com a África e a América Latina fazendo o maior progresso.

• Brasil. Tem uma das maiores taxas relativas de crescimento anual na contratação de talentos em IA. E registra um crescimento percentual expressivo (217%) na concentração de talentos. É reconhecido como um dos principais países na formação de graduados em Tecnologias da Informação e Comunicação (TIC).

• Regulamentação. Em 2024, as agências federais dos EUA introduziram 59 regulamentações relacionadas à IA – mais que o dobro do número em 2023 – e emitidas por duas vezes mais agências. Globalmente, as menções legislativas à IA aumentaram 21,3% em 75 países.

• Desempenho. A escala dos modelos continua a crescer rapidamente – a computação de treinamento dobra a cada cinco meses, os conjuntos de dados a cada oito e o uso de energia anualmente. Mas as lacunas de desempenho estão diminuindo: a diferença de pontuação entre os modelos mais bem classificados e os 10º colocados caiu de 11,9% para 5,4% em um ano, e os dois primeiros agora estão separados por apenas 0,7%. A fronteira está cada vez mais competitiva – e cada vez mais lotada.

• Aberto X Fechado. Os modelos de código fechado ainda lideram em desempenho, mas os modelos abertos estão ganhando terreno e aumentando a acessibilidade. A diferença de desempenho caiu de 8% para apenas 1,7% em alguns benchmarks, em um ano.

• Custo de treinamento. O AI Index não tem dados precisos, porque muitas das principais empresas de IA pararam de divulgar informações sobre seus treinamentos. Mas os pesquisadores fizeram uma parceria com a Epoch AI para estimar os custos de pelo menos alguns modelos com base nos detalhes obtidos sobre a duração do treinamento, o tipo e a quantidade de hardware, entre outros. O modelo mais caro para o qual eles conseguiram estimar os custos foi o Gemini 1.0 Ultra do Google, com um custo impressionante de cerca de US$ 192 milhões. O aumento geral dos custos de treinamento coincidiu com outras descobertas do relatório: os modelos também continuam a aumentar o número de parâmetros, o tempo de treinamento e a quantidade de dados de treinamento.

• Custo de uso. Os custos de hardware estão diminuindo, o desempenho do hardware está aumentando e a eficiência energética está aumentando. Isso significa que os custos de inferência, ou a despesa de consultar um modelo treinado, estão caindo drasticamente.  Dependendo da tarefa, os preços de inferência LLM caíram de 9 a 900 vezes por ano. O custo de consultar um modelo de IA que pontua o equivalente a GPT-3.5 (64,8% de precisão) no MMLU caiu de US$ 20 por milhão de tokens em novembro de 2022 para apenas US$ 0,07 por milhão de tokens em outubro de 2024 (Gemini-1.5-Flash-8B) – uma redução de mais de 280 vezes em aproximadamente 18 meses.

• Raciocínio. Aquele mais complexo continua sendo um desafio. Sistemas baseados em aprendizagem que geram e verificam hipóteses usando métodos simbólicos têm um bom desempenho – embora não sobre-humano – em tarefas como problemas da Olimpíada Internacional de Matemática. Os LLMs, no entanto, ainda ficam para trás em benchmarks de raciocínio complexos como MMMU e lutam para resolver de forma confiável tarefas pesadas em lógica, como Aritmética e Planejamento, mesmo quando soluções corretas são comprováveis. Isso limita seu uso em cenários de alto risco e precisão crítica.

• Agentes. Cada dia mais úteis. Em cenários com horizonte temporal curto (duas horas), os principais sistemas de IA pontuam quatro vezes mais que os especialistas humanos, mas quando recebem mais tempo para realizar uma tarefa, os humanos têm um desempenho melhor do que a IA – superando-a em 2 para 1, com 32 horas. Ainda assim, os agentes de IA já se equiparam à perícia humana em tarefas selecionadas, como escrever tipos específicos de código, ao mesmo tempo em que entregam resultados.

• IA Responsável (RAI). Evolui de forma desigual. Os incidentes relacionados à IA estão aumentando acentuadamente, mas as avaliações de RAI padronizadas continuam raras entre os principais desenvolvedores de modelos industriais. Enquanto as empresas ficam para trás em ação, os reguladores globais estão se esforçando. Muitos países agora têm institutos de segurança de IA ativos (ou órgãos equivalentes), incluindo os EUA, o Reino Unido, o Japão e a União Europeia (UE). Em 2024 surgiram novas estruturas da OCDE, UE, ONU e União Africana, enfatizando transparência e confiança.

• Impacto ambiental. Embora a eficiência energética seja uma tendência positiva, o consumo geral de energia está aumentando, o que significa que os data centers no centro do boom da IA ainda têm uma enorme pegada de carbono. O AI Index estimou as emissões de carbono de modelos de IA selecionados com base em fatores como hardware de treinamento, provedor de nuvem e localização, e descobriu que as emissões de carbono do treinamento de modelos de IA de ponta aumentaram constantemente ao longo do tempo, sendo o DeepSeek o mais discrepante, e a família Llama, da Meta, a grande vilã.

Nestor Maslej, gerente de pesquisa do HAI e um dos coordenadores do AI Index, comentou algumas das conclusões da edição deste ano.

Na sua opinião, os principais desenvolvimentos em modelos de IA em 2024 foram os modelos de raciocínio aprimorado e com capacidades multimodais. “Mas particularmente notável é o surgimento de modelos menores que oferecem desempenho impressionante”, diz ele. “Vimos uma redução drástica na contagem de parâmetros, mantendo o desempenho — do PaLM com 540 bilhões de parâmetros em maio de 2022 para o Phi-3 Mini com apenas 4 bilhões de parâmetros em maio de 2024, enquanto ainda alcançava acima de 60% no benchmark MMLU. À medida que essas capacidades técnicas amadurecem, o campo está mudando de buscar puramente o avanço tecnológico para se concentrar na integração prática dessas ferramentas poderosas em fluxos de trabalho de negócios.”

A tendência clara é que os modelos estão ficando menores, mas mantendo altos níveis de desempenho, o que entusiasma muitas empresas devido às potenciais economias de custos e ganhos de eficiência. Mas um grande desafio segue sendo a criação de interfaces e fluxos de trabalho que tornem a IA realmente útil para empresas, além dos chatbots.

Outras duas tendências significativas, na sua opinião? “Os modelos de peso aberto estão muito mais fortes do que há um ano. De acordo com o Chatbot Arena, a lacuna entre o melhor modelo de peso fechado e o melhor modelo de peso aberto diminuiu de cerca de 8 pontos percentuais em janeiro de 2024 para apenas 2% em fevereiro de 2025.  E o ecossistema está se tornando mais transparente. Embora, de acordo com o Stanford’s Foundation Model Transparency Index, ainda haja espaço significativo para melhorias, com muitos provedores não divulgando totalmente os detalhes sobre o desenvolvimento de seus modelos e métodos de treinamento.

Maslej ressalta que o cenário competitivo se estreitou consideravelmente.  Há um ano, modelos proprietários da OpenAI, Anthropic e Google tinham uma clara vantagem de desempenho. Agora, novos modelos como Llama 3, DeepSeek e Qwen (do Alibaba) fecharam essa lacuna. “Temos um ecossistema altamente competitivo com 4-5 desenvolvedores, todos lançando modelos capazes que pontuam de forma semelhante em benchmarks. Essa mudança transforma modelos abertos em uma opção muito mais viável e competitiva para empresas que buscam construir aplicativos de IA”, diz ele.

Os benchmarks que eram considerados desafiadores em 2023 tiveram um progresso notável, com aumentos de desempenho de 20-60 pontos percentuais em apenas um ano. “À medida que os modelos saturam os benchmarks existentes, os pesquisadores desenvolvem continuamente novos desafios”, explica Maslej. Por exemplo, a ARC lançou recentemente um novo benchmark que ainda desafia os sistemas, e a Epoch AI lançou o “Frontier Math”, um benchmark matemático complexo com o qual até mesmo sistemas de alta qualidade têm dificuldade. “Em uma reviravolta humorística, os pesquisadores até lançaram um benchmark apelidado de ‘Último Exame da Humanidade’ – sugerindo de forma brincalhona que pode ser o teste acadêmico final necessário para avaliar os sistemas de IA”, comenta o pesquisador. Este ciclo contínuo, na sua opinião, ilustra o ritmo rápido do avanço da IA ​​e os padrões em evolução para avaliação de desempenho.

Importante: há uma crescente desconexão entre benchmarks acadêmicos e aplicações do mundo real. Os melhores sistemas de IA agora superam os humanos em muitos testes acadêmicos, mas tarefas do mundo real continuam desafiadoras para capturar em benchmarks organizados. Para as empresas, saber que um modelo pontua 97% em questões de matemática do oitavo ano é menos relevante do que entender como ele se sai em tarefas comerciais específicas. Os profissionais devem avaliar os modelos com base em suas necessidades e restrições comerciais específicas, considerando fatores como precisão, velocidade, latência e custo — em vez de depender apenas de tabelas de classificação de benchmark.

Sobre a viabilidade econômica de uso de modelos de raciocínio avançado, na opinião de Maslej as empresas precisam conduzir modelagem financeira para determinar se o valor derivado justifica o custo. Por exemplo, um assistente de codificação pode consumir computação significativa para resolver tickets do JIRA, mas a questão-chave é se a saída é tão boa e mais barata do que a de um desenvolvedor júnior. “Ferramentas de análise de IA podem auxiliar analistas, mas podem não substituir completamente seu julgamento”, diz ele. A consideração crítica é se os modelos economizam tempo suficiente ou criam valor suficiente para justificar seu custo. O “melhor” modelo para uma empresa não é necessariamente o de melhor desempenho geral, mas aquele que atende com mais eficácia a requisitos operacionais específicos.

A questão-chave agora não é sobre o avanço da tecnologia, mas sobre como as empresas integrarão efetivamente essas ferramentas para gerar valor. O desafio é encontrar fluxos de trabalho específicos onde a IA pode fornecer benefícios claros que justifiquem a implementação.

• Como faz todos os anos, o IEEE Spectrum também selecionou os pontos do AI Index que, na opinião dos seus técnicos, contam a verdadeira história da IA no momento. Confira a íntegra do estudo em https://spectrum.ieee.org/ai-index-2025

 

Conteúdo originalmente produzido e publicado por The Shift. Reprodução autorizada exclusivamente para a Abranet. A reprodução por terceiros, parcial ou integral, não é permitida sem autorização.

leia

também

  • Drex, a moeda digital nacional, teve 500 operações de 11 instituições em 50 dias de piloto

    Drex, a moeda digital nacional, teve 500 operações de 11 instituições em 50 dias de piloto

    13 de setembro de 2023 | Redação da Abranet

    O Banco Central (BC) informou que, em 50 dias de projeto piloto, 500 transações foram bem sucedidas no Drex, a moeda digital brasileira, e 11 instituições operam na rede. Segundo a autoridade monetária, os participantes do programa começaram a ser incorporados à plataforma no fim de julho. De lá para cá, vários tipos de operações têm sido simuladas, tanto no atacado quanto no varejo, disse o BC. De acordo com a autarquia, a primeira emissão de títulos públicos federais na plataforma Drex para fins de simulação foi realizada nessa segunda-feira (11). Cada um dos participantes já habilitados recebeu uma cota da versão para simulação dos títulos públicos e, a partir de então, podem iniciar também a simulação de procedimentos de compra e venda desses títulos entre eles e entres clientes simulados, afirmou. Vários tipos de operações têm sido simuladas tanto no atacado quanto no varejo – como criação de carteiras, emissão e destruição de Drex e transferências simuladas entre bancos e entre clientes. Todos os participantes conectados já realizaram ao menos alguns desses tipos de transações, sendo que cerca de 500 operações foram conduzidas com sucesso. A primeira fase do piloto deve ser encerrada no meio de 2024, com o desenvolvimento ainda de outras facilidades na fase seguinte. A cada semana, um tipo novo de operação é realizado pelas instituições participantes. Todas essas transações são apenas simuladas e se destinam ao teste de infraestrutura básica do Drex, que ainda não conta com a soluções de proteção à privacidade que serão testadas ao longo do Piloto Drex, ressaltou o BC.

    ler mais
  • BC publica cronograma para testes do Pix Automático

    BC publica cronograma para testes do Pix Automático

    04 de setembro de 2024 | Da Redação Abranet

    O Departamento de Competição e de Estrutura do Mercado Financeiro do Banco Central publicou nesta quarta, 4/9, uma nova instrução normativa que trata de diferentes aspectos da adesão ao Pix, além de prever a oferta de produtos e serviços adicionais ou facultativos. A norma trata de como os interessados, tenham já ou não autorização do BC para operar, devem fazer para aderirem ao sistema de pagamento instantâneo, as diversas etapas do processo e exigências para a formalização, como o projeto de experiencia do usuário, uso de QR Codes, etc. A autoridade monetária também trata de como instituições autorizadas a funcionar podem oferecer serviços adicionais, se habilitar ao Diretório de Identificadores de Contas Transacionais – DICT, ou serviços de iniciação de pagamentos, saque, por exemplo. Prevê, ainda, que uma instituição já participante do Pix, ou em processo de adesão, poderá apresentar, a qualquer tempo, pedido para ofertar ou consumir funcionalidades, de natureza facultativa, relacionadas ao Pix Automático. Além disso, a IN 511 traz um cronograma relacionado aos testes do Pix Automático: I – instituições que concluíram a etapa homologatória do processo de adesão ao Pix antes de 28 de abril de 2025, inclusive instituições participantes em operação, devem realizar com sucesso os testes entre 28 de abril de 2025 e 6 de junho de 2025; II – instituições que concluíram a etapa homologatória do processo de adesão ao Pix entre 28 de abril de 2025 e 6 de junho de 2025 devem realizar com sucesso os testes no prazo de oito semanas contadas a partir da conclusão com sucesso da etapa homologatória pertinente; III – instituições que não concluírem a etapa homologatória do processo de adesão ao Pix até 6 de junho de 2025 devem concluir os testes do Pix Automático dentro do prazo determinado para a conclusão com sucesso dessa etapa; e IV – instituições participantes em operação que ofertem conta apenas a usuários pessoa jurídica e optem por não ofertar pagamentos via Pix Automático devem encaminhar formulário cadastral indicando dispensa da oferta de Pix Automático até 4 de abril de 2025. Instituições participantes do Pix que estejam obrigadas a ofertar serviços do Pix Automático ou que, de forma facultativa, enviem até 4 de abril de 2025 formulário de atualização cadastral indicando a intenção de oferta de serviços do Pix Automático, devem cumprir os testes entre 28 de abril de 2025 e 6 de junho de 2025.

    ler mais
  • Comitê que vai definir futuro da internet tem dois brasileiros

    Comitê que vai definir futuro da internet tem dois brasileiros

    15 de julho de 2014 | Roberta Prescott

    Passado o evento NetMundial, agora representantes de grupos setoriais trabalham juntos para formar comitê que vai elaborar uma proposta para nortear a migração dos trabalhos da Iana, sigla em inglês para Autoridade para Designação de Números da Internet, para, ao que tudo indica, uma entidade multissetorial.; A IANA é um departamento da ICANN (em português, Corporação da Internet para Atribuição de Nomes e Números), cujo controle, até agora, é exercido pela NTIA, agência dos EUA responsável por aconselhar o presidente nos assuntos envolvendo políticas de telecomunicações e de informação.; O atual contrato do governo dos Estados Unidos com a ICANN para gerenciar as funções técnicas de DNS expira em 30 de setembro de 2015, podendo ser estendido por até quatro anos, se a comunidade precisar de mais tempo para desenvolver a proposta de transição. Desde que os Estados Unidos anunciaram sua saída, entidades do mundo todo vêm se organizando para debater como será a feita a transição e quem ficará na coordenação.; Durante o NetMundial, realizado entre 23 e 24 de abril, em São Paulo, o governo dos Estados Unidos se opôs a um modelo multilateral, apontando, entre as condicionantes para a transição, que apoiam o modelo multissetorial (multistakeholder). Os EUA também deixaram claro que não vão aceitar uma proposta de transição que substitua o papel NTIA com uma solução conduzida por algum governo ou uma solução intergovernamental.; O NetMundial foi aclamado por seus participantes por indicar uma série de princípios que devem reger a internet, como a neutralidade de rede, a liberdade de expressão e o direito de acesso. A consolidação destes princípios foi o grande legado, como explicou para a Abranet Vanda Scartezini, representante para a América Latina da ONG PIR. ; ; Cada um dos grupos dos stakeholders, líderes dos principais setores da cada sociedade interessados no tema, elege os participantes que integrarão o comitê, sempre visando ao caráter técnico e não político. No total, cerca de 30 pessoas integrarão o comitê de trabalho cujo objetivo é apresentar uma proposta do que poderia substituir o controle que hoje é da NTIA. Dois brasileiros fazem parte deste comitê: Demi Getschko, do Núcleo de Informação e Coordenação do Ponto BR (NIC.br), e Hartmut Richard Glaser, secretário-executivo do Comitê Gestor da Internet no Brasil – CGI.br.; A expectativa, explica Vanda Scartezini, é ter alguma proposta no próximo encontro da ICANN, em outubro em Los Angeles. Despois disto, as ideias vão para consulta pública, quando recebem críticas e sugestões, que são compiladas e analisadas. “Esta é a primeira fase de trabalhos. Como é um grupo grande, imagino que eles devam se dividir em subgrupos”, comenta. ; ;

    ler mais