Watsonx uma IA para os seus negócios
Com todo o alvoroço em torno do #ChatGPT, admito que me vi completamente fascinado pelo #GenerativeAI, assim como muitos outros. Não se fala em outra coisa além do ChatGPT. Esses chatbots são baseados em regras, enquanto os chatbots de IA generativa estão em alta no momento. Temos, portanto, dois tipos principais: chatbots de IA generativa e chatbots baseados em regras. Mas qual é a diferença entre eles?
Os chatbots de IA generativa utilizam Modelos de Linguagem de Grande Escala (LLMs), treinados em um vasto conjunto de dados que inclui bilhões de palavras, frases e sentenças, para gerar respostas com base nas informações fornecidas pelos usuários. Esses modelos se beneficiam de Modelos de Aprendizado Profundo e Modelos de Linguagem Natural, permitindo que compreendam e gerem respostas semelhantes às humanas.
Por outro lado, os chatbots baseados em regras seguem regras pré-determinadas. Eles utilizam essas regras para produzir respostas com base nas informações recebidas dos usuários, essencialmente empregando uma sequência de declarações “se-então” para avaliar a presença de um conjunto de palavras-chave e responder de acordo com essas condições.
A grande questão surge quando consideramos a falha principal: não sabemos quais conjuntos de dados foram usados para treinar esses modelos, nem de onde vêm essas informações. Isso torna extremamente difícil utilizá-los em um ambiente de negócios, pois não há garantia de que as respostas sejam de fato precisas, imparciais e livres de conteúdo tóxico.
Com o watsonx.ai, você pode construir um modelo de linguagem de IA generativo para sua empresa, semelhante ao ChatGPT, mas com uma diferença crucial: você tem controle total e transparência sobre os conjuntos de dados utilizados. Com o watsonx, é possível selecionar cuidadosamente os dados, remover conjuntos problemáticos e aplicar filtros de ódio e palavrões baseados em IA para garantir que os resultados e mensagens de IA sejam confiáveis e seguras.
Armand Ruiz, da IBM, compartilhou algumas informações interessantes em uma postagem recente:
Na IBM, selecionamos 6,48 TB de dados para treinar nosso LLM Granite.13B, que foram reduzidos para 2,07 TB após o pré-processamento, uma redução de 68%. Esta etapa foi essencial para garantir um conjunto de dados de alta qualidade, imparcial, ético e legal para treinar nossos modelos para casos de uso corporativos.
A próxima pergunta é: como saber se os resultados da GenAI são confiáveis? E como podemos aproveitar o watsonx.ai para aprender mais sobre nossa nova IA generativa confiável?
Armand explica:
“Depois que os dados são limpos e baixados, eles são preparados para o treinamento do modelo por meio de uma série de etapas conhecidas coletivamente como pipeline de pré-processamento.”
Essas etapas incluem:
- Extração de texto
- Desduplicação
- Identificação de idioma
- Divisão de frases
- Anotação de ódio, abuso e palavrões
- Anotação de qualidade de documento
- Anotação de bloqueio de URL
- Filtragem
- Tokenização
Algumas dessas etapas seguem um padrão de anotação/filtragem, onde documentos ou frases são anotados e depois filtrados com base em limites definidos durante a tarefa de filtragem.
É assim que construímos soluções confiáveis de LLMs para seu negócio. Parabéns à equipe de Pesquisa IBM por continuar inovando e criando modelos excepcionais para nossos clientes.
Referências – Armand Ruiz da IBM
Fontes de dados usadas para treinar o Granite LLM.13B:
- arXiv: Mais de 1,8 milhão de pré-impressões de artigos científicos postadas no arXiv.
- Common Crawl: Repositório aberto de dados de rastreamento da web.
- DeepMind Mathematics: Dados de pares de perguntas e respostas matemáticas.
- Free Law: Opiniões jurídicas de domínio público de tribunais federais e estaduais dos EUA.
- GitHub Clean: Dados de código do CodeParrot cobrindo uma variedade de linguagens de codificação.
- Hacker News: Notícias sobre ciência da computação e empreendedorismo, publicadas entre 2007–2018.
- OpenWeb Text: Versão de código aberto do corpus de texto da Web da OpenAI contendo páginas da web até 2019.
- Project Gutenberg (PG-19): Repositório de e-books gratuitos focado em obras mais antigas cujos direitos autorais nos EUA expiraram.
- PubMed Central: Artigos biomédicos e de ciências biológicas.
- SEC Filings: Registros 10-K/Q da Securities and Exchange Commission (SEC) dos EUA para os anos 1934–2022.
- Stack Exchange: Conjunto anonimizado de todo o conteúdo contribuído por usuários na rede Stack Exchange.
- USPTO: Patentes dos EUA concedidas de 1975 a maio de 2023, excluindo patentes de design.
- Webhose: Conteúdo da web não estruturado convertido em feeds de dados legíveis por máquina adquiridos pela IBM.
- Wikimedia: Oito projetos Wikimedia em inglês, contendo texto simples extraído de páginas e artigos.