Na última Conferência de IA, tivemos a oportunidade de conversar com Roman Shaposhnik e Tanya Dadasheva, os cofundadores da Ainekko/AIFoundry, e discutir com eles um tópico ambíguo sobre o valor dos dados para empresas na época da IA. Uma das principais questões com as quais partimos foi: a maioria das empresas está executando os mesmos modelos de IA de ponta, será a incorporação de seus dados a única maneira de se diferenciarem? Os dados são realmente um fosso para as empresas?
Roman lembra: “Em 2009, quando ele começou na comunidade de big data, todos falavam sobre como as empresas se transformariam ao aproveitar os dados. Naquela época, nem eram empresas digitais; a transformação digital ainda não havia ocorrido. Eram, na sua maioria, empresas analógicas, mas já estavam a enfatizar o valor dos dados que recolhiam – dados sobre os seus clientes, transações, cadeias de abastecimento e muito mais. As pessoas compararam os dados ao petróleo, algo com valor inerente que precisava de ser extraído para concretizar o seu verdadeiro potencial.”
No entanto, o petróleo é uma commodity. Assim, se compararmos os dados com o petróleo, isso sugere que todos têm acesso aos mesmos dados, embora em quantidades diferentes e mais fáceis de colher para alguns. Esta comparação faz com que os dados pareçam uma mercadoria, disponível para todos, mas processados de diferentes maneiras.
Quando os dados ficam em um data warehouse corporativo em sua forma bruta, eles são como uma bolha amorfa – uma mercadoria que todos possuem. No entanto, uma vez que você começa a refiná-lo, é aí que o valor real entra. Não se trata apenas de adquirir dados, mas de construir um processo desde a extração até o refinamento de todo o valor através do pipeline.
“Curiosamente, isto me lembra algo que um executivo de uma empresa petrolífera me disse uma vez”- compartilha Roman. “Esse executivo descreveu o negócio não como a extração de petróleo, mas como a reconfiguração de moléculas de carbono. O petróleo, para eles, era apenas uma fonte de carbono. Tinham construído cadeias de abastecimento capazes de reconfigurar estas moléculas de carbono em produtos adaptados às exigências do mercado em diferentes locais – plásticos, gasolina, qualquer que fosse a necessidade. Ele imaginou refinarias definidas por software que poderiam adaptar os resultados com base nas necessidades do mercado em tempo real. Esse conceito me surpreendeu e acho que é paralelo ao que estamos vendo nos dados agora: trazer a computação para os dados, refinando-os para obter o que você precisa, onde você precisa.”- foi a visão de Roman.
Nas empresas, quando você começa a coletar dados, percebe que eles estão fragmentados e em muitos lugares, às vezes presos em mainframes ou espalhados por sistemas como o Salesforce. Mesmo que você consiga coletá-lo, há muitos silos e precisamos de uma abordagem semelhante ao fracking para extrair as peças valiosas. Assim como o fracking extrai petróleo de locais anteriormente inacessíveis, precisamos de métodos para obter dados empresariais que, de outra forma, estariam trancados.
Muitos dados corporativos ainda residem em mainframes e retirá-los é um desafio. Aqui está uma curiosidade: com alta probabilidade, se você reservar um voo hoje, o back-end ainda atingirá um mainframe. Não se trata apenas de extrair esses dados uma vez; você precisa de acesso contínuo a ele. Muitas empresas estão ajudando empresas a extrair dados de sistemas antigos, e ferramentas como o Apache Airflow estão ajudando a simplificar esses processos.
Mas mesmo que os dados não estejam mais presos em mainframes, eles ainda estarão fragmentados em sistemas como serviços SaaS em nuvem ou data lakes. Isso significa que as empresas não têm todos os seus dados em um só lugar e certamente não são tão acessíveis ou oportunos quanto necessitam. Você pode pensar que começar do zero lhe daria uma vantagem, mas mesmo os sistemas mais novos dependem de vários parceiros, e esses parceiros controlam partes dos dados de que você precisa.
Toda a noção de dados como um fosso revela-se então enganosa. Conceitualmente, as empresas são proprietárias dos seus dados, mas muitas vezes não têm acesso real. Por exemplo, uma empresa que usa o Salesforce possui os dados, mas o controle e o acesso reais a esses dados são limitados pelo Salesforce. A distinção entre possuir e ter dados é significativa.
“As coisas ficam ainda mais complicadas quando a IA começa a se envolver”- diz Tanya Dadasheva, outra cofundadora da AInekko e AIFoundry.org. “Uma empresa pode possuir dados, mas isso não significa necessariamente que uma empresa como a Salesforce possa usá-los para treinar modelos. Há também o debate sobre se dados anonimizados podem ser usados para treinamento – legalmente, é uma área cinzenta. Em geral, quanto mais os dados são anonimizados, menor valor eles possuem. Em algum momento, obter permissão explícita se torna o único caminho a seguir”.
Esta questão de propriedade vai além das empresas; também afeta os usuários finais. Os usuários geralmente concordam em compartilhar dados, mas podem não concordar em usá-los em modelos de treinamento. Houve casos de engenharia reversa de dados de modelos, levando a possíveis violações de privacidade.
Numa fase inicial de equilíbrio entre produtores de dados, consumidores de dados e entidades que refinam os dados, é extremamente complexo, do ponto de vista jurídico e tecnológico, descobrir como funcionarão estas relações. A Europa, por exemplo, tem regras de privacidade muito mais rigorosas em comparação com os Estados Unidos (https://artificialintelligenceact.eu/). Nos EUA, o sistema jurídico muitas vezes resolve as coisas em movimento, enquanto a Europa prefere estabelecer leis antecipadamente.
Tanya aborda a disponibilidade de dados aqui: “Tudo isso está relacionado ao valor dos dados disponíveis. Os enormes modelos de linguagem que construímos tornaram-se impressionantes graças aos dados públicos e semipúblicos. No entanto, grande parte do conteúdo mais recente está agora preso em “jardins murados” como WeChat, Telegram ou Discord, onde é inacessível para treinamento – a verdadeira dark web! Isto significa que os modelos podem ficar desatualizados, incapazes de aprender com novos dados ou compreender novas tendências.
No final, corremos o risco de criar modelos que ficam presos ao passado, sem forma de absorver novas informações ou de se adaptar a novos estilos de conversação. Eles ainda conterão dados mais antigos e o comportamento e a cultura da nova geração não serão representados. Será como conversar com um avô – interessante, mas definitivamente de outra época.”
Mas quem são os usuários internos dos dados de uma empresa? Roman relembra as três épocas do conceito de utilização de dados nas empresas: “Obviamente, é usado para muitas decisões, por isso existe toda a parte de business intelligence. Na verdade, tudo começou com inteligência de negócios. As empresas tiveram de fazer previsões e sinalizar aos mercados bolsistas o que esperam que aconteça no próximo trimestre ou nos próximos trimestres. Muitas dessas decisões foram baseadas em dados há muito tempo. Esse é o primeiro nível de uso de dados – muito simples e orientado para os negócios.
O segundo nível começou com a noção de empresas definidas digitalmente ou transformação digital. As empresas perceberam que a maneira como interagem com seus clientes é o que tem valor, e não necessariamente o produto real que estão vendendo no momento. O relacionamento com o cliente é o valor em si. Eles queriam que esse relacionamento durasse o máximo possível, às vezes ao extremo de mantê-lo grudado na tela pelo maior tempo possível. Trata-se de moldar o comportamento do consumidor e forçá-lo a fazer certas coisas. Isso só pode ser feito analisando muitas coisas diferentes sobre você – seu status social e econômico, sua identidade de gênero e outros dados que lhes permitem manter esse relacionamento pelo maior tempo possível.
Agora chegamos ao terceiro nível ou terceiro estágio de como as empresas podem se beneficiar dos produtos de dados. Toda a gente fala destes sistemas de agência porque as empresas querem agora ser ajudadas não apenas pela força de trabalho humana. Embora pareça futurista, muitas vezes é tão simples quanto descobrir quando uma reunião deve acontecer. Sempre estivemos em situações em que são necessários cinco e-mails diferentes e três ligações para descobrir como duas pessoas podem se encontrar para almoçar. Seria muito mais fácil se um agente eletrônico pudesse negociar tudo isso para nós e ajudar nisso. Esse é um exemplo simples, mas as empresas têm muitos outros. Agora trata-se de externalizar certos lados da empresa para esses agentes. Isso só pode ser feito se você puder treinar um agente de IA em muitos tipos de padrões que a empresa utilizou no passado.”
Voltando a quem coleta e quem possui e, eventualmente, se beneficia dos dados: o primeiro vislumbre que Roman teve ao trabalhar na Pivotal em alguns projetos que envolviam companhias aéreas e empresas que fabricam motores:
“O que eu não sabia na época é que aparentemente você não compra o motor; você aluga o motor. Esse é o modelo de negócios. E as empresas que produziam os motores tinham todos esses dados – toda a telemetria necessária para otimizar o motor. Mas então a companhia aérea disse: “Espere um minuto. São exatamente os mesmos dados de que precisamos para otimizar as rotas de voo. E somos nós que coletamos esses dados para você porque realmente pilotamos o avião. Seu motor permanece no solo até que haja um piloto na cabine que realmente pilote o avião. Então, quem lucra com os dados? Já estamos pagando caro demais para o pessoal dos motores fazer a manutenção desses motores. Então agora você está nos dizendo que forneceremos os dados gratuitamente? Não, não, não.
Todo este argumento é realmente convincente porque é exatamente isso que se repete agora entre a OpenAI e todas as grandes empresas. As grandes empresas acham que o OpenAI é incrível; eles podem construir este chatbot em minutos – isso é ótimo. Mas eles podem realmente enviar para o OpenAI os dados necessários para o ajuste fino e todas essas outras coisas? E, em segundo lugar, suponhamos que essas empresas consigam. Suponhamos que seja o tipo de dados que está bem, mas são os dados deles – recolhidos por essas empresas. Certamente vale alguma coisa para a OpenAI, então por que eles não descartam a conta do lado da inferência para as empresas que a cobraram?
E aqui entra em ação a principal questão do mundo dos dados de hoje: Será que o mesmo acontece com a IA?
De certa forma, é, mas com nuances importantes. Se pudermos ter um futuro onde o “motor” central de um avião, o modelo, seja produzido por estas empresas maiores, e depois as empresas aproveitem os seus dados para afinar ou aumentar estes modelos, então haverá uma coexistência muito harmoniosa de uma coisa realmente complexa e ainda por cima algo mais especializado, talvez menos complexo. Se isso acontecer e se tornar bem sucedido tecnologicamente, então será uma conversa muito mais fácil a nível económico e político sobre o que pertence a quem e como dividimos os conjuntos de dados.
Como exemplo, Roman cita sua conversa com um especialista que ganha a vida projetando carros: “Ele disse que existem basicamente dois tipos de projetistas de automóveis: um que projeta um carro para um motor e outro que projeta um carro e depois compra um motor. Se você está produzindo um carro hoje, é muito mais fácil conseguir o motor porque ele é a parte mais complexa do carro. No entanto, definitivamente não define o produto. Mas ainda assim, a forma como a indústria funciona: é muito mais fácil dizer, bem, dadas algumas restrições, estou escolhendo um motor, e depois estou projetando toda uma linha de carros em torno desse motor ou pelo menos desse tipo de motor.”
Isso nos leva ao seguinte conceito: acreditamos que é assim que será o mundo dos dados orientados pela IA. Haverá o campo ‘Google’ e o ‘Meta camp’, e você escolherá um desses modelos abertos – todos eles serão bons o suficiente. E então, todas as coisas nas quais você, como empresa, está interessado, são construídas sobre elas em termos de aplicação de seus dados e seu conhecimento de como ajustá-los e atualizar continuamente esses modelos de diferentes ‘campos’ . Caso isto funcione tecnológica e economicamente, um admirável mundo novo surgirá.
Crédito da imagem em destaque: NASA/Remover respingo