Voltar

Personas Sintéticas: ciência de dados aplicada à imaginação estratégica

Leandro Ferreira

Cientista de Dados

15 de jul. de 2025

5

min. de leitura

Voltar

Personas Sintéticas: ciência de dados aplicada à imaginação estratégica

Leandro Ferreira

Cientista de Dados

15 de jul. de 2025

5

min. de leitura

Personas Sintéticas: ciência de dados aplicada à imaginação estratégica

Dados não falam. Mas podem contar histórias — quando escutamos com método.

Nos últimos tempos tenho trabalhado ativamente com a produção de personas sintéticas na Galaxies. Errei bastante, aprendi muito e aperfeiçoei muitas técnicas e métodos em ciência de dados. Na academia, somos treinados para interpretar o mundo com rigor. No mundo corporativo, o desafio é outro: transformar esse rigor em ações acionáveis, compreensíveis e impactantes.

Por isso escrevo este artigo: para compartilhar aprendizados e provocar reflexões. Portanto, esse breve artigo propõe a reflexão: Como podemos usar estatística, aprendizado de máquina e modelos generativos para transformar abstrações comportamentais em ativos estratégicos/Personas Sintéticas?

Na Galaxies, estamos constantemente enfrentando o desafio de entender profundamente públicos diversos. Sejam usuários de plataformas digitais, respondentes de pesquisas, ou consumidores de produtos inovadores.


Sem estereótipos ou achismos

Há uma certa beleza e elegância silenciosa na matemática por trás da segmentação de públicos. Na Galaxies, nossa abordagem para construir personas não parte de estereótipos ou achismos. Ela nasce da confluência entre dados empíricos, teorias e abordagens sociológicas e econômicas, e modelagem estatística. Ela nasce de uma leitura rigorosa de padrões estatísticos e a convicção de que a inteligência artificial é poderosa, mas a inteligência humana, bem orientada, é insubstituível.

Na Galaxies, a clusterização é mais do que técnica, é epistemologia aplicada. e por essa razão, não nos apegamos a algoritmo algum. Como já dito pelo Famoso estatístico George E. P. Box “All models are wrong, but some are useful”. Por isso, lançamos mão de diversos algoritmos não supervisionados para clusterização, por exemplo: KMeans (ideal para variáveis contínuas), KMedoids e KPrototypes (voltados para dados categóricos), entre outros.. Isso é feito para entendermos como eles se comportam e qual contribuição podemos obter a partir da base de dados que temos.

Cada modelo nos coloca diferentes trade-offs, e é parte da criatividade e mente humana entender e selecionar o melhor para cada caso. Algoritmos de clusterização não “vêm” usuários: eles organizam vetores (números). E isso num espaço de variáveis que foram cuidadosamente selecionadas, transformadas e interpretadas por métodos científicos robustos. Isso exige decisão teórica e metodológica: o que normalizar, o que eliminar, como imputar valores ausentes, como reduzir dimensões sem perder significância interpretativa. Ao mapear proximidades no espaço de variáveis transformadas, conseguimos identificar padrões de comportamento que escapam à intuição humana.


Esse trabalho não é automatizado. É curado

O processo se ancora em uma adaptação do método CRISP-DM, que funciona como arcabouço estruturante da análise crítica. Para garantir que os clusters sejam interpretáveis, reproduzíveis e, principalmente, acionáveis. A interpretação desses agrupamentos não é trivial: requer tanto rigor técnico quanto sensibilidade analítica. Cada exige uma leitura crítica: o algoritmo aponta, mas quem escolhe o que é relevante somos nós. O cluster não é uma verdade algorítmica, mas uma proposta de interpretação. Uma vez definidos os agrupamentos estatísticos, o próximo passo é traduzir esses achados em representações inteligíveis. Aqui entram os modelos generativos.

É nesse ponto em que os modelos generativos entram em cena. Combinando estatística multivariada e LLMs diversos, traduzimos resultados estatísticos em narrativas sintéticas. Não são apenas “perfis”: são construções sociotécnicas, que integram dados observados com inferências textuais. São personas que contam histórias, iluminam padrões, criam pontes entre o dado e a decisão. O papel humano é decisivo: definimos as instruções, validamos as saídas, corrigimos vieses, resgatamos sentidos. A IA não cria personas — ela nos ajuda a redigir com eficiência aquilo que já compreendemos conceitualmente.

Essa abordagem nos permite:

  • Tornar legível a complexidade de grandes bases de dados.

  • Traduzir padrões em conhecimento estratégico

  • Criar mediações entre o mundo dos dados e o mundo da ação

A clusterização, nesse contexto, é quase um dispositivo filosófico: Ela estrutura como pensamos, inferimos e decidimos. Pra entender de vez onde ambas as técnicas se encontram, a LLM funciona como os cinco sentidos da persona, traduzindo o que ela vê, ouve, consome e expressa. Mas é a clusterização que constrói o seu cérebro conceitual, com todas as nuances que fazem de um grupo, um conjunto singular. E isso tudo é criado a partir de “n” regras de comportamento da IA generativa desenvolvidas por nós.

Talvez o meu maior desafio enquanto cientista de dados aplicado aos negócios, no contexto de personas sintética, seja epistemológico: Como transformar medidas em significados? E é exatamente isso que temos buscado realizar na Galaxies. Mais do que ciência de dados: isso é ciência social computacional. É uma tentativa de representar o comportamento humano com rigor, mas sem renunciar à interpretação crítica. Vou confessar que é um desafio! No mínimo instigante!

Para finalizar, posso afirmar com um alto grau de confiabilidade (os estatísticos piram rsrs...) que: os dados, quando tratados com responsabilidade técnica e sensibilidade sociológica, não apenas informam: eles iluminam. E é essa ponte, entre o rigor estatístico e a interpretação crítica, que buscamos construir todos os dias na Galaxies.

Pronto para deixar a concorrência para trás?

A inteligência de consumidor do futuro está ao seu alcance. Descubra como a Galaxies pode impulsionar seus resultados.