"Neste momento, em termos de modelo de linguagem, grandes modelos de linguagem de código aberto e disponibilização aberta, a nossa oferta é a maior e a melhor para o português europeu e para o português do Brasil", afirmou, em entrevista à Lusa, António Branco.
Apoiado com fundos do Plano de recuperação e Resiliência (PRR), o projeto visa "desenvolver 'chatbots' para a língua portuguesa na variante europeia" e, "no quadro desse projeto, estamos a desenvolver grandes modelos de linguagem", que depois irão permitir "aplicações como 'chatbots' ou tradução", explicou António Branco.
A equipa, que inclui uma parceria com a Faculdade de Engenharia da Universidade do Porto, está "a desenvolver duas famílias de grandes modelos de linguagem: a Albertina e o Gervásio".
Um modelo de linguagem generativa procura identificar a palavra mais provável de acordo com o pedido feito inicialmente.
Anunciada em maio deste ano, a Albertina é um modelo mais vocacionado para a classificação, enquanto o Gervásio será mais adequado para a produção de texto.
"É algo que com o treino se qualifica. Podem levar uns afinamentos, digamos assim, para se especializar em certas tarefas", utilizando pesquisa 'online' e a partir dos parâmetros predefinidos.
"Todas as habilidades que a gente vê o ChatGPT fazer, é nesta base: palavra a palavra consecutivamente, ir prevendo qual é que é a mais provável", mas, nesse caso, o 'chat' "foi treinado numa quantidade colossal de dados".
Nos casos dos modelos portugueses, foram carregados cerca de 1,6 mil milhões de parâmetros, enquanto o GTP3, da OpenAI, tem 165 mil milhões de parâmetros.
Mas estes "são modelos de código aberto e de acesso aberto, coisas que o GTP3 não é", que "está fechado a sete chaves na OpenAI", à semelhança do que acontece com as ferramentas da Google.
"A OpenAI começou com uma lógica de investigação científica e a cada modelo novo que eles faziam, eles faziam uma publicação científica com a explicação técnica e, quando chegou o GTP3, pararam" de publicar, pelo que "não se sabe exatamente qual foi a coleção de textos que usaram para treinar", por exemplo.
No caso português, num projeto financiado com dinheiro público, a aposta foi "democratizar esta tecnologia, o que significa dar condições para que o maior número possível de atores e de organizações possam usar" as ferramentas.
Além disso, a equipa está a criar soluções que permitam "domesticar as ferramentas, para dentro das organizações".
"Não é possível trazer para dentro de uma instituição a ferramenta da OpenAI", que corre num centro de dados de grandes dimensões, embora não se saiba ao certo onde é.
Mas tem de ser "uma coisa brutal" e "não é gerível para quem queira manter as informações dentro da sua organização".
Por isso, "o que nós estamos a fazer é dar modelos, investigar técnicas que consigam comprimir o tamanho dos modelos de forma a que possam ficar para dentro das organizações".
Até porque o volume de informação a que se tem acesso via OpenGPT "não é viável nem útil".
"Um banco não quer ter uma interface com o utilizador do género ChatGPT, em que o utilizador vai querer fazer operações reduzidas e pedir informações dentro de um quadro bastante limitado", exemplificou.
"Estes usos de casos, que são importantes para as organizações, são muitíssimo mais limitados do que esta parafernália de capacidades que o ChatGPT oferece", pelo que "nós conseguimos entregar um serviço de boa qualidade com modelos bastante mais pequenos, pequenos ao ponto de poderem ser trazidos para dentro dos servidores das organizações", explicou.
Leia Também: Colegisladores da UE chegam a acordo para primeira lei do mundo sobre IA