L’intelligence artificielle aurait atteint un tournant. Selon Ilya Sutskveer, ancien chercheur d’OpenAI et désormais à la tête de sa propre start-up, l’industrie de l’IA est confrontée à un « pic des données ». En clair, les connaissances humaines disponibles pour entraîner ces modèles auraient été entièrement exploitées par les géants du secteur. Un constat partagé par le fondateur de xAI, valorisée à 50 milliards de dollars, qui s’est exprimé le 8 janvier lors d’un entretien sur X.com avec Mark Penn, président de Stagwell. « Nous avons épuisé la somme cumulative des connaissances humaines en 2023 », a-t-il déclaré, soulignant l’urgence pour les entreprises de trouver des alternatives.
La solution semble se trouver dans les données synthétiques, générées par les IA elles-mêmes. Ces données, déjà utilisées pour former des modèles comme Claude 3.5 d’Anthropic ou Llama de Meta, permettent de poursuivre l’entraînement à moindre coût. Selon le cabinet Gartner, 60 % des données utilisées pour l’IA en 2024 seront synthétiques. Leur avantage ? Le coût. La start-up Writer affirme que son modèle Palmyra X 004, exclusivement basé sur des données synthétiques, a coûté 700 000 dollars, contre 4,6 millions pour un modèle comparable chez OpenAI.
Cependant, le recours à ces données comporte des risques. Les IA entraînées sur des données synthétiques pourraient subir un phénomène d’effondrement, où la qualité des modèles se détériore à mesure que les données générées polluent les ensembles d'entraînement. De plus, ces données manquent parfois de nuances, renforçant les biais algorithmiques existants. Alors que la course à l’innovation s’intensifie, les acteurs du secteur semblent prêts à prendre ces risques pour rester compétitifs, même si l’impact à long terme reste incertain.
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.