Au début de l’année, Bloomberg, l’un des principaux fournisseurs mondiaux de nouvelles et d’informations financières, a dévoilé son nouveau modèle de langage financier sous la forme du bien nommé BloombergGPT. Il s’agit d’un modèle de langage de 50 milliards de paramètres, conçu spécialement pour la finance et entraîné sur un mélange unique et équilibré d’ensembles de données standard à usage général et d’une gamme variée de documents financiers provenant des archives de Bloomberg.
La conception et l’entraînement de BloombergGPT ont été un processus complexe et gourmand en ressources. Le modèle est conçu pour prédire le mot suivant dans une séquence de mots, une capacité qui est utilisée pour générer du texte. Plusieurs décisions clés ont dû être prises lors de la conception et de l’apprentissage du modèle, notamment la taille du modèle, l’ensemble de données à utiliser et l’infrastructure informatique. Malgré le manque d’informations détaillées sur la manière de surmonter les difficultés liées à l’entraînement d’un grand modèle linguistique, le projet a grandement bénéficié des expériences et des journaux d’entraînement partagés par deux projets en 2022.
L’un des aspects uniques de BloombergGPT est l’utilisation d’un vaste ensemble de données du domaine financier. Le modèle d’IA a été entraîné sur un mélange de données publiques et privées de Bloomberg, les données privées constituant environ la moitié de l’ensemble de données d’entraînement. L’accent mis sur les données financières était intentionnel, car le modèle a été conçu pour être aussi performant que d’autres modèles pour des tâches générales, mais pour exceller dans des tâches spécifiques à la finance.
Comment le modèle d’IA en langage financier de BloombergGPT a été construit
Le modèle d’IA en langage financier BloombergGPT est entraîné sur environ 570 milliards de tokens de données d’entraînement, dont la moitié provient du domaine financier. La formation de BloombergGPT n’a pas été sans difficultés. L’équipe a été confrontée à des problèmes tels que l’instabilité de la formation et la norme du gradient. En outre, l’équipe a choisi d’entraîner le modèle sur un ensemble de données plus important plutôt que sur un modèle plus grand, conformément aux conclusions d’un article de 2022 selon lesquelles les petits modèles entraînés sur un plus grand nombre de données sont plus performants. Cette décision a ajouté un niveau de complexité supplémentaire au processus de formation.
Formation BloombergGPT
« Le groupe de recherche et de produits ML de Bloomberg a collaboré avec l’équipe d’ingénierie IA de l’entreprise pour construire l’un des plus grands ensembles de données spécifiques à un domaine, en s’appuyant sur les ressources existantes de l’entreprise en matière de création, de collecte et de conservation de données. En tant que société de données financières, les analystes de données de Bloomberg ont collecté et mis à jour des documents de langage financier pendant quarante ans. L’équipe a puisé dans ces vastes archives de données financières pour créer un ensemble complet de 363 milliards de jetons composé de documents financiers en anglais.
Ces données ont été complétées par un ensemble de données publiques de 345 milliards de jetons afin de créer un vaste corpus de formation de plus de 700 milliards de jetons. En utilisant une partie de ce corpus de formation, l’équipe a formé un modèle de langage causal à décodeur seul de 50 milliards de paramètres. Le modèle obtenu a été validé sur des bancs d’essai NLP spécifiques à la finance, sur une série de bancs d’essai internes à Bloomberg et sur de vastes catégories de tâches NLP à usage général provenant de bancs d’essai populaires (par exemple, BIG-bench Hard, Knowledge Assessments, Reading Comprehension, et Linguistic Tasks). Notamment, le modèle BloombergGPT surpasse largement les modèles ouverts existants de taille similaire pour les tâches financières, tout en affichant des performances égales ou supérieures pour les tâches de référence NLP générales ».
Évaluation et résultats
L’évaluation des performances des modèles d’IA en langage financier a révélé des résultats prometteurs. Bloomberg GPT a obtenu de bons résultats dans les tâches générales et des résultats nettement meilleurs dans les tâches financières publiques. Il a également été testé sur des défis internes tels que l’analyse des sentiments et la reconnaissance des entités nommées, avec des résultats mitigés. L’une de ses utilisations notables a été la traduction du langage naturel en langage de requête Bloomberg (BQL), un langage complexe utilisé pour recueillir et analyser des données sur le terminal Bloomberg, ce qui démontre son utilité potentielle dans des applications spécifiques à la finance.
Malgré les difficultés rencontrées lors de la formation de BloombergGPT, l’équipe recommande de commencer par des modèles plus petits et de passer ensuite à des modèles plus grands afin d’atténuer les risques. Elle conseille également d’effectuer des expériences à petite échelle avant de se lancer dans des modèles plus importants afin de mieux comprendre l’impact des changements.
Pour l’avenir, l’équipe envisage plusieurs pistes pour améliorer BloombergGPT. Elle cherche notamment à déterminer si elle a été trop prudente en matière de stabilité pendant la formation, si elle aurait pu affiner un modèle de source ouverte au lieu d’en former un nouveau à partir de zéro, et comment combler le fossé entre un modèle qui génère du texte et un modèle qui répond directement aux questions.
Le développement de Bloomberg GPT représente une étape importante dans l’application de grands modèles de langage dans le domaine financier. Malgré les difficultés rencontrées au cours de sa formation, les performances du modèle dans des tâches spécifiques à la finance mettent en évidence son potentiel à transformer la manière dont les données financières sont traitées et analysées. Comme l’équipe continue d’affiner et d’améliorer le modèle, nous pouvons nous attendre à voir des utilisations encore plus innovantes de BloombergGPT à l’avenir. Pour en savoir plus sur le développement des grands modèles linguistiques créés spécifiquement pour la recherche et l’analyse financières, consultez l’article officiel.
Lire plus Guide:
- Le petit modèle linguistique Orca-2 13B de Microsoft surpasse les alternatives 70B
- Le nouveau Neural-Chat 7B LLM d’Intel arrive en tête du classement Hugging Face, battant le Mistral 7B d’origine.
- Comparaison des modèles Llama 2 70B et Zephyr-7B LLM
- Amazon investit 2,75 milliards de dollars dans Anthropic AI, l’entreprise responsable de Claude 3
- Le nouveau modèle d’IA Zephyr-7B LLM affine celui de Mistral-7B et bat le Llama-2 70B
- Quels sont les coûts associés à la mise en œuvre de l’IA générative ?