Skip to content

Utilisation de ChatGPT pour la création de jeux de données en vue d'un fine-tuning avec Llama2 et HF auto-train

Published: at 02:00

Création d’un jeu de données pour un fine-tuning avec Llama2 et HF auto-train

Métadonnées

Vidéo

Description

Traditionnellement, un modèle de base est entraîné avec des données à un point dans le temps pour garantir son efficacité dans l’exécution de tâches spécifiques et l’adaptation au domaine souhaité. Toutefois, vous devez parfois utiliser des données plus récentes ou plus actuelles. Deux approches peuvent compléter le modèle de base : le réglage ou l’entraînement du modèle de base avec de nouvelles données, ou RAG qui utilise l’ingénierie d’invite pour compléter ou guider le modèle en temps réel.

Durant cette session, je vous présente ces deux approches et vous démontre comment créer un jeu de données (custom dataset) avec ChatGPT qui sera pris par le framework HF autotrain pour réaliser un fine tuning du modèle de language Llama2. Par ailleurs, l’approche RAG, démontrée aussi, vous permet d’enrichir un modèle de language avec de nouvelles données.

Ci-après les notebooks utilisés durant cette session: https://github.com/royam0820/HuggingFace/blob/main/amr_dataset_generate_images.ipynb

https://github.com/royam0820/HuggingFace/blob/main/amr_AutoTrain_LLM.ipynb

https://github.com/royam0820/HuggingFace/blob/main/amr__RAG_langchain.ipynb

Voici aussi un tutoriel complet fait par Meta sur Llama2 https://ai.meta.com/llama/get-started/

Une autre source d’information intéressante faite par Bruno Seznec référencant des présentation (en français) des dernières évolutions de l’IA. IA Génératives. ChatGPT et al… webotheque. Merci Bruno! https://github.com/brunosez/ChatGPT

Résumé

Le texte fourni est une transcription détaillée d’une session de formation où l’animateur explique comment utiliser ChatGPT pour générer un jeu de données, qui sera ensuite utilisé pour entraîner un modèle de langue. Il mentionne également l’utilisation de différentes plateformes et outils, y compris un abonnement payant à ChatGPT, et décrit les différentes étapes de création et de manipulation de données, ainsi que les problèmes rencontrés avec certains outils.

Points clés de la transcription:

  1. Création d’un jeu de données : L’animateur décrit comment il utilise ChatGPT pour générer des descriptions basées sur des concepts, qui sont ensuite utilisées pour entraîner un modèle de langue. Cela implique de définir des instructions personnalisées pour ChatGPT afin de contrôler la manière dont il répond aux requêtes.

  2. Utilisation de plateformes et d’outils spécifiques :

    • ChatGPT : Utilisé ici sous forme d’abonnement payant pour générer des données.
    • Modèles de langue (Llama2, Mistral) : Utilisés pour l’entraînement, avec une préférence pour Llama2 en raison de problèmes techniques avec Mistral.
    • Gestion des coûts et des abonnements : Mention de l’abonnement à ChatGPT et des choix entre différents outils en fonction de leur performance et coût.
  3. Problèmes techniques et solutions :

    • Des soucis avec certains modèles de langue et la manière de les contourner ou de les résoudre.
    • L’importance de tester les outputs générés par ChatGPT avant de les utiliser massivement.
  4. Éducation et partage de connaissances :

    • Mention de vidéos éducatives et de sessions YouTube pour aider les utilisateurs à comprendre et à utiliser ces technologies.
  5. Optimisation des requêtes et des résultats :

    • La transcription montre comment l’animateur optimise les requêtes faites à ChatGPT pour améliorer la qualité des données générées.

Extraction des concepts pour la mémorisation et l’apprentissage rapide:

Cette transcription peut servir à comprendre des processus complexes d’utilisation des modèles de langage pour des applications pratiques, tout en mettant en évidence l’importance de la personnalisation des outils pour des tâches spécifiques.