Des scientifiques explorent les pensées cachées d’une IA en disséquant son cerveau

Les intelligences artificielles (IA) suscitent autant de fascination que d’inquiétude. Créées par l’homme, elles continuent de développer une complexité qui semble parfois nous échapper. Un phénomène souvent décrit par les scientifiques comme une “boîte noire” en raison de l’opacité de leur fonctionnement interne. Des chercheurs de la société Anthropic ont récemment fait avancer notre compréhension en explorant les mécanismes internes de l’IA Claude 3.

Exploration de la “boîte noire”

Anthropic, connu pour le développement du chatbot Claude, a fait des percées significatives dans l’analyse des processus cognitifs des IA. Leur recherche récente, publiée sur le fonctionnement de Claude 3, utilise une méthode novatrice nommée “apprentissage par dictionnaire”. Cette technique permet de lier les activations neuronales de l’IA à des concepts familiers, révélant ainsi comment Claude organise et relie les informations. L’étude montre que l’IA peut autonomement catégoriser et associer des concepts, même distants, d’une manière qui lui est propre.

Le défi demeure cependant de répliquer ces résultats sur des modèles plus vastes alimentés par des quantités massives de données. Les chercheurs ont néanmoins réussi à développer un modèle d’apprentissage de taille moyenne qui a également permis de cartographier avec succès la manière dont Claude “pense”.

Amélioration de la sécurité des IA

Une partie essentielle de l’étude d’Anthropic vise à améliorer la sécurité des IA. En identifiant et en manipulant les “mauvaises pensées” ou les pensées potentiellement nuisibles, les chercheurs espèrent renforcer la supervision de ces systèmes. En ajustant la manière dont certains concepts sont liés, ils peuvent altérer significativement les réponses de l’IA, évitant ainsi des comportements indésirables.

Lire aussi :  Numa Health lève 4 millions d'euros pour accélérer dans la médecine prédictive

Ces avancées sont cruciales pour le futur de l’IA sécurisée, bien que beaucoup reste à faire. Les chercheurs d’Anthropic soulignent que leurs découvertes ne couvrent qu’un échantillon de concepts et qu’une étude plus large serait actuellement trop coûteuse en termes de puissance de calcul. Ce travail de fond continue de poser les bases pour que les IA ne deviennent pas nuisibles à l’avenir.

À travers ces efforts, nous commençons peu à peu à lever le voile sur la complexité des intelligences artificielles, en espérant mieux maîtriser ces outils puissants et omniprésents dans notre quotidien.

Ne ratez plus aucune information en ajoutant L’Entente à vos favoris sur Google News. Ainsi, vous contribuez à notre développement et nous aidez à continuer de vous fournir des informations de qualité. Un grand merci pour votre confiance et votre soutien !

CES ARTICLES POURRAIENT VOUS INTÉRESSER