Hark lève 700 millions de dollars en série A pour développer une interface d'IA « universelle » et secrète

Hero

#Introduction

Le paysage de l'intelligence artificielle traverse un changement de paradigme majeur. Ces dernières années, l'industrie s'est hyper-focalisée sur la couche fondamentale : entraîner des modèles de langage toujours plus massifs et les exposer via des interfaces de chat conversationnelles. Cependant, les limites de la simple boîte de discussion deviennent de plus en plus évidentes. Les utilisateurs ne cherchent plus un simple oracle capable de répondre à des questions textuelles ; ils veulent un agent intelligent capable d'exécuter des actions complexes en plusieurs étapes, et ce de manière autonome dans tout leur environnement numérique.

C'est là qu'intervient Hark. Évoluant en mode furtif jusqu'à récemment, cette ambitieuse start-up de l'IA vient de faire un bruit assourdissant en annonçant une levée de fonds massive de 700 millions de dollars pour sa série A. Mais Hark ne se contente pas de développer une énième API pour un modèle de fondation ou une simple surcouche logicielle. L'entreprise vise le Graal de l'interaction homme-machine : une interface d'IA « universelle », propulsée par une stack verticalement intégrée de modèles multimodaux propriétaires et de matériel grand public conçu sur mesure.

#Que s'est-il passé ?

L'ampleur même de cette série A est particulièrement inhabituelle, même dans l'écosystème pourtant très bien financé du capital-risque dédié à l'IA. Ce tour de table de 700 millions de dollars propulse Hark à une valorisation stupéfiante de 6 milliards de dollars, presque du jour au lendemain.

Fondée par Brett Adcock — qui a déjà fait ses preuves face à des défis d'ingénierie extrêmes avec Figure AI (robotique humanoïde) et Archer Aviation (aéronefs eVTOL) —, Hark a rassemblé une formidable coalition d'investisseurs. La levée, menée par Parkway Venture Capital, inclut des investissements stratégiques de la part des géants des semi-conducteurs : Nvidia, AMD Ventures, Intel Capital et Qualcomm Ventures, aux côtés du poids lourd de l'entreprise, Salesforce Ventures.

L'entreprise avance de manière agressive. Elle exploite déjà son propre centre de données privé, équipé des GPU haut de gamme Nvidia B200 pour entraîner ses modèles multimodaux propriétaires. Côté talents, Hark a discrètement étoffé ses rangs pour atteindre environ 70 ingénieurs, chercheurs et designers, allant même jusqu'à débaucher d'importants responsables du design directement chez Apple.

#Pourquoi c'est important

Pour comprendre pourquoi cette annonce est si capitale, il faut examiner la fragmentation actuelle des outils de l'IA. Aujourd'hui, si vous souhaitez qu'une IA analyse une feuille de calcul, rédige un e-mail à partir de ces données, et mette à jour le logiciel de gestion de projet de votre équipe, c'est généralement vous qui jouez le rôle de couche d'intégration. Vous agissez comme un pont, copiant et collant le contexte entre des applications isolées.

La vision de Hark pour son interface d'IA « universelle » est celle d'un assistant personnel agentique conçu pour s'affranchir du simple onglet de navigateur. En contrôlant l'ensemble de la stack — à la fois le logiciel (les modèles de fondation multimodaux) et le hardware —, Hark se positionne pour contourner purement et simplement les limitations classiques des systèmes d'exploitation.

La forte participation des géants des semi-conducteurs est ici l'indice le plus révélateur. Quand Nvidia, AMD, Intel et Qualcomm investissent tous ensemble dans la même série A, cela montre que la composante matérielle n'est pas qu'une réflexion secondaire ou un gadget : c'est le principal élément différenciateur. Cela laisse présager une architecture informatique hybride où le raisonnement cognitif lourd est traité sur les clusters cloud B200 de Hark, tandis que la perception sensorielle en temps réel et l'exécution immédiate sont gérées localement sur des appareils « edge » spécialisés.

#Implications techniques

D'un point de vue de l'ingénierie, concevoir une interface agentique véritablement universelle représente un défi colossal. Cela exige de résoudre plusieurs problèmes complexes liés au machine learning et aux systèmes distribués.

L'automatisation traditionnelle repose sur des sélecteurs DOM fragiles, des XPaths rigides ou des API logicielles explicites. Une interface universelle doit interagir avec les logiciels exactement comme le ferait un humain : de manière visuelle. Cela nécessite de robustes modèles Vision-Language-Action (VLA) capables d'analyser rapidement les pixels à l'écran, de comprendre la signification sémantique d'éléments d'interface arbitraires sur différents systèmes d'exploitation, et de générer des actions précises basées sur des coordonnées (clics, balayages, frappes au clavier) sans avoir besoin d'une API backend.

#2. Fenêtres de contexte contre état continu

Un agent résidant sur un appareil matériel dédié doit maintenir un contexte ambiant et continu de la vie numérique d'un utilisateur. Cela va bien au-delà de la simple utilisation de fenêtres de contexte gigantesques. Cela implique des architectures de mémoire complexes — exploitant probablement des bases de données vectorielles hautement optimisées pour la recherche sémantique, combinées à une mémoire de travail active afin de suivre des tâches asynchrones en plusieurs étapes sur des jours, voire des semaines.

#3. Architecture agentique distribuée

Nous pouvons conceptualiser les exigences strictes en matière de latence pour une interface matérielle universelle. Si un appareil doit effectuer un aller-retour complet vers un cluster cloud simplement pour confirmer qu'il a bien reconnu un bouton de l'interface, l'expérience utilisateur sera totalement ruinée.

Couche architecturale	Responsabilité principale	Profil de calcul	Latence attendue
Appareil Edge (Hardware)	Entrées sensorielles (audio/vision), rendu de l'interface utilisateur, détection du mot d'éveil, garde-fous de sécurité immédiats.	Optimisé pour les NPU, basse consommation	< 50ms
Agent OS local	Analyse de l'écran, interception via l'API d'accessibilité, gestion de l'état local et exécution des actions.	Limité par le CPU/GPU	~ 100ms - 300ms
Cerveau Cloud (B200)	Raisonnement complexe, recherche sémantique profonde, planification à plusieurs étapes, inférence LLM lourde.	Haut débit, distribué	500ms+

Pour parvenir à ce relais fluide, les ingénieurs chez Hark vont très certainement optimiser massivement la quantification des modèles, repousser de performants petits modèles de langage (SLM) vers l'edge, et réserver leurs modèles multimodaux phares strictement pour le routage cognitif complexe.

#Et la suite ?

Le calendrier dévoilé publiquement par Hark est incroyablement ambitieux. L'entreprise prévoit de dévoiler ses premiers modèles multimodaux cet été, et les appareils matériels sur mesure devraient suivre peu après.

Lancer du matériel grand public est une entreprise notoirement impitoyable. La logistique de la chaîne d'approvisionnement, les contraintes thermiques, les limites d'autonomie des batteries et le design industriel physique introduisent d'immenses obstacles que les start-ups purement logicielles n'ont tout simplement jamais à affronter. Cependant, avec d'anciens cadres du design d'Apple à sa tête et un trésor de guerre de 700 millions de dollars, Hark est mieux positionnée que quiconque dans l'industrie pour tenter cet exploit.

#Conclusion

La levée de 700 millions de dollars en série A de Hark ne représente pas seulement un jalon financier ; c'est une déclaration d'intention audacieuse. L'ère de l'IA centrée sur le texte en entrée et en sortie arrive rapidement à maturité, et la course pour créer l'ultime agent orienté action et natif du point de vue matériel a officiellement commencé.

Chez Ichiban Tools, nous savons pertinemment que les workflows des développeurs sont entièrement dictés par les interfaces et les plateformes sur lesquelles nous nous appuyons. Si Hark parvient à établir une nouvelle interface matérielle universelle pour l'IA agentique, cela ne changera pas uniquement la manière dont les consommateurs interagissent avec la technologie : cela réécrira fondamentalement les règles selon lesquelles les ingénieurs logiciels conçoivent, intègrent et développent les applications de demain. Nous suivrons de très près leurs annonces de cet été.