Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus
Un partenariat à trois entre IA Phone Support Company En phoneplate-forme d’optimisation d’inférence Parfaitet fabricant de puces Gle a réalisé une percée qui aborde l’un des problèmes les plus persistants de l’intelligence artificielle conversationnelle: les retards gênants qui signalent immédiatement aux appelants qu’ils parlent à une machine.
La collaboration a permis à Phonely de réduire les temps de réponse de plus de 70% tout en passant simultanément la précision de 81,5% à 99,2% sur quatre itérations du modèle, dépassant les GPT-4O de GPT-4O 94,7% de référence par 4,5 points de pourcentage. Les améliorations découlent de la nouvelle capacité de Groq pour basculer instantanément entre plusieurs modèles d’IA spécialisés sans latence ajoutée, orchestrée via la plate-forme d’optimisation de Maitai.
La réalisation résout ce que les experts de l’industrie appellent «Vallée étrange«Of Voice AI – Les indices subtils qui font que les conversations automatisées se sentent nettement non humaines. Pour les centres d’appels et les opérations de service client, les implications pourraient être transformatrices: l’un des clients de Phonely remplace 350 agents humains ce mois-ci.
Modèles traditionnels de grande langue comme Openai GPT-4O ont longtemps lutté avec ce qui semble être un simple défi: répondre assez rapidement pour maintenir le flux de conversation naturelle. Alors que quelques secondes de retard se regardent à peine dans les interactions textuelles, la même pause semble interminable lors des conversations téléphoniques en direct.
“L’une des choses que la plupart des gens ne réalisent pas, c’est que les principaux fournisseurs de LLM, tels que Openai, Claude et d’autres ont un très haut degré de variance de latence”, a déclaré Will Bodewes, fondateur et PDG de Phonely, dans une interview exclusive avec VentureBeat. “4 secondes ressemble à une éternité si vous parlez à une voix IA au téléphone – ce retard est ce qui fait que la plupart des aigus sont non humains.”
Le problème se produit environ une fois toutes les dix demandes, ce qui signifie que les conversations standard incluent inévitablement au moins une ou deux pauses maladroites qui révèlent immédiatement la nature artificielle de l’interaction. Pour les entreprises qui envisagent des agents téléphoniques de l’IA, ces retards ont créé un obstacle important à l’adoption.
“Ce type de latence est inacceptable pour le support téléphonique en temps réel”, a expliqué Bogewes. “Mis à part la latence, la précision conversationnelle et les réponses humaines est quelque chose que les fournisseurs de LLM hérités n’ont tout simplement pas craqué dans le domaine de la voix.”
La solution a émergé du développement par Groq de ce que l’entreprise appelle «Zero-Laylence Lora HotsSwapping»- La possibilité de basculer instantanément entre plusieurs variantes de modèles d’IA spécialisées sans aucune pénalité de performance. LORA, ou adaptation de faible rang, permet aux développeurs de créer des modifications légères et spécifiques aux tâches aux modèles existants plutôt que de s’entraîner entièrement de nouveaux à partir de zéro.
“La combinaison de Groq d’architecture contrôlée par logiciels à grain fin, de mémoire sur puce à grande vitesse, d’architecture de streaming et d’exécution déterministe signifie qu’il est possible d’accéder à plusieurs loras à échange à chaud sans pénalité de latence”, a expliqué Chelsey Kantor, directeur du marketing de Groq, dans une interview avec VentureBeat. «Les Loras sont stockés et gérés dans SRAM aux côtés des poids du modèle d’origine.»
Cette progression de l’infrastructure a permis à MAITAI de créer ce que le fondateur Christian Dalsanto décrit comme un système «orchestration de la couche proxy» qui optimise continuellement les performances du modèle. “Maitai agit comme une mince couche de proxy entre les clients et leurs fournisseurs de modèles”, a déclaré Dalsanto. «Cela nous permet de sélectionner et d’optimiser dynamiquement le meilleur modèle pour chaque demande, en appliquant automatiquement l’évaluation, les optimisations et les stratégies de résilience telles que les replies.»
Le système fonctionne en collectant des données de performance à partir de chaque interaction, en identifiant les points faibles et en améliorant de manière itérative les modèles sans intervention client. “Puisque Maitai se trouve au milieu du flux d’inférence, nous collectons de forts signaux identifiant où les modèles sous-performent”, a expliqué Dalsanto. «Ces« points faibles »sont regroupés, étiquetés et progressivement réglés pour résoudre des faiblesses spécifiques sans provoquer de régressions.»
Les résultats démontrent des améliorations significatives à travers plusieurs dimensions de performances. Le temps de premier jeton – à quelle vitesse une IA commence à répondre – a baissé de 73,4% de 661 millisecondes à 176 millisecondes au 90e centile. Les délais d’achèvement globaux ont chuté de 74,6% de 1 446 millisecondes à 339 millisecondes.
Peut-être plus de manière significative, les améliorations de la précision ont suivi une trajectoire à la hausse claire sur quatre itérations du modèle, à partir de 81,5% et atteignant 99,2% – un niveau qui dépasse les performances humaines dans de nombreux scénarios de service client.
“Nous avons vu environ 70% et plus de personnes qui appellent notre IA à ne pas pouvoir distinguer la différence entre une personne”, a déclaré Bogewes à VentureBeat. “La latence est, ou était le cadeau mort que c’était une IA. Avec un modèle à réglage fin personnalisé qui parle comme une personne et un matériel super à faible latence, il n’y a pas grand-chose à nous empêcher de traverser la vallée étrange de sonder complètement humain.”
Les gains de performances se traduisent directement par des résultats commerciaux. “L’un de nos plus gros clients a vu une augmentation de 32% des prospects qualifiés par rapport à une version précédente utilisant des modèles précédents de pointe”, a noté Bogewes.
Les améliorations arrivent alors que les centres d’appels sont confrontés à une pression de montage pour réduire les coûts tout en maintenant la qualité du service. Les agents humains traditionnels nécessitent une formation, une coordination de planification et des frais généraux importants que les agents de l’IA peuvent éliminer.
“Les centres d’appels voient vraiment d’énormes avantages en utilisant Phonely pour remplacer les agents humains”, a déclaré Bogewes. “L’un des centres d’appels avec lesquels nous travaillons est en fait de remplacer complètement 350 agents humains par Phonely juste ce mois-ci. Du point de vue du centre d’appels, il change la donne, car ils n’ont pas à gérer les horaires des agents de support humain, les agents de train et la demande et la demande.”
La technologie montre une force particulière dans des cas d’utilisation spécifiques. “Phonely excelle vraiment dans quelques domaines, y compris les performances de pointe dans la planification des rendez-vous et la qualification principale en particulier, au-delà de ce dont les fournisseurs hérités sont capables”, a expliqué Bogewes. L’entreprise s’est associée aux grandes entreprises qui gèrent l’assurance, les interactions juridiques et automobiles.
Les puces d’inférence AI spécialisées de Groq, appelées Unités de traitement des langues (LPU), fournissez la fondation matérielle qui rend l’approche multimodel viable. Contrairement aux processeurs graphiques à usage général généralement utilisés pour l’inférence AI, les LPU optimisent spécifiquement pour la nature séquentielle du traitement du langage.
“L’architecture de LPU est optimisée pour contrôler précisément le mouvement des données et le calcul à un niveau à grain fin avec une vitesse et une prévisibilité élevées, permettant la gestion efficace de plusieurs petits ensembles de poids` `delta ” (les Loras) sur un modèle de base commun sans latence supplémentaire”, a déclaré Kantor.
L’infrastructure basée sur le cloud répond également aux préoccupations d’évolutivité qui ont historiquement limité le déploiement d’IA. «La beauté de l’utilisation d’une solution basée sur le cloud comme GroqCloud, est que Groq gère l’orchestration et la mise à l’échelle dynamique de nos clients pour tout modèle d’IA que nous proposons, y compris les modèles LORA affinés», a expliqué Kantor.
Pour les entreprises, les avantages économiques semblent substantiels. “La simplicité et l’efficacité de la conception de notre système, de notre faible consommation d’énergie et des performances élevées de notre matériel permettent à GROQ de fournir aux clients le coût le plus bas par jeton sans sacrifier les performances à mesure qu’ils évoluent”, a déclaré Kantor.
L’un des aspects les plus convaincants du partenariat est la vitesse de mise en œuvre. Contrairement aux déploiements d’IA traditionnels qui peuvent nécessiter des mois de travail d’intégration, l’approche de Maitai permet les transitions le jour même pour les entreprises utilisant déjà des modèles à usage général.
“Pour les entreprises déjà en production à l’aide de modèles à usage général, nous les faisons généralement en transition vers Maitai le même jour, sans perturbation”, a déclaré Dalsanto. «Nous commençons la collecte immédiate des données, et dans les jours à une semaine, nous pouvons livrer un modèle affiné qui est plus rapide et plus fiable que leur configuration d’origine.»
Cette capacité de déploiement rapide répond à une préoccupation commune de l’entreprise concernant les projets d’IA: des délais de mise en œuvre longs qui retardent le retour sur investissement. L’approche de la couche proxy signifie que les entreprises peuvent maintenir leurs intégrations API existantes tout en accédant à l’amélioration continue des performances.
La collaboration signale un changement plus large de l’architecture de l’IA d’entreprise, s’éloignant des modèles monolithiques et à usage général vers des systèmes spécialisés et spécifiques aux tâches. “Nous observons la demande croissante des équipes qui divisaient leurs applications en charges de travail plus petites et hautement spécialisées, chacune bénéficiant d’adaptateurs individuels”, a déclaré Dalsanto.
Cette tendance reflète la maturation de la compréhension des défis de déploiement de l’IA. Plutôt que de s’attendre à ce que des modèles uniques excellaient toutes les tâches, les entreprises reconnaissent de plus en plus la valeur des solutions spécialement conçues qui peuvent être affinées en continu en fonction des données de performance du monde réel.
«Les hotumes multi-lora permettent aux entreprises de déployer des modèles plus rapides et plus précis personnalisés précisément pour leurs applications, en supprimant les barrières traditionnelles des coûts et de la complexité», a expliqué Dalsanto. «Cela change fondamentalement la façon dont l’entreprise IA est construite et déployée.»
La fondation technique permet également des applications plus sophistiquées à mesure que la technologie mûrit. L’infrastructure de Groq peut prendre en charge des dizaines de modèles spécialisés sur une seule instance, permettant potentiellement aux entreprises de créer des expériences d’IA hautement personnalisées sur différents segments de clients ou cas d’utilisation.
“Les hotes multi-lora permettent une inférence à faible latence et à haute précision adaptée à des tâches spécifiques”, a déclaré Dalsanto. «Notre feuille de route privilégie les investissements supplémentaires dans les infrastructures, les outils et l’optimisation pour établir une inférence spécifique à un grain fin comme la nouvelle norme.»
Pour le marché de l’IA conversationnel plus large, le partenariat démontre que les limitations techniques autrefois considérées comme insurmontables peuvent être traitées par une infrastructure spécialisée et une conception minutieuse du système. Alors que de plus en plus d’entreprises déploient des agents téléphoniques de l’IA, les avantages compétitifs démontrés par Phonely peuvent établir de nouvelles attentes de référence en matière de performance et de réactivité dans les interactions automatisées du client.
Le succès valide également le modèle émergent des entreprises d’infrastructure d’IA travaillant ensemble pour résoudre des défis de déploiement complexes. Cette approche collaborative peut accélérer l’innovation dans le secteur de l’IA de l’entreprise, car des capacités spécialisées combinent pour fournir des solutions qui dépassent ce qu’un seul fournisseur pourrait réaliser de manière indépendante. Si ce partenariat est une indication, l’ère des conversations téléphoniques manifestement artificielles pourrait se terminer plus rapidement que quiconque attendait.