Logo Zéphyrnet

Contraintes dans les puces affectant la fiabilité aux nœuds avancés

Date :

Les contraintes induites par la chaleur sont désormais l'une des principales causes de pannes de transistors, et elles deviennent une priorité pour les fabricants de puces, car de plus en plus de types différents de puces et de matériaux sont conditionnés ensemble pour des applications critiques en matière de sécurité et de mission.

Les causes du stress sont nombreuses. Dans les emballages hétérogènes, il peut provenir de plusieurs composants composés de matériaux différents. "Ces matériaux ont des propriétés différentes telles que la dilatation thermique et la conductivité", a déclaré Melika Roshandell, directrice de la gestion des produits pour l'analyse des systèmes multiphysiques chez Cadence. « Lorsque ces appareils sont alimentés en énergie et génèrent de la chaleur, divers composants de la conception peuvent se comporter différemment. Cela peut entraîner des problèmes tels que la fissuration des billes BGA et le flambage de l'appareil, pouvant provoquer une casse.

Norman Chang, membre et directeur technique de la division électronique, semi-conducteurs et optique de Ansys a expliqué que sur un 3D-IC, la contrainte est principalement causée par l'inadéquation incompatible du coefficient de dilatation thermique (CTE) entre deux matériaux, qui provoque un gauchissement et un déplacement.

« Par exemple, le matériau en silicium a un CTE de 2.6, tandis que le matériau du boîtier a un CTE de 6 et le FR4 du PCB a un CTE de 17 PPM/°C », a déclaré Chang. « Les contraintes induites par la chaleur peuvent être causées par les différents taux d'expansion et de contraction des différents matériaux dans les circuits intégrés 3D, avec des gradients de température dus à différentes charges de travail ou cycles thermiques pendant les tests. Il existe des contraintes mécaniques liées aux emballages, notamment la fissuration diélectrique, les fissures interfaciales, la fatigue des joints de soudure, les traces de fissuration du cuivre et le délaminage des emballages dus aux contraintes thermomécaniques, à la défaillance par gonflement par l'humidité et à la fissuration du « pop-corn » induite par la pression de vapeur en raison des contraintes hygro-mécaniques. , et une défaillance de trace électrothermique-mécanique par électromigration due à un stress électrothermique-mécanique. Et pour les grandes conceptions de circuits intégrés 3D, les contraintes peuvent provoquer des déformations et des contraintes/déformations dans des domaines tels que les diélectriques à K extrêmement faible.

Tout cela affecte la fiabilité des appareils. "Il y a une contrainte intentionnelle dans certaines orientations des cristaux de silicium pour accélérer la mobilité dans le canal du dispositif", a déclaré Chang. « Cependant, la déformation et les contraintes peuvent également avoir un impact sur les performances des appareils et des interconnexions. Il n'est pas facile de calculer l'impact sur les performances électriques, étant donné la répartition des contraintes dans les circuits intégrés 3D. Les fonderies peuvent donner des lignes directrices sur la déformation/contrainte maximale autorisée dans les circuits intégrés 3D, et les concepteurs doivent éviter de dépasser ces contraintes.


Fig. 1 : Contrainte multi-physique dans un système électronique. Source : Ansys

Un certain nombre d'équations mathématiques sont utilisées pour modéliser les contraintes induites par la chaleur, dont la plupart contiennent un Équation d'Arrhenius composant. "Cela signifie qu'il existe une énergie d'activation particulière pour un effet particulier, et une fois que vous aurez créé cette quantité d'énergie, alors l'effet se produira", a déclaré Rob Aitken, un chercheur. Synopsys compagnon. "À mesure que vous augmentez la température dans un système, vous augmentez la quantité d'énergie, vous augmentez la probabilité que ces événements se produisent, et vous constatez ainsi une augmentation exponentielle de tout ce qui se passe en fonction de la température."

Il y a aussi L'équation de Black pour l'électromigration, qui a une dépendance similaire à la température par rapport au temps moyen jusqu'à défaillance (MTTF), ainsi qu'une dépendance à la densité de courant, où plus élevée est pire.

À mesure que la température augmente, un certain nombre d’effets – porteurs chauds, électromigration, contrainte de tension et contrainte thermique – s’aggravent. « Cela est associé à une variation statistique de la température à travers la puce, ce qui signifie que dans les dispositifs planaires, il y avait des effets du type : « Oh, cette chose empire. » L'instabilité de température de biais (BTI) est l'exemple classique », a expliqué Aitken. "Ça s'empire. Vous éteignez l'appareil, et cela s'améliore, mais cela empire encore, dans un comportement semblable à celui d'une dent de scie. S'il n'a jamais l'occasion de se détendre, la dent de scie ne descendra pas aussi loin la fois suivante et la situation ne fera qu'empirer avec le temps.

Les équations pertinentes ici sont des modèles statistiques, qui supposent que si vous disposez de suffisamment d'instances de quelque chose, elles suivront ce comportement. En termes simples, vous vous attendez à ce qu’ils échouent au fil du temps à un rythme prévisible. C’est le fondement de presque toutes les analyses de fiabilité, qui sont essentiellement un mécanisme de défaillance dans le temps.

"Bien qu'il existe de nombreuses équations, il existe également un défi: vous pouvez modéliser ces choses à un niveau macro, même si au niveau micro, vous ne le pouvez probablement pas", a déclaré Aitken. « Cela signifie que vous devez supposer que les personnes qui conçoivent le processus examinent le niveau de l'appareil, déterminent quel est le profil de fiabilité au niveau de l'appareil et créent une sorte de modèle vieillissant basé sur cela. Encore une fois, vous pouvez avoir le solveur le plus sophistiqué au monde, mais il ne sera pas en mesure de résoudre toutes les instances existantes. Il faut choisir. »

Quand les choses ont empiré
Le stress n’est pas un défi nouveau, mais avant les 90 nm, il était largement ignoré.

"C'est à ce moment-là que nous avons commencé à prendre cela plus au sérieux", a déclaré John Ferguson, directeur de la gestion des produits chez Siemens Digital Industries Software. Dans la conception de SoC, il existe des problèmes étranges dans la façon dont nous effectuons généralement la conception CMOS, tels que les drains de source partagés et peut-être plusieurs actifs dans un puits. Ces caractéristiques créent des contraintes localisées qui affectent les transistors individuels. Cela soulève la question suivante : « Si je présente tout cela de la même manière, mais que certains fonctionnent différemment des autres, que se passe-t-il ? Comment puis-je empêcher cela ?

Bien qu’il n’existe pas de solution unique, il existe des moyens d’atténuer l’impact de divers types de stress. "RDC des règles sont toujours mises en place pour dire : « Si vous placez ces choses trop près ou trop loin, nous savons qu'elles vont être horribles » », a déclaré Ferguson. « Le nœud 90 nm est le moment où nous avons commencé à introduire le concept d'ajout des impacts de contraintes à la simulation post-mise en page avec des propriétés avancées. Cela signifie que chaque appareil individuel de la netlist obtient une propriété qui indique quelque chose sur son stress.

Ces données sont ensuite intégrées aux modèles de processus, ce qui, à l’époque du 90 nm, représentait un gros casse-tête. « Comment les définir, y compris ce qui se passe lorsqu'il y a des choses en série, en parallèle, ainsi que la manière dont ces changements changent, a finalement été résolu. Nous avons été bons pendant un moment.

Aujourd’hui, alors que l’industrie se prépare à proposer des chips dans différents formats d’emballage, cela devient encore plus problématique.

"D'un point de vue purement mécanique, vous devez penser non seulement à concevoir le chiplet et un autre juste en dessous", a déclaré Ferguson. « Il y a de nombreuses considérations différentes. Vous devez également comprendre que cela exerce une pression sur ces appareils. Le thermique ajoute un autre impact. Il s’agit essentiellement de penser que si vous mettez quelque chose sur une autre chose, cela la réchauffe. Plus vous enfilez de manteaux, plus ils sont lourds et plus vous avez chaud. Cela nous amène à la question du vieillissement : combien de temps disposez-vous ? C'est la question à un million de dollars. Du côté de la vérification, je peux vous dire de manière relative : « Ceux-ci sont nominaux » ou « Ceux-ci sont vraiment risqués et vous devriez y regarder de plus près, et éventuellement faire quelques expériences pour déplacer un peu les choses. » Mais je ne sais pas à quel point c'est grave, donc je ne peux pas dire : « Vous pouvez l'utiliser 50 fois avant de le faire » ou : « Vous pouvez passer 10 bonnes années et vous n'avez pas à vous inquiéter. il.'"

L'impact de l'IA
Un autre domaine dans lequel les contraintes induites par la chaleur peuvent faire des ravages est celui des conceptions contenant des moteurs AI/ML, qui peuvent fonctionner à vitesse maximale pendant la majorité de leur durée de vie.

"Il y a certains systèmes que les gens veulent faire fonctionner aussi vite que possible, et d'autres qu'ils veulent durer éternellement, alors ils le rappellent en arrière", a déclaré Steve Roddy, directeur du marketing chez Quadric.io. « Il en va de même pour les autres effets de ces grosses puces d’apprentissage automatique : intégrité électrique, commutation de tension et chute de tension. Si je veux fabriquer un morceau de silicium bon marché, je vais délibérément ralentir mon NPU. Je vais décaler mes horloges. Je ne veux pas tout basculer à la limite. Je veux un arbre d'horloge délibérément mauvais (conçu astucieusement), donc je ne peux pas avoir de grandes plaques de métal empilées sur les couches 8, 9 et 10 pour empêcher la chute de tension, et ce genre de chose. Il y a tellement de choses qui sont idiosyncratiques dans la façon dont chaque concepteur de puces envisage les points de performance, la longévité, la capacité de calcul maximale par rapport à la moyenne, etc. Cela dépend beaucoup de la situation.

Roddy classe les contraintes thermiques en deux catégories. « Il y a des problèmes transitoires, comme avec les téléphones portables lorsqu'ils font une chose, puis que vous passez à votre caméra compatible avec l'IA. Soudainement, maintenant vous avez le NPU lancé et ça marche bokeh effet, embellissant votre visage, vous faisant paraître 20 ans plus jeune et vous donnant une chevelure pleine, ou autre pour que vous puissiez prendre ce selfie parfait. Les téléphones et les ordinateurs portables sont probablement les deux seules catégories dans lesquelles vous disposez de très gros cœurs d'apprentissage automatique et d'IP de processeur neuronal à usage général (GPNPU) sur lesquels ils ne fonctionnent pas toujours. Dans tout le reste, vous avez généralement conçu le système pour que cette NPU soit constamment allumée afin de ne pas subir de changements thermiques transitoires.

Les équipes d'ingénieurs qui construisent des téléphones portables ont l'habitude d'essayer de les maintenir au froid et à faible consommation jusqu'à ce que le GPU soit activé pour jouer à un jeu, par exemple, ce qui provoque des pics thermiques dus à l'activité. L’équipe de conception aurait fait la gestion de l’enveloppe thermique pour ces pics temporaires de consommation électrique.

"Mais si c'est votre caméra de sécurité intelligente sur votre porche, qui recherche les pirates du porche qui volent des trucs, elle fonctionne tout le temps", a déclaré Roddy. "Et si vous faites fonctionner des choses très chaudes tout le temps, en utilisant le gros GPU Nvidia qui est extrêmement chaud, vous avez des problèmes de longévité dus à la dégradation thermique, donc la durée de vie est plus courte."

En revanche, s’il s’agit d’une application comme une carte GPU Nvidia dans un centre de données, elle peut de toute façon être remplacée tous les deux ans. « Une prochaine puce va arriver, et sur une base de travail utile par mégawatt, vous voudrez vous débarrasser de la puce GPU vieille de trois ans, car elle fait un cinquième du travail du nouveau. un pour le même budget de puissance. Alors que si c'est dans votre voiture, vous voulez que votre voiture dure plus de trois ans, donc les gens feront fonctionner les températures de jonction des produits longue durée à une température beaucoup moins critique. S'il s'agit d'un GPU qui exploite des données Bitcoin, peu importe s'il est sur le point de mourir dans six mois, car vous allez le jeter de toute façon.

Concevoir pour le thermique
Une autre grande question est de savoir comment concevoir de manière à prendre en compte tout cela.

Ferguson a déclaré que cela correspond à la philosophie générale concernant le déplacement du travail vers la gauche. « Faites-le tôt, faites-le dès que vous le pouvez », a-t-il déclaré. « Voyez ce qu'il y a là. Ajuster. Ajoutez-en davantage. Faites un autre tour, puis un autre tour, et encore un autre. Vous devez continuer à chaque étape suivante. Une fois que vous avez résolu certains problèmes, voyez ce qui reste au fur et à mesure. Je ne connais pas de meilleure façon de procéder. C'est un processus itératif. Vous pourriez en faire un processus itératif automatisé, mais cela reste finalement une itération.

Un aspect clé de la visibilité consiste à utiliser des modèles suffisamment tôt dans la phase de conception pour tenir compte des contraintes induites par la chaleur. Aitken de Synopsys a déclaré que le moyen le plus simple de modéliser les contraintes induites par la chaleur est à un niveau macro, où vous pouvez simplement dire : « Compte tenu des effets que nous connaissons – BTI, HCI (injection de porteurs chauds), claquage diélectrique dépendant du temps (TDDB). ), etc., nous pouvons modéliser la manière dont ceux-ci sont affectés par la tension et la température. Ensuite, nous pouvons générer une bibliothèque modifiée qui prend en compte tout cela, et les outils commerciaux peuvent le faire dès maintenant.

Une autre fonctionnalité clé des outils actuels consiste à ajouter la composante charge de travail dans la planification. "Vous devez vraiment faire ça aujourd'hui parce que vous obtenez ce comportement étrange", a déclaré Aitken. « Beaucoup de ces effets ont cette soi-disant propriété curative. Si vous l'exécutez pendant un certain temps, puis que vous arrêtez de l'exécuter, vous ne pourrez pas tenir compte du vieillissement. Vous ne voulez pas surcharger la marge, car l'appareil ne serait jamais expédié.

Les modèles thermiques sont essentiels à l’analyse précoce
Les modèles thermiques sont complexes, mais ils sont essentiels pour que les architectes de puces et de systèmes puissent effectuer une analyse thermique précoce.

Ferguson de Siemens a déclaré que les modèles thermiques existent depuis un certain temps pour les processus d'emballage. « Des modèles thermiques dans la filière ? Pas vraiment tellement. Nous mettons maintenant plusieurs puces dans ces packages, et pour comprendre les problèmes thermiques, vous devez vraiment comprendre la puce elle-même. Vous ne pouvez pas le traiter comme s’il s’agissait d’un objet unique et uniforme. Ce n'est pas. Il existe des zones denses de métallisation. Il y a des zones moins denses. Le verre et le métal ont des propriétés très différentes. Les propriétés de contrainte et les propriétés thermiques, ainsi que le silicium lui-même, auront tous des comportements différents lorsqu'ils seront placés dans ce système. Cela signifie qu’il s’agit d’une approche plus systémique, et pour qu’elle soit précise, vous devez avoir un certain niveau de détail.

Joseph Davis, directeur principal des interfaces Caliber et de la gestion des produits mPower chez Siemens Digital Industries Software expliqué, a noté que la compréhension de ces effets est essentielle pour les conceptions haut de gamme, en particulier dans l'espace mobile. « Le mobile est avant tout une question de forme et de durée de vie de la batterie. La durée de vie de la batterie consiste à réduire la puissance totale. Ensuite, vous vous retrouvez avec de la 3D, mais avec un très petit package. Il faut l'éclaircir le plus possible. À l'époque où vous le mettiez simplement sur une carte, vous ne vous souciiez pas de la taille de ce silicium. Désormais, le facteur de forme fait la différence. Il y a des choses comme mourir sans emballage et mourir sur dé, et ils doivent les affiner pour pouvoir en empiler trois les uns sur les autres. Et avec cet amincissement, vous ne pouvez pas relâcher le stress de toute cette masse.

L'amincissement des métaux affecte la manière dont la chaleur agit sur la matrice. La chaleur est plus intense et il y a moins de masse pour la dissiper. Cela conduit à une variété de problèmes difficiles à trouver, tels que la cause des erreurs de données silencieuses ou la raison pour laquelle un appareil s'est arrêté.

« Est-ce une chose thermique ? Est-ce un défaut ? Est-ce tout ce qui précède ? C'est difficile à savoir, car l'un des effets secondaires de devoir imprimer des objets avec la lumière EUV et ultraviolette est que vous ne pouvez pas les voir avec des microscopes », a déclaré Aitken d'Arm. « Il faut le faire exploser avec des ultraviolets ou avec des électrons ou quelque chose pour le voir. Il existe toute une série de problèmes liés aux outils d'inspection. Ils sont très chers. Ils sont compliqués à utiliser. Et ils peuvent ou non trouver ce que vous cherchez. Vous vous retrouvez avec un effet d'éclairage public, où si je peux prédire exactement quel est le mécanisme de défaillance, je sais exactement où il se trouve, alors je peux aller le chercher et dire : « Oui, j'ai trouvé ça ». Mais si vous n’êtes pas sûr du mécanisme de défaillance, il est possible que si vous le cherchez, vous ne le trouviez pas. Il est également possible que vous détruisiez la partie de la puce qui présentait le mécanisme de défaillance avant de trouver ce que vous essayiez de trouver. Le problème est qu'il est très difficile de les trouver. Vous finissez par devoir extraire une signature comportementale de la puce pour dire : « Elle présente cette signature comportementale ». La théorie de ce mécanisme de défaillance particulier correspond au comportement observé. C’est donc probablement ça.

Il existe également un art de répéter les tests à haute tension et à différentes températures. "Les problèmes les plus difficiles à détecter sont ceux où vous pouvez constater un échec au cours d'une longue séquence d'opérations, mais vous ne pouvez pas le faire échouer à un test d'analyse classique pour une raison ou une autre", a déclaré Aitken. «Cela rend le diagnostic beaucoup plus difficile. Les outils de simulation peuvent vous aider à y parvenir, mais ils ne sont pas magiques.

Ferguson était d'accord. « L'un des plus grands défis liés aux problèmes de vieillissement liés à la chaleur est qu'il est difficile de les retracer si vous n'avez effectué aucune analyse préalable. Tout d’un coup, vous pourriez avoir un problème et vous savez que cela fonctionnait sur le banc d’essai. Ou vous l'envoyez aux clients, et trois mois plus tard, vous recevez tout un tas de retours parce qu'ils ont tous échoué. C'est un gros problème, et ils ont passé beaucoup de temps à comprendre : « J'ai trouvé ce qui ne fonctionnait pas. Pourquoi ça ne marche pas ? Vous ne voulez pas être à cet endroit. Nous avons vu des clients dans cette situation, donc la première chose que nous faisons est de les aider à déterminer où ces pannes sont susceptibles de se produire afin que vous puissiez apporter un changement avant de le construire. De plus, ce qui n'est pas beaucoup fait aujourd'hui, mais qui commence, c'est d'examiner très tôt la phase de fabrication, tant au niveau de la fabrication des matrices qu'au niveau de la fabrication au niveau de l'assemblage. Lorsque vous avez plusieurs matrices, souvent avec des bosses C4 et autres, elles passent par différents niveaux de chauffage lorsque vous assemblez les composés. Ils grandissent et diminuent à des rythmes différents. Donc, tout d'un coup, dans votre conception, toutes les boules peuvent être alignées sur les broches, mais les boules peuvent croître plus vite que le dé, et maintenant elles sont décalées et ne s'alignent pas, donc vous ne le faites pas. avoir une connexion. Vous devez attraper ce truc. Vous devez le savoir.

Conclusion
Le stress est l’un des plus grands défis au niveau des nœuds avancés et des emballages avancés, et il doit être traité dès le début du cycle de conception.

"Les contraintes thermiques peuvent avoir un effet significatif sur la résistance et la stabilité d'une structure, provoquant potentiellement des fissures ou des cassures au sein de certains composants", a déclaré Roshandell de Cadence. « De telles pannes mettent en danger la fiabilité globale de l’électronique, ce qui peut entraîner un affaiblissement et une déformation, voire une rupture. Les équipes de conception peuvent contribuer à éviter les problèmes de stress en effectuant une analyse de conception précoce pour atténuer tout risque.

Ce stress peut se manifester de plusieurs manières, du vieillissement à la déformation. « Par exemple, dans la dernière conception AMD 3D-IC avec la technologie SOIC, mentionnée dans Hot Chips 2021, le silicium structurel est utilisé pour équilibrer l'intégrité structurelle de la conception », a déclaré Chang d'Ansys. « La simulation des contraintes/déformations doit également être effectuée avant le retrait du ruban adhésif, pour s'assurer que les déformations/contraintes maximales ne dépassent pas les directives des fonderies. »

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?