Zephyrnet-logo

IC-betrouwbaarheidslast verschuift naar links

Datum:

De betrouwbaarheid van chips wordt veel strenger gecontroleerd, aangezien IC-gestuurde systemen steeds kritischere en complexere rollen op zich nemen. Dus of het nu een verdwaald alfadeeltje is dat een geheugenbit omdraait, of een aantal lang sluimerende softwarebugs of latente hardwaredefecten die plotseling problemen veroorzaken, het is nu aan de chipindustrie om deze problemen te voorkomen en ze op te lossen wanneer ze ontstaan.

Tegen de tijd dat deze systemen de productie bereiken - of erger nog, wanneer ze in het veld defect raken - is het vermogen om problemen op te lossen zowel beperkt als kostbaar. Dus systeemleveranciers en gieterijen hebben het probleem dat nog in de ontwerp-door-fabricagestroom was achtergebleven, helemaal terug naar de oorspronkelijke architectuur en lay-out geschopt, gevolgd door veel intensievere verificatie en debuggen.

Betrouwbaarheid hangt af van het oplossen van problemen die zich bij elke stap van de stroom kunnen voordoen. De uitdaging op chipniveau is ervoor te zorgen dat steeds complexere chips ook hun hele levensduur kunnen blijven functioneren in diep genuanceerde toepassingen en use cases.

"We zijn van de traditionele halfgeleiderconcepten van betrouwbaarheid overgegaan naar technische teams die meer willen analyseren aan de systeemkant van dingen, tot interacties met zaken als zachte fouten en software", zegt Simon Davidmann, CEO van Imperas-software. “Bijvoorbeeld in de auto ISO 26262 kwalificatie, is een van de dingen die ontwikkelaars echt verontrusten, dat vanwege de kleine geometrieën van het silicium de mogelijkheid bestaat voor willekeurige bit-flips in geheugencaches door kosmische straling, en ze willen weten of de software veerkrachtig genoeg is. Overleeft het systeem als bepaalde fouten optreden? Hoe overleeft de software met een zekere mate van willekeur? Blijft de auto sturen? Blijven de remmen werken als de caches beschadigd raken?”

Traditionele meetwaarden zoals badkuipcurves, CMP-modellering en SEM-afstanden vormden tien jaar geleden het grootste deel van de betrouwbaarheidsbenchmarks. Sindsdien zijn er meer meetwaarden toegevoegd, van ontwerp tot productie, en zelfs in het veld waar realtime monitoren kunnen meten hoe een apparaat op een bepaald moment presteert. En er zijn veel meer mensen die deze statistieken gebruiken.

"Een van deze geïnteresseerde partijen is de materiaalwetenschapper", zegt Matthew Hogan, directeur productbeheer voor betrouwbaarheidstoepassingen bij Siemens Digital Industries-software. “Ze kijken naar elektromigratie, bijvoorbeeld. 'Wat is de nieuwste metaallegering die we kunnen gebruiken die harder is, die elektromigratie vermindert, die helpt bij het ontwerp, maar ook compatibel is met de rest van het ontwerpecosysteem en de hulzen en de inzetstukken die we gebruiken voor via's? Misschien willen we dat op bepaalde specifieke metaallagen toepassen.' Een paar jaar geleden was er een grote voorpagina [in een vakblad] over hoe Intel metaallegeringen gebruikte, en het zou het op één na beste zijn. Er is veel onderzoek gedaan en 'de lucht valt' proclamaties voor elektromigratie omdat de knooppunten kleiner worden. FinFET's kunnen stroom met aanzienlijk hogere dichtheden duwen, maar de draaddiktes worden dunner. En toch lijken we generatie na generatie na generatie nog steeds chips te kunnen maken. Wat er nu gebeurt, is dat de ontwerpmarges die we vroeger hadden, worden uitgehold, dus wij als industrie proberen met meer duidelijkheid de werkelijke ontwerpmarges te begrijpen waar we naar moeten kijken voor het succesvolle gebruik van dit ontwerp.”

Dat bemoeilijkt de betrouwbaarheidsanalyse. Hoewel de term nog steeds een reeks metingen en statistische technieken definieert voor het inschatten van de kans dat een bepaald product, circuit of apparaat zal falen, is het een enorme uitdaging om het vertrouwen te krijgen dat het consistent en voorspelbaar zal werken over een brede reeks variabelen.

"Omdat er verschillende mechanismen zijn waardoor een stuk hardware kan falen, zijn er veel verschillende soorten betrouwbaarheidstesten die ingenieurs uitvoeren", zegt Matthew Ozalas, applicatie-ontwikkelingsingenieur en wetenschapper bij Keysight Technologies. "Veel veelgebruikte tests worden versneld, waarbij apparaten worden onderworpen aan stressomstandigheden die verder gaan dan normaal gebruik en worden gecontroleerd om faalstatistieken af ​​te leiden over een veel langere periode dan de test. Enkele veelgebruikte versnelde betrouwbaarheidstests zijn de levensduur bij hoge temperatuur (HTOL), waarbij een monsterset van onderdelen bij een hoge temperatuur onder elektrische werking wordt uitgevoerd; opslag bij hoge temperatuur (HTS), waarbij een monster van onderdelen wordt opgeslagen in een 'uit'-toestand bij een hoge temperatuur; en zeer versnelde temperatuur- en vochtigheidsstresstest (HAST), waarbij een apparaat wordt blootgesteld aan hoge vochtigheids- en temperatuurniveaus, mogelijk onder elektronische prikkeling.

Andere soorten betrouwbaarheidsanalyse onderwerpen het apparaat rechtstreeks aan bekende storingscondities, zoals: elektrostatische ontlading. "Dat omvat het toepassen van een specifiek aantal 'zaps' van hoogspanningstestsignalen op een extern toegankelijk knooppunt onder normale of gewijzigde elektrische werking, en vervolgens het bewaken van de storing nadat de stresssignalen zijn toegepast," zei Ozalas. “Als het apparaat slaagt, wordt de spanning verhoogd totdat het uitvalt. Dan krijgt het een rating.”

Bovendien kunnen sommige mechanische stresstests relevant zijn voor elektronica, zoals flex en trillingen. Deze zijn meestal relevanter voor verpakkings- of bordontwerpen, in tegenstelling tot halfgeleiders, maar niet altijd. Deze tests dragen bij aan de complexiteit van het proberen erachter te komen wat er precies mis kan gaan voordat een apparaat wordt verzonden, en wat er mis is gegaan nadat het in het veld is geweest.

Veel hiervan valt onder de algemene noemer faalanalyse. "Dit is het concept dat alles wat binnenkomt wordt gecategoriseerd voordat ze echt weten wat de echte waarde is", zegt Hogan van Siemens. “Er is een drang om het elektrisch veroorzaakte fysieke schade (EIPD) te noemen, in plaats van het elektrische overbelasting (EOS) of elektrostatische ontlading (ESD) of iets anders te noemen. Als het in deze categorie van EIPD wordt geplaatst, betekent dit dat als je eenmaal de faalanalyse hebt uitgezocht, je terug moet gaan en dat opnieuw moet categoriseren, want als je het eerst ESD of EOS noemt, gaan mensen rondrennen met hun haren in brand zeggen: 'We moeten met dit team en dat team praten.' Maar de storingsanalyse-persoon, ze zoeken nog steeds naar de werkelijke oorzaak. Dus met deze categorie EIPD heb je nu een categorie die je daadwerkelijk kunt onderzoeken, begrijpen en het ware foutmechanisme kunt vinden."

Verder merkte Hogan op dat er veel grafieken zijn over het retourneren van fouten. ''Hoe ziet die grafiek van waarom we deze chips terugkrijgen eruit?' We zijn erg gesteld op dit idee van verificatie voordat de chip uitvalt om ervoor te zorgen dat we die problematische gebieden vermijden, hetzij door gebruik te maken van de regeldecks van de gieterij, die in veel gevallen briljant zijn, of door plus-één controles toe te voegen die u intern hebben. Die regeldecks voor gieterijen bieden u een basis van betrouwbaarheid en vervolgens vult u die basislijn aan met uw aanvullende controles.”

Vanuit een chipperspectief is een van de belangrijkste maatstaven voor betrouwbaarheid de signaalintegriteit. Dit klinkt misschien eenvoudig genoeg, maar er zijn veel bewegende stukken in een complex systeem.

Bedenk bijvoorbeeld wat er gebeurt met hogere datasnelheden in DDR5. "Je hebt een zeer brede parallelle bus die qua signalering pseudo-single-ended is", zegt Rami Sethi, vice-president en algemeen directeur bij Renesas Electronics. “Maar als je probeert te draaien op 4.8 gigabit per seconde, wat het startpunt is voor DDR5, en dat combineert met het feit dat we nu chips ontwerpen die gaan draaien op 5.6 en 6.4 giga-overdrachten per seconde ( GT/s), loop je tegen veel uitdagingen aan op het gebied van signaalintegriteit en datatiming. Als gevolg hiervan implementeren we technieken die je meer zou zien in de snelle seriële wereld. Het doel is snelheid en data-integriteit. Die gaan hand in hand. Er is ook het ondergewaardeerde element van het DIMM-servermodel. Het is een multi-drop bus, dus je gaat niet alleen van punt naar punt. Je gaat eigenlijk point-to-multipoint om alle klassieke problemen met signaalintegriteit en zelfs stroomintegriteitsproblemen op te lossen.”

Dit zal vooral van belang zijn omdat het systeemontwerp minder deterministisch en waarschijnlijker wordt. Dat roept de vraag op welk nauwkeurigheidsniveau nodig is voor een bepaalde toepassing en hoe de betrouwbaarheid kan worden gemeten als die nauwkeurigheid verschuift.

"In de serverwereld legt het idee van de klassieke beschikbaarheid van vijf negens en de RAS-vereisten, vooral aan de kant van de signaalintegriteit, een behoorlijk hoge lat," zei Sethi. “Terwijl technische teams proberen om extra geheugen of een grotere geheugenvoetafdruk toe te voegen aan CPU's, wordt dit vaak gedaan door meer geheugenkanalen toe te voegen. Maar het is erg moeilijk om verder te schalen dan de twee DIMM-slots per kanaal waarmee de meeste servers tegenwoordig werken. Dus wat doe je? Je voegt meer zenders toe. Maar dat betekent dat het fysieke gebied dat de DIMM-slots in beslag nemen een veel groter gebied is, en dat ze verder van de CPU op het bord af bewegen omdat ze er meer hebben. De problemen met de signaalintegriteit nemen toe naarmate er meer geheugenkanalen worden toegevoegd.”

Verticale segmentatie is belangrijk
Verschillende industrieën hebben verschillende betrouwbaarheidstechnieken en -vereisten. Ozalas van Keysight zei in sommige gevallen dat de tests hetzelfde zijn, maar de specificaties zijn strenger. “In andere gevallen zijn de tests ook anders of uniek. Test- en meetproducten hebben bijvoorbeeld doorgaans een langere levensduur dan cellulaire gebruikersapparatuur (UE). Dus de HTOL-testopstelling kan hetzelfde zijn voor een IC die in beide soorten producten wordt gebruikt. Maar als de IC in een test- en meettoepassing gaat, zal deze strengere specificaties hebben voor de gemiddelde tijd tot falen (MTTF), waardoor ontwerpingenieurs zich in hun ontwerp aan verschillende randvoorwaarden moeten houden. Voor ruimte-elektronica moeten deze onderdelen voldoen aan hogere MTTF-specificaties, maar ze moeten ook voldoen aan de vereisten voor stralingsharding, en test- en meet- of cellulaire UE-producten zijn niet onderworpen aan deze specificaties.

Vanuit het oogpunt van gereedschap verandert er niet veel van het ene marktsegment naar het andere. Wat wel verandert, is hoeveel tijd er aan die tools wordt besteed.

"Gebruik uw geautomatiseerde tools, wees consistent", zei Hogan. “Doe elke keer hetzelfde. Maar waar u naar controleert, is heel anders, afhankelijk van de branche. Als je elektronica voor één toepassing doet, heb je mogelijk verschillende faalwijzen en verschillende ontwerpvereisten en andere betrouwbaarheidscontroles die je wilt doen in vergelijking met iemand anders in een aangrenzende verticaal.

In de automobielindustrie kunnen de gebruikte gereedschapskettingen bijvoorbeeld exact hetzelfde zijn. "Maar de regelkaarten en de controles, en de verwachtingen voor een lange levensduur en hoeveel u om deze afwijkingen geeft, kunnen enorm verschillen, afhankelijk van hoe lang u verwacht dat dit product op de markt zal worden gebruikt", zei hij. “Wat zijn de kosten van terugroepacties? Is het een kinderspeelgoed dat maar zes maanden wordt gebruikt, en het maakt je niet uit omdat het een wegwerpartikel is? Is het een auto die zelfs 5 of 10 jaar later moet worden teruggeroepen? Afhankelijk van de branche waarin u zich bevindt, zouden de IC's die in een consumentenproduct worden gebruikt, heel andere zorgen hebben dan auto's, die kunnen worden gebruikt in functionele veiligheid of een infotainmentsysteem. Dus zelfs binnen automotive zijn er deze facties.”

Hetzelfde geldt voor verschillende consumenten- of industriële componenten, evenals voor IoT.

"Als je op zoek bent naar bepaalde soorten analyse voor een bepaald type betrouwbaarheid, moet je de buckets definiëren waarin je dingen gaat plaatsen - de terminologie, enz., Samen met de drempels van wat je als onbetrouwbaar en betrouwbaar”, merkte Davidmann op. “Het gaat erom hoe goed getest en geverifieerd dit stukje technologie is? Is het een prototype? Is het een onderzoeksding? Is het getest in de echte wereld en zal dat er op de een of andere manier mee te maken hebben?”

Davidmann wees naar NASA's Technisch gereedheidsniveau, die de gereedheid beoordeelt op een schaal van één tot negen. TRL 9 is beperkt tot technologie die "vlucht bewezen" is.


Fig. 1: NASA's technologische gereedheidsniveaus. Bron: NASA

Betrouwbaarheidsanalyse voor analoog versus digitaal
Twee van de belangrijkste oorzaken van het falen van de betrouwbaarheid zijn fysica en circuitontwerp, maar dat zijn zeer brede gebieden met veel mogelijke permutaties, en ingenieurs die aan die ontwerpen werken, hebben zeer verschillende doelen en verwachtingen.

"Analoge en digitale circuits gebruiken vaak dezelfde apparaten met dezelfde fysica, maar de ontwerpen zijn verschillend, dus stimuleren ze verschillende faalmechanismen in de apparaten", legt Ozalas van Keysight uit. “Bijvoorbeeld, op een hoog niveau kan zowel een analoog als een digitaal circuit HTOL-testen ondergaan, maar de storing die door de test wordt veroorzaakt, kan te wijten zijn aan een geheel ander mechanisme in de halfgeleider (dwz elektromigratie versus injectie van warme dragers), omdat het type van het circuit bepaalt het type spanning dat op het apparaat wordt uitgeoefend. Dit betekent dat ingenieurs rekening moeten houden met verschillende soorten storingsfysica bij het ontwerpen van analoge versus digitale circuits.”

Zelfs voor dezelfde toepassing kunnen de betrouwbaarheidsbehoeften veranderen. "In de afgelopen vier of vijf jaar is er een grotere interesse geweest in spanningsbewuste DRC (controle van ontwerpregels)”, zei Hogan. "Dat zorgt ervoor dat de traceerruimte goed is voor productie, maar onder elk van die draden zit oxide, en je kunt een tijdsafhankelijke diëlektrische doorslag van dat oxide op de signalen hebben. Als ik een lijn van 1.5 volt heb naast een lijn van 1.8 volt, wat is dan de afstand die ik nodig heb tussen die lijnen en andere lijnen van 1.8 volt of 0.95 volt? En de 0.95 volt is misschien wel de minimale productieregel. Dat is geweldig. Maar als je nu een signaal van 1.5 volt of zelfs 0.5 volt hebt dat ernaast zweeft, welke extra ruimte heb je dan nodig om die diëlektrische doorslag te voorkomen en ervoor te zorgen dat het ontwerp betrouwbaarder wordt? Dat gaat meer over de functionaliteit van de chip, en waar je als ontwerper om geeft om ervoor te zorgen dat je die gaat vastleggen.”

Dit is ook een van de grootste verschillen tussen analoge en digitale ontwerpen. "Voor analoog denk je constant aan de subtiele ontwerpproblemen, inclusief symmetrische fouten," zei Hogan. "Hoe krijg ik een reeks apparaten voor bijvoorbeeld een airbag die constant zullen verouderen? Misschien moet je wat dummy-apparaten aan de rand daarvan plaatsen, zodat wanneer je dichter bij putten of andere ontwerpstructuren bent, het de dummy-apparaten zijn die andere verouderingscriteria hebben in plaats van de actieve apparaten in het midden van dat cluster. Bij analoge beperkingscontrole moeten analoge ontwerpen deze genuanceerde ideeën begrijpen om ervoor te zorgen dat er symmetrie in het ontwerp is, dat u voor deze dummy-apparaten zorgt, dat de analoge structuren die u maakt de juiste patronen en structuren hebben door hun implementatie, zodat ze gedragen zich zoals jij dat wilt.”

Dit is heel anders dan het digitale perspectief, waar veel nadruk ligt op timing, lekkage en meerdere machtsdomeinen. “Hoe beheer ik de power-envelop die ik heb? Met zoveel toepassingen op batterijen nu, hoe zorg ik ervoor dat de batterij langer meegaat? De batterijtechnologie is niet zo snel versneld als iemand zou willen, dus wat we aan de ontwerpkant moesten doen, was slimmer en uitgebreider zijn in de manier waarop we de verschillende bevoegdheden, machtsstructuren en machtsdomeinen in het ontwerp beheren, door delen van de chip uit te schakelen en ze met lagere snelheden te laten werken, "zei Hogan. “Er wordt veel innovatief nagedacht over hoe we de levensduur en levensduur van de structuren die we hebben kunnen verlengen, zodat ze aan de stroomvereisten kunnen voldoen. Maar vanuit een betrouwbaarheidsperspectief, als we door deze verschillende delen van het ontwerp gaan, hoe zorgen we er dan voor dat we de juiste structuren hebben, zodat we naadloos die omschakelingen kunnen doen en niet struikelen over ontwerpproblemen?”

Elektromigratie is een ander onderdeel van de vergelijking voor analoge betrouwbaarheidsanalyse. "We zijn sterk in spanningsdaling in elektromigratie aan zowel de digitale als de analoge kant", zegt Marc Swinnen, directeur productmarketing voor de halfgeleiderdivisie van Ansys. "Voor analoog hebben we een speciale versie van een tool die dezelfde fundamentele algoritmen en oplossers heeft, maar is gericht op transistorniveau. Het kijkt naar het ontwerptransistorniveau en rapporteert: KRUID rapporten. De input, de output en sommige van de vragen die je stelt, zijn enigszins anders.

Dat is echter maar één puzzelstukje. “Op chipniveau kijken we ook naar elektrostatische ontlading, een ander betrouwbaarheidsprobleem”, zegt Swinnen. “Er is een specifieke controle op transistorniveau die moet plaatsvinden, en traditioneel wordt dat pas laat gedaan als onderdeel van de LVS-run. Maar klanten willen het echt tijdens de ontwerpcyclus doen, dus gebruiken ze een ESD-checker.”


Fig. 2: Voorspellingsgrafiek van de outputlevensduur met halfgeleiderslijtage. Bron: Ansys

Conclusie
Wat vandaag anders is, is hoeveel van deze steeds kritiekere systemen nu afhankelijk zijn van chips. In auto's waren de meest kritieke functies volledig mechanisch. Bovendien doet de elektronica nu meer dan de mechanische systemen vroeger, zoals het voorkomen van ongevallen met dode hoeken of het niet snel genoeg herkennen van remlichten.

"Aangezien bijna elk systeem waar we om geven begint met een IC, hebben we de term 'betrouwbaarheidsanalyse' geherdefinieerd tot 'betrouwbaarheidsverificatie', zegt Hogan. “Analyse is een overzicht van de resultaten die zijn gebeurd. Je hebt een chip terug naar je FEM-lab, ze hebben het voor je uit elkaar gehaald en je verteld wat er is gebeurd. Of je hebt wat simulaties gedaan, leuk of niet, en je gebruikt dat om richting te geven aan wat er kan gebeuren. Vanuit een verificatieperspectief proberen we de gieterijen en de ontwerpbedrijven aan te moedigen om die lessen en die ervaring te gebruiken om ontwerpregels te creëren die deze problematische ontwerpgebieden zullen vermijden.”

En terwijl traditionele controles nogal wat onder de term "betrouwbaarheidsanalyse" vallen, vereisen de huidige complexe systemen veel andere analyses om zeker te zijn dat ze betrouwbaar zijn, waaronder enkele die verder gaan dan verificatie.

"Verificatie is alleen maar analyseren op juistheid", zegt Davidmann van Imperas. “Betrouwbaarheid is analyseren op juistheid in de tijd. Hoe lang blijft dit systeem in de lucht? En hoe weet je dat dingen vrij zijn van bugs? Af en toe start mijn iPhone opnieuw op. Waarom is dat? Het is omdat het heeft gedetecteerd dat er iets niet klopt. Je kunt niet bewijzen dat software geen fouten bevat, dus je schrijft er veel software omheen en voegt monitoren toe die zeggen: 'Dat klopt niet. Laat me opnieuw opstarten.' Of u bouwt monitoren om u te helpen meer uptime te hebben. Als mijn Linux-machine crasht, ligt hij uit de lucht. Als mijn telefoon crasht, komt hij terug. We hebben als industrie veel zorgen om de betrouwbaarheid van systemen te analyseren.”

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?