Zephyrnet-logotyp

IC-tillförlitlighetsbördan skiftar åt vänster

Datum:

Chips tillförlitlighet kommer under mycket hårdare granskning när IC-drivna system tar på sig allt mer kritiska och komplexa roller. Så oavsett om det är en herrelös alfapartikel som vänder en minnesbit, eller några länge vilande mjukvarubuggar eller latenta hårdvarufel som plötsligt orsakar problem, är det nu upp till chipindustrin att förhindra dessa problem i första hand och lösa dem när de uppstår.

När dessa system når tillverkningen – eller ännu värre, när de inte fungerar i fält – är möjligheten att åtgärda problem både begränsad och kostsam. Så systemleverantörer och gjuterier har sparkat problemet kvar i design-till-tillverkningsflödet, hela vägen tillbaka till den ursprungliga arkitekturen och layouten, följt av mycket mer intensiv verifiering och felsökning.

Tillförlitlighet beror på att åtgärda problem som kan dyka upp i varje steg i flödet. Utmaningen på chipnivå är att se till att allt mer komplexa chip också kan fungera under hela sin livstid i djupt nyanserade applikationer och användningsfall.

"Vi har gått från de traditionella halvledarkoncepten för tillförlitlighet till teknikteam som vill analysera mer på systemsidan av saker och ting, till interaktioner med saker som mjuka fel, såväl som mjukvara", säger Simon Davidmann, VD för Imperas programvara. "Till exempel inom bilindustrin ISO 26262 kvalificering, en av de saker som verkligen är oroande för utvecklare är att på grund av kislets små geometrier finns det potential för slumpmässiga bitflip i minnescacher från kosmiska strålar, och de vill veta om programvaran är tillräckligt motståndskraftig. Kommer systemet att överleva om vissa fel uppstår? Med en viss grad av slumpmässighet, hur överlever programvaran? Kommer bilen att fortsätta styra? Kommer bromsarna att fortsätta fungera om cacherna skadas?”

Traditionella mätvärden som badkarskurvor, CMP-modellering och SEM-pitches utgjorde huvuddelen av tillförlitlighetsriktmärken för ett decennium sedan. Sedan dess har fler mätvärden lagts till från design till tillverkning och till och med på fältet där realtidsmonitorer kan mäta hur en enhet presterar vid varje given tidpunkt. Och det finns många fler människor som använder dessa mätvärden.

"En av dessa intresserade parter är materialvetaren", säger Matthew Hogan, produktledningschef för tillförlitlighetstillämpningar på Siemens Digital Industries-programvara. "De tittar på elektromigration, till exempel. "Vilken är den senaste metallegeringen som vi kan använda som är hårdare, som minskar elektromigrering, som hjälper till med designen, men som också är kompatibel med resten av designekosystemet, och ärmarna och insatserna som vi använder för vias? Vi kanske vill använda det på vissa specifika metallskikt.' För ett par år sedan spreds det en stor framsida [i en branschtidning] om hur Intel använde metallegeringar, och det skulle bli det näst bästa. Det har gjorts massor av forskning och "himlen faller" proklamationer för elektromigrering eftersom noderna blir mindre. FinFET kan trycka på ström vid betydligt högre densiteter, men trådtjockleken blir allt tunnare. Och ändå verkar vi fortfarande kunna göra chips generation efter generation efter generation. Det som händer nu är att designmarginalerna vi brukade urholkas, så vi som industri försöker med större tydlighet förstå de faktiska designmarginalerna som vi måste titta på för att den här designen ska kunna användas framgångsrikt.”

Det komplicerar tillförlitlighetsanalysen. Även om termen fortfarande definierar en uppsättning mätningar och statistiska tekniker för att uppskatta sannolikheten för att en given produkt, krets eller enhet kommer att misslyckas, är det en stor utmaning att uppnå förtroende för att det kommer att fungera konsekvent och förutsägbart över en bred uppsättning variabler.

"Eftersom det finns flera mekanismer genom vilka en hårdvara kan misslyckas, finns det många olika typer av tillförlitlighetstester som ingenjörer utför", säger Matthew Ozalas, applikationsutvecklingsingenjör och forskare på Keysight Technologies. "Många vanliga tester accelereras, varvid enheter utsätts för stressförhållanden utöver normal drift och övervakas för att sluta sig till felmätningar över en mycket längre period än testet. Några vanliga accelererade tillförlitlighetstester är hög temperatur driftslivslängd (HTOL), där en provuppsättning av delar körs vid hög temperatur under elektrisk drift; högtemperaturlagring (HTS), där ett prov av delar lagras i ett "avstängt" tillstånd vid en hög temperatur; och högt accelererad temperatur- och fuktighetsstresstest (HAST), där en enhet utsätts för höga luftfuktighets- och temperaturnivåer, möjligen under elektronisk stimulans."

Andra typer av tillförlitlighetsanalyser utsätter enheten direkt för välkända feltillstånd, som t.ex elektrostatisk urladdning. "Det innebär att ett specifikt antal högspänningstestsignaler appliceras på en externt tillgänglig nod under normal eller modifierad elektrisk drift, och sedan övervaka fel efter att stresssignalerna har applicerats," sa Ozalas. "Om enheten passerar höjs spänningen tills den misslyckas. Då får den ett betyg."

Dessutom kan vissa mekaniska stresstester vara relevanta för elektronik, som flex och vibration. Dessa är vanligtvis mer relevanta för paket- eller kortdesigner, i motsats till halvledare - men inte alltid. Dessa tester ökar komplexiteten i att försöka ta reda på exakt vad som kan gå fel innan en enhet skickas, och vad som gick fel efter att den kommit i fält.

Mycket av detta faller under den allmänna rubriken felanalys. "Det här är konceptet att allt som kommer in kategoriseras innan de faktiskt vet vad det verkliga värdet är", säger Siemens Hogan. "Det finns en push att kalla det elektriskt inducerad fysisk skada (EIPD), istället för att kalla det elektrisk överstress (EOS) eller elektrostatisk urladdning (ESD), eller något annat. Om det läggs i den här kategorin av EIPD betyder det att när du väl har listat ut felanalysen måste du gå tillbaka och omkategorisera det, för om du först kallar det ESD eller EOS så springer folk runt med håret i brand. säger: 'Vi måste prata med det här laget och det laget.' Men misslyckandeanalyspersonen, de klurar fortfarande på den faktiska orsaken. Så med den här kategorin EIPD har du nu en kategori som du faktiskt kan undersöka, förstå och hitta den verkliga felmekanismen."

Vidare noterade Hogan att det har funnits många grafer över felavkastning. "'Hur ser diagrammet över varför vi får tillbaka dessa marker ut?' Vi är verkligen stora på den här idén om verifiering innan chippet går ut för att se till att vi undviker de problematiska områdena, antingen genom att utnyttja gjuteriregeldäcken, som är briljanta i många fall, eller genom att lägga till plus-ett-checkar som du har internt. Dessa gjuteriregeldäck ger en baslinje av tillförlitlighet för dig, och sedan kompletterar du den baslinjen med dina ytterligare kontroller."

Ur ett chipperspektiv är ett av nyckelmåtten på tillförlitlighet signalintegritet. Detta kan låta okomplicerat nog, men det finns många rörliga bitar i ett komplext system.

Tänk på vad som händer med högre datahastigheter i DDR5, till exempel. "Du har en väldigt bred parallellbuss som är pseudo-singel-endad, när det gäller signaleringen", säger Rami Sethi, vice vd och general manager på Renesas Electronics. "Men när du börjar försöka köra med 4.8 gigabit per sekund, vilket är utgångspunkten för DDR5, och kombinera det med det faktum att vi nu designar chips som kommer att köras med 5.6 och 6.4 giga-överföringar per sekund ( GT/s) börjar du stöta på många utmaningar kring signalintegritet och datatiming. Som ett resultat implementerar vi tekniker som du skulle se mer i den seriella höghastighetsvärlden. Målet är hastighet och dataintegritet. De går hand i hand. Det finns också det underskattade elementet i DIMM-servermodellen. Det är en multi-drop buss, så du går inte bara från punkt till punkt. Du kommer faktiskt att gå från punkt-till-multipunkt för att ta itu med alla de klassiska signalintegritetsproblemen, och till och med strömintegritetsproblem."

Detta kommer att vara särskilt viktigt eftersom systemdesign blir mindre deterministisk och mer probabilistisk. Det väcker frågan om vilken noggrannhetsnivå som behövs för en viss applikation, och hur man mäter tillförlitlighet om den noggrannheten ändras.

"I servervärlden driver föreställningen om de klassiska fem niornas tillgänglighet och RAS-kraven, särskilt på signalintegritetssidan, en ganska hög bar," sa Sethi. "När ingenjörsteam försöker lägga till ytterligare minne eller ett större minnesutrymme till CPU:er, görs detta ofta genom att lägga till fler minneskanaler. Men det är väldigt svårt att skala bortom de två DIMM-platserna per kanal som de flesta servrar arbetar med idag. Så vad gör du? Du lägger till fler kanaler. Men det betyder att det fysiska området som DIMM-kortplatserna upptar är mycket större område, och de flyttar sig längre bort från CPU:n på kortet bara på grund av att de har fler av dem. Signalintegritetsproblemen fortsätter att förvärras när fler minneskanaler läggs till."

Vertikal segmentering spelar roll
Olika branscher har olika tillförlitlighetstekniker och krav. Keysights Ozalas sa i vissa fall att testerna är desamma, men specifikationerna är strängare. "I andra fall är testerna olika eller unika också. Till exempel har test- och mätprodukter vanligtvis längre livslängd än mobilanvändarutrustning (UE). Så HTOL-testinställningen kan vara densamma för en IC som används i båda typerna av produkter. Men om IC:n går in i en test- och mätapplikation kommer den att ha strängare specifikationer för medeltid till fel (MTTF), vilket kommer att kräva att konstruktionsingenjörer följer olika gränsvillkor i sin design. För rymdelektronik måste dessa delar uppfylla högre MTTF-specifikationer, men de måste också uppfylla kraven på strålningshärdning, och test- och mätnings- eller cellulära UE-produkter omfattas inte av dessa specifikationer."

Ur verktygssynpunkt förändras inte mycket från ett marknadssegment till ett annat. Det som förändras är hur mycket tid som spenderas med dessa verktyg.

"Använd dina automatiserade verktyg, var konsekvent," sa Hogan. "Gör samma sak varje gång. Men vad du letar efter är väldigt olika, beroende på branschvertikaler. Om du gör elektronik för en applikation kan du ha olika fellägen och olika designkrav och olika tillförlitlighetskontroller som du vill göra jämfört med någon annan i en angränsande vertikal.”

I bilindustrin, till exempel, kan de använda verktygskedjorna vara exakt desamma. "Men regeldäcken och kontrollerna, och förväntningarna på livslängd och hur mycket du bryr dig om dessa avvikelser, kan vara väldigt olika beroende på hur mycket tid du förväntar dig att den här produkten ska användas på marknaden," sa han. "Vad är kostnaden för återkallelser? Är det en barnleksak som bara kommer att användas i sex månader, och du bryr dig verkligen inte eftersom det är en engångsvara? Är det en bil som behöver återkallas även 5 eller 10 år senare? Beroende på vilken bransch du befinner dig i, skulle de integrerade kretsarna som används i en konsumentprodukt ha mycket annorlunda omsorg än bilindustrin, som kan användas i funktionell säkerhet eller ett infotainmentsystem. Så även inom bilindustrin finns det dessa fraktioner.”

Detsamma gäller för olika konsument- eller industrikomponenter, såväl som IoT.

"Om du letar efter vissa typer av analyser för viss typ av tillförlitlighet måste du definiera de hinkar som du ska lägga saker i - terminologin, etc., tillsammans med tröskelvärdena för vad du bestämmer som opålitligt och tillförlitlig”, konstaterade Davidmann. ”Det handlar om hur väl testad och verifierad den här tekniken är? Är det en prototyp? Är det en forskningsgrej? Har det testats i den verkliga världen och på något sätt kommer det att vara relaterat till detta?”

Davidmann pekade på NASA Teknisk beredskapsnivå, som bedömer beredskap på en skala från ett till nio. TRL 9 är begränsad till teknik som har "flygbevisats".


Fig. 1: NASA:s tekniska beredskapsnivåer. Källa: NASA

Tillförlitlighetsanalys för analogt kontra digitalt
Två av de främsta orsakerna till tillförlitlighetsfel är fysik och kretsdesign, men det är väldigt breda områden med många möjliga permutationer, och ingenjörer som arbetar med dessa konstruktioner har väldigt olika mål och förväntningar.

"Analoga och digitala kretsar använder ofta samma enheter med samma fysik, men designen är olika, så de stimulerar olika felmekanismer i enheterna," förklarade Keysights Ozalas. "Till exempel, på en hög nivå, kan både en analog och digital krets genomgå HTOL-testning, men felet som testet inducerar kan bero på en helt annan mekanism inom halvledaren (dvs. elektromigrering kontra varmbärarinjektion), eftersom typen kretsen bestämmer vilken typ av spänning som appliceras på enheten. Detta innebär att ingenjörer måste överväga olika typer av felfysik när de designar analoga kontra digitala kretsar."

Även för samma applikation kan tillförlitlighetsbehoven förändras. "Under de senaste fyra eller fem åren har det funnits ett större intresse för spänningsmedveten DRC (kontroll av designregler), säger Hogan. "Det ser till att spårningsutrymmet är bra för tillverkning, men under var och en av dessa trådar finns det oxid, och du kan få tidsberoende dielektrisk nedbrytning av den oxiden på signalerna. Om jag har en 1.5 volt linje bredvid en 1.8 volt linje, vad är det avstånd som jag behöver från dessa kontra andra 1.8 volt linjer eller 0.95 volt? Och 0.95 volt kan bara vara den minimala tillverkningsregeln. Toppen. Men nu om du har en 1.5 volts eller till och med en 0.5 volts signal som flyter bredvid dessa, vilket extra avstånd behöver du för att undvika det dielektriska haveriet och se till att designen kommer att bli mer tillförlitlig? Det handlar mer om chipets funktionalitet och vad du bryr dig om som designer för att se till att du kommer att fånga det.”

Detta är också en av de största skillnaderna mellan analog och digital design. "För analogt tänker du ständigt på de subtila designfrågorna, inklusive symmetriska fel," sa Hogan. "Hur har jag en rad enheter för en krockkudde, till exempel, som kommer att åldras konsekvent? Du kanske måste sätta några dummy-enheter i kanten av dem, så att när du är närmare brunnar eller andra designstrukturer är det dummy-enheterna som har olika åldringskriterier snarare än de aktiva enheterna i mitten av det klustret. Vid analog begränsningskontroll måste analoga konstruktioner förstå dessa nyanserade idéer om att se till att det finns symmetri i konstruktionen, att du tar hand om dessa dummy-enheter, att de analoga strukturerna du skapar har rätt mönster och strukturer genom deras implementering så att de beter sig som du vill.”

Detta skiljer sig mycket från det digitala perspektivet, där mycket av fokus ligger på timing, läckage och flera kraftdomäner. "Hur hanterar jag det kraftomslag som jag har? Med så många applikationer på batterier nu, hur får jag batteriet att hålla längre? Batteritekniken har inte accelererat så snabbt som någon skulle vilja så vad vi har behövt göra på designsidan av saker och ting är att vara smartare och mer utarbetade i hur vi hanterar de olika krafterna, maktstrukturerna och maktdomänerna i designen, stänga av delar av chippet, köra dem i lägre hastigheter, säger Hogan. "Det finns massor av innovativt tänkande om hur man kan förlänga livslängden och livslängden ur de strukturer vi har så att de kan överträffa kraftkraven. Men ur ett tillförlitlighetsperspektiv, när vi går och växlar igenom dessa olika delar av designen, hur ser vi till att vi har rätt strukturer på plats så att vi sömlöst kan göra dessa växlar och inte snubbla in i designproblem?”

Elektromigrering är en annan del av ekvationen för analog tillförlitlighetsanalys. "Vi är stora när det gäller spänningsfall i elektromigrering på både den digitala och analoga sidan", säger Marc Swinnen, chef för produktmarknadsföring för halvledardivisionen på Ansys. "För analogt har vi en dedikerad version av ett verktyg som har samma grundläggande algoritmer och lösare, men som är inriktat på transistornivå. Den tittar på designtransistornivån och rapporterar ut KRYDDA rapporterar. Ingångarna, utgångarna och några av de frågor du ställer är något annorlunda.”

Det är dock bara en pusselbit. "På chipnivå tittar vi också på elektrostatisk urladdning, vilket är ett annat tillförlitlighetsproblem," sa Swinnen. "Det finns specifik transistornivåkontroll som måste ske, och traditionellt sett har det gjorts väldigt sent som en del av LVS-körningen. Men kunderna vill verkligen göra det under designcykeln, så de använder en ESD-kontroll.


Fig. 2: Förutsägelse av utdatalivslängd som visar halvledarförslitning. Källa: Ansys

Slutsats
Det som är annorlunda idag är hur mycket av dessa allt mer kritiska system som nu är beroende av chips. I bilar var de mest kritiska funktionerna förr helt mekaniska. Dessutom gör elektroniken nu mer än vad de mekaniska systemen brukade göra, som att förhindra olyckor med döda vinklar eller att inte känna igen bromsljus tillräckligt snabbt.

"Eftersom nästan alla system som vi bryr oss om börjar med en IC, har vi omdefinierat termen "tillförlitlighetsanalys" till "tillförlitlighetsverifiering", säger Hogan. ”Analys är en genomgång av de resultat som har hänt. Du fick ett chip tillbaka till ditt FEM-labb, de drog isär det åt dig och berättade vad som hände. Eller så gjorde du några simuleringar, fancy eller inte, och du använder det för vägledning om vad som kan hända. Ur ett verifieringsperspektiv är det vi försöker göra att uppmuntra gjuterierna och designföretagen att använda dessa lärdomar och den erfarenheten för att skapa designregler som kommer att undvika dessa problematiska designområden.”

Och medan traditionella kontroller täckte en hel del under terminologin "tillförlitlighetsanalys", kräver dagens komplexa system många andra analyser för att säkerställa att de är tillförlitliga, inklusive några som går utöver verifiering.

"Verifiering är bara att analysera för korrekthet", sa Imperas Davidmann. "Tillförlitlighet är att analysera för korrekthet över tid. Hur länge kommer det här systemet att vara igång? Dessutom, hur vet du att saker är felfria? Då och då startas min iPhone om. Varför är det så? Det är för att det har upptäckts att något inte stämmer. Du kan inte bevisa att programvara inte är buggig, så du skriver massor av mjukvara kring det och inkluderar bildskärmar som säger: 'Det stämmer inte. Låt mig starta om.' Eller så bygger du bildskärmar för att hjälpa dig ha mer drifttid. Om min Linux-maskin kraschar är den nere. Om min telefon kraschar kommer den tillbaka. Vi som bransch måste oroa oss mycket när det gäller att analysera tillförlitligheten hos system.”

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?