Amazon Bedrock에서 기초 모델에 대한 비용 및 사용량 추적을 통해 내부 SaaS 서비스 구축

기업은 다양한 LOB(Line of Business)에 기초 모델(FM)에 대한 액세스를 제공함으로써 생성적 AI의 잠재력을 신속하게 활용하려고 합니다. IT 팀은 중앙 집중식 거버넌스와 관찰 가능성을 제공하는 동시에 LOB가 속도와 민첩성으로 혁신할 수 있도록 지원하는 역할을 담당합니다. 예를 들어 팀 전체의 FM 사용량, 지불 거절 비용을 추적하고 LOB의 관련 비용 센터에 대한 가시성을 제공해야 할 수 있습니다. 또한 팀별로 다양한 모델에 대한 액세스를 규제해야 할 수도 있습니다. 예를 들어, 특정 FM만 사용이 승인될 수 있습니다.

아마존 기반암 AI21 Labs, Anthropic, Cohere, Meta, Stability AI 및 Amazon과 같은 주요 AI 기업의 고성능 기반 모델을 단일 API를 통해 선택할 수 있는 고성능 기반 모델과 생성적 AI를 구축하기 위한 광범위한 기능 세트를 제공하는 완전 관리형 서비스입니다. 보안, 개인 정보 보호 및 책임 있는 AI를 갖춘 애플리케이션입니다. Amazon Bedrock은 서버리스이므로 인프라를 관리할 필요가 없으며, 이미 익숙한 AWS 서비스를 사용하여 생성 AI 기능을 애플리케이션에 안전하게 통합하고 배포할 수 있습니다.

기반 모델을 위한 SaaS(Software as a Service) 계층은 액세스 및 소비에 대한 중앙 집중식 거버넌스를 유지하면서 최종 사용자에게 간단하고 일관된 인터페이스를 제공할 수 있습니다. API 게이트웨이는 모델 소비자와 모델 엔드포인트 서비스 간의 느슨한 결합과 변화하는 모델, 아키텍처 및 호출 방법에 적응할 수 있는 유연성을 제공할 수 있습니다.

이 게시물에서는 다중 테넌트(팀) 아키텍처에서 Amazon Bedrock을 사용하여 기본 모델에 액세스하기 위해 내부 SaaS 계층을 구축하는 방법을 보여줍니다. 우리는 특히 테넌트당 사용량 및 비용 추적과 테넌트당 사용량 제한과 같은 제어에 중점을 둡니다. 솔루션과 Amazon Bedrock 소비 계획이 일반 SaaS 여정 프레임워크에 어떻게 매핑되는지 설명합니다. 솔루션 코드와 AWS 클라우드 개발 키트 (AWS CDK) 템플릿은 다음에서 사용할 수 있습니다. GitHub 저장소.

도전

AI 플랫폼 관리자는 여러 개발팀에 FM에 대한 표준화되고 쉬운 액세스를 제공해야 합니다.

다음은 기초 모델에 대한 통제된 액세스를 제공하기 위한 몇 가지 과제입니다.

비용 및 사용량 추적 – 개별 테넌트 비용과 기본 모델 사용을 추적 및 감사하고 특정 비용 센터에 지불 거절 비용을 제공합니다.
예산 및 사용량 제어 – 테넌트당 정의된 빈도에 대해 허용된 기반 모델 사용에 대한 API 할당량, 예산 및 사용 제한을 관리합니다.
액세스 제어 및 모델 거버넌스 – 테넌트당 허용 목록에 있는 특정 모델에 대한 액세스 제어를 정의합니다.
다중 테넌트 표준화 API – 다음을 통해 기초 모델에 대한 일관된 액세스를 제공합니다. 오픈API 기준
API의 중앙 집중식 관리 – 모델 액세스를 위한 API 키를 관리하는 단일 레이어 제공
모델 버전 및 업데이트 – 신규 및 업데이트된 모델 버전 출시 처리

솔루션 개요

이 솔루션에서는 다음을 참조합니다. 다중 테넌트 접근하다. ㅏ 거주자 여기에는 개별 사용자, 특정 프로젝트, 팀 또는 전체 부서가 포함될 수 있습니다. 접근 방식을 논의할 때 우리는 용어를 사용합니다. 팀, 가장 일반적이기 때문입니다. 우리는 API 키를 사용하여 팀의 API 액세스를 제한하고 모니터링합니다. 각 팀에는 FM에 액세스하기 위한 API 키가 할당됩니다. 조직에는 다양한 사용자 인증 및 권한 부여 메커니즘이 배포될 수 있습니다. 단순화를 위해 이 솔루션에는 이러한 항목을 포함하지 않습니다. 또한 기존 ID 공급자를 이 솔루션과 통합할 수도 있습니다.

다음 다이어그램에는 솔루션 아키텍처와 주요 구성 요소가 요약되어 있습니다. 별도의 비용 센터에 할당된 팀(테넌트)은 API 서비스를 통해 Amazon Bedrock FM을 사용합니다. 팀당 소비 및 비용을 추적하기 위해 솔루션은 호출된 모델, 텍스트 생성 모델의 토큰 수, 다중 모드 모델의 이미지 차원을 포함하여 각 개별 호출에 대한 데이터를 기록합니다. 또한 모델별 호출 횟수와 팀별 비용을 집계합니다.

AWS CDK를 사용하여 자신의 계정에 솔루션을 배포할 수 있습니다. AWS CDK는 익숙한 프로그래밍 언어를 사용하여 클라우드 애플리케이션 리소스를 모델링하고 프로비저닝하는 오픈 소스 소프트웨어 개발 프레임워크입니다. AWS CDK 코드는 다음에서 사용할 수 있습니다. GitHub 저장소.

다음 섹션에서는 솔루션의 주요 구성 요소에 대해 자세히 설명합니다.

팀별 기반 모델 사용량 캡처

팀별 FM 사용량을 캡처하는 워크플로는 다음 단계로 구성됩니다(이전 다이어그램에 번호가 매겨져 있음).

팀의 애플리케이션이 POST 요청을 보냅니다. 아마존 API 게이트웨이 호출할 모델을 사용하여 model_id 쿼리 매개변수 및 요청 본문의 사용자 프롬프트.
API 게이트웨이는 요청을 다음으로 라우팅합니다. AWS 람다 함수 (bedrock_invoke_model) 팀 사용 정보를 기록하는 역할을 담당합니다. 아마존 클라우드 워치 Amazon Bedrock 모델을 호출합니다.
Amazon Bedrock은 다음을 기반으로 하는 VPC 엔드포인트를 제공합니다. AWS 프라이빗링크. 이 솔루션에서 Lambda 함수는 PrivateLink를 사용하여 Amazon Bedrock에 요청을 보내 계정의 VPC와 Amazon Bedrock 서비스 계정 간에 프라이빗 연결을 설정합니다. PrivateLink에 대해 자세히 알아보려면 다음을 참조하세요. AWS PrivateLink를 사용하여 Amazon Bedrock에 대한 비공개 액세스 설정.
Amazon Bedrock 호출 후, 아마존 클라우드트레일 생성 CloudTrail 이벤트.
Amazon Bedrock 호출이 성공하면 Lambda 함수는 호출된 모델 유형에 따라 다음 정보를 기록하고 생성된 응답을 애플리케이션에 반환합니다.
- 팀_ID – 요청을 발행하는 팀의 고유 식별자입니다.
- 요청 ID – 요청의 고유 식별자입니다.
- 모델_ID – 호출할 모델의 ID입니다.
- 입력토큰 – 프롬프트의 일부로 모델에 전송된 토큰 수(텍스트 생성 및 임베딩 모델의 경우)
- 출력토큰 – 모델에서 생성할 최대 토큰 수입니다(텍스트 생성 모델의 경우).
- 신장 – 요청된 이미지의 높이(다중 모드 모델 및 다중 모드 임베딩 모델의 경우)
- 폭 – 요청된 이미지의 너비(다중 모드 모델에만 해당).
- 단계 – 요청된 단계(안정성 AI 모델의 경우).

팀당 비용 추적

다른 흐름에서는 사용량 정보를 집계한 다음 매일 팀당 주문형 비용을 계산하고 저장합니다. 별도의 흐름을 가짐으로써 비용 추적이 모델 호출 흐름의 대기 시간 및 처리량에 영향을 미치지 않도록 합니다. 워크플로 단계는 다음과 같습니다.

An 아마존 이벤트 브리지 규칙은 Lambda 함수(bedrock_cost_tracking) 일일.
Lambda 함수는 CloudWatch에서 전날 사용량 정보를 가져와 관련 비용을 계산하고 집계된 데이터를 저장합니다. team_id 과 model_id in 아마존 단순 스토리지 서비스 (Amazon S3) CSV 형식입니다.

Amazon S3에 저장된 데이터를 쿼리하고 시각화하려면 다음을 포함한 다양한 옵션이 있습니다. S3 선택및 Amazon Athena 및 Amazon QuickSight.

팀별 사용량 제어

사용량 계획은 배포된 하나 이상의 API에 액세스할 수 있는 사람을 지정하고 선택적으로 요청 제한을 시작하기 위한 대상 요청 속도를 설정합니다. 계획에서는 API 키를 사용하여 각 키에 연결된 API에 액세스할 수 있는 API 클라이언트를 식별합니다. API 게이트웨이를 사용할 수 있습니다 사용량 계획 미리 정의된 임계값을 초과하는 요청을 제한합니다. 당신은 또한 사용할 수 있습니다 API 키 할당량 제한을 통해 각 팀이 지정된 시간 간격 내에 발행할 수 있는 API 키당 최대 요청 수를 설정할 수 있습니다. 이는 이에 추가로 Amazon Bedrock 서비스 할당량 계정 수준에서만 할당됩니다.

사전 조건

솔루션을 배포하기 전에 다음 사항이 있는지 확인하세요.

AWS CDK 스택 배포

의 지침을 따르십시오. README AWS CDK 스택을 구성하고 배포하기 위한 GitHub 리포지토리 파일입니다.

스택은 다음 리소스를 배포합니다.

프라이빗 네트워킹 환경(VPC, 프라이빗 서브넷, 보안 그룹)
모델 액세스 제어를 위한 IAM 역할
필요한 Python 모듈을 위한 Lambda 계층
람다 함수 invoke_model
람다 함수 list_foundation_models
람다 함수 cost_tracking
나머지 API(API 게이트웨이)
API Gateway 활용 계획
사용량 계획과 연결된 API 키

새로운 팀 온보딩

새로운 팀에 액세스를 제공하려면 여러 팀에서 동일한 API 키를 공유하고 다른 API 키를 제공하여 모델 소비를 추적할 수 있습니다. team_id API 호출을 위해 또는 다음에 제공된 지침에 따라 Amazon Bedrock 리소스에 액세스하는 데 사용되는 전용 API 키를 생성합니다. README.

스택은 다음 리소스를 배포합니다.

이전에 생성된 REST API와 연결된 API Gateway 사용량 계획
API에 대해 예약된 제한 및 버스트 구성과 함께 새 팀의 사용 계획과 연결된 API 키

API Gateway 조절 및 버스트 구성에 대한 자세한 내용은 다음을 참조하세요. 더 나은 처리량을 위해 스로틀 API 요청.

스택을 배포한 후에는 다음에 대한 새 API 키가 표시됩니다. team-2 생성도 됩니다.

모델 액세스 제어 구성

플랫폼 관리자는 Lambda 함수와 연결된 IAM 정책을 편집하여 특정 기반 모델에 대한 액세스를 허용할 수 있습니다. invoke_model. 그만큼

IAM 권한은 파일에 정의되어 있습니다. 설정/stack_constructs/iam.py. 다음 코드를 참조하십시오.

self.bedrock_policy = iam.Policy(
            scope=self,
            id=f"{self.id}_policy_bedrock",
            policy_name="BedrockPolicy",
            statements=[
                iam.PolicyStatement(
                    effect=iam.Effect.ALLOW,
                    actions=[
                        "sts:AssumeRole",
                    ],
                    resources=["*"],
                ),
                iam.PolicyStatement(
                    effect=iam.Effect.ALLOW,
                    actions=[
                        "bedrock:InvokeModel",
				“bedrock:ListFoundationModels",

                    ],
                    resources=[
  	"arn:aws:bedrock:*::foundation-model/anthropic.claude-v2.1",
	"arn:aws:bedrock:*::foundation-model/amazon.titan-text-express-v1",
	"arn:aws:bedrock:*::foundation-model/amazon.titan-embed-text-v1"
],
                )
            ],
        )

…

self.bedrock_policy.attach_to_role(self.lambda_role)

서비스 호출

솔루션을 배포한 후 코드에서 직접 서비스를 호출할 수 있습니다. 다음과 같은

다음은 Python에서 사용하는 예입니다. invoke_model POST 요청을 통한 텍스트 생성을 위한 API:

api_key=”abcd1234”

model_id = "amazon.titan-text-express-v1" #the model id for the Amazon Titan Express model
 
model_kwargs = { # inference configuration
    "maxTokenCount": 4096,
    "temperature": 0.2
}

prompt = "What is Amazon Bedrock?"

response = requests.post(
    f"{api_url}/invoke_model?model_id={model_id}",
    json={"inputs": prompt, "parameters": model_kwargs},
    headers={
        "x-api-key": api_key, #key for querying the API
        "team_id": team_id #unique tenant identifier 
    }
)

text = response.json()[0]["generated_text"]

print(text)

결과: Amazon Bedrock은 Amazon이 많은 서비스와 제품을 실행하고 운영하기 위해 개발한 내부 기술 플랫폼입니다. Bedrock에 관한 몇 가지 주요 사항…

다음은 Python에서 invoke_model POST 요청을 통한 임베딩 생성을 위한 API:

model_id = "amazon.titan-embed-text-v1" #the model id for the Amazon Titan Embeddings Text model

prompt = "What is Amazon Bedrock?"

response = requests.post(
    f"{api_url}/invoke_model?model_id={model_id}",
    json={"inputs": prompt, "parameters": model_kwargs},
    headers={
        "x-api-key": api_key, #key for querying the API
        "team_id": team_id #unique tenant identifier,
	"embeddings": "true" #boolean value for the embeddings model 
    }
)

text = response.json()[0]["embedding"]

출력: 0.91796875, 0.45117188, 0.52734375, -0.18652344, 0.06982422, 0.65234375, -0.13085938, 0.056884766, 0.092285156, 0.06982422, 1.03125, 0.8515625, 0.16308594, 0.079589844, -0.033935547, 0.796875, -0.15429688, -0.29882812, -0.25585938, 0.45703125, 0.044921875 0.34570312, XNUMX …

기초 모델에 대한 액세스가 거부되었습니다.

다음은 Python에서 invoke_model 액세스 거부 응답이 있는 POST 요청을 통한 텍스트 생성을 위한 API:

model_id = " anthropic.claude-v1" #the model id for Anthropic Claude V1 model
 
model_kwargs = { # inference configuration
    "maxTokenCount": 4096,
    "temperature": 0.2
}

prompt = "What is Amazon Bedrock?"

response = requests.post(
    f"{api_url}/invoke_model?model_id={model_id}",
    json={"inputs": prompt, "parameters": model_kwargs},
    headers={
        "x-api-key": api_key, #key for querying the API
        "team_id": team_id #unique tenant identifier 
    }
)

print(response)
print(response.text)

"추적(가장 최근 호출 마지막):n File "/var/task/index.py", line 213, in Lambda_handlern response = _invoke_text(bedrock_client, model_id, body, model_kwargs)n File "/var/task/index.py ”, 146행, _invoke_textn raise en File ”/var/task/index.py”, 131행, _invoke_textn response = bedrock_client.invoke_model(n File ”/opt/python/botocore/client.py”, 535행, _api_calln에서 self._make_api_call(Operation_name, kwargs)n 파일 "/opt/python/botocore/client.py", 980행, _make_api_calln에서 error_class(parsed_response, Operation_name)nbotocore.errorfactory.AccessDeniedException을 발생시킵니다. InvokeModel 작업을 호출할 때 오류(AccessDeniedException)가 발생했습니다. 귀하의 계정은 이 API 작업을 호출할 권한이 없습니다.n”

비용 추정 예시

온디맨드 가격으로 Amazon Bedrock 모델을 호출할 때 총 비용은 입력 비용과 출력 비용의 합으로 계산됩니다. 입력 비용은 모델에 전송된 입력 토큰 수를 기준으로 하며, 출력 비용은 생성된 토큰을 기준으로 합니다. 가격은 입력 토큰 1,000개당 및 출력 토큰 1,000개당입니다. 자세한 내용과 특정 모델 가격은 다음을 참조하세요. 아마존 베드락 가격.

team1과 team2라는 두 팀이 이 게시물의 솔루션을 통해 Amazon Bedrock에 액세스하는 예를 살펴보겠습니다. Amazon S3에 하루 동안 저장되는 사용량 및 비용 데이터는 다음 표와 같습니다.

열 input_tokens 과 output_tokens 특정 날짜에 모델별 및 팀별로 모델 호출 전반에 걸쳐 총 입력 및 출력 토큰을 저장합니다.

열 input_cost 과 output_cost 모델별, 팀별 해당 비용을 저장합니다. 이는 다음 공식을 사용하여 계산됩니다.

input_cost = input_token_count * model_pricing["input_cost"] / 1000
output_cost = output_token_count * model_pricing["output_cost"] / 1000

팀_ID	모델_ID	input_tokens	출력_토큰	호출	입력_비용	출력_비용
Team1	amazon.titan-tg1-대형	24000	2473	1000	0.0072	0.00099
Team1	인류.claude-v2	2448	4800	24	0.02698	0.15686
Team2	amazon.titan-tg1-대형	35000	52500	350	0.0105	0.021
Team2	ai21.j2-grande-instruct	4590	9000	45	0.05738	0.1125
Team2	인류.claude-v2	1080	4400	20	0.0119	0.14379

기능적인 멀티 테넌트 서버리스 SaaS 환경에 대한 종합적인 보기

엔드투엔드 기능의 멀티 테넌트 서버리스 SaaS 환경이 어떤 모습일지 이해해 보겠습니다. 다음은 참조 아키텍처 다이어그램입니다.

이 아키텍처 다이어그램은 이전 게시물에서 설명한 이전 아키텍처 다이어그램의 축소 버전으로, 이전 아키텍처 다이어그램에서는 언급된 마이크로서비스 중 하나(기본 모델 서비스)의 세부 정보를 설명합니다. 이 다이어그램에서는 기능적이고 확장 가능한 플랫폼을 구현하기 위해 기본 모델 서비스 외에도 다중 테넌트 SaaS 플랫폼에 다른 구성 요소도 있어야 함을 설명합니다.

아키텍처의 세부 사항을 살펴 보겠습니다.

임차인 신청

테넌트 애플리케이션은 환경과 상호 작용하는 프런트 엔드 애플리케이션입니다. 여기에서는 다양한 로컬 또는 AWS 환경에서 액세스하는 여러 테넌트를 보여줍니다. 새 테넌트가 스스로 등록할 수 있는 등록 페이지와 SaaS 서비스 계층 관리자를 위한 관리 콘솔을 포함하도록 프런트 엔드 애플리케이션을 확장할 수 있습니다. 테넌트 애플리케이션에 SaaS 환경과의 상호 작용이 필요한 사용자 지정 논리를 구현해야 하는 경우 애플리케이션 어댑터 마이크로서비스의 사양을 구현할 수 있습니다. 예제 시나리오는 SaaS 환경의 권한 부여 사양을 존중하면서 사용자 지정 권한 부여 논리를 추가하는 것일 수 있습니다.

공유 서비스

공유 서비스는 다음과 같습니다.

테넌트 및 사용자 관리 서비스 – 임차인 등록 및 관리를 담당하는 서비스입니다. 이는 애플리케이션 서비스와 별도로 모든 테넌트에서 공유되는 교차 기능을 제공합니다.
기초모델 서비스 – 이 게시물 시작 부분에 설명된 솔루션 아키텍처 다이어그램은 API 게이트웨이에서 Lambda 함수까지의 상호 작용이 이 마이크로 서비스 범위 내에서 발생하는 이 마이크로 서비스를 나타냅니다. 모든 테넌트는 이 마이크로서비스를 사용하여 Anthropic, AI21, Cohere, Stability, Meta 및 Amazon의 기반 모델과 미세 조정된 모델을 호출합니다. 또한 CloudWatch 로그의 사용량 추적에 필요한 정보를 캡처합니다.
비용 추적 서비스 – 이 서비스는 각 테넌트의 비용과 사용량을 추적합니다. 이 마이크로서비스는 일정에 따라 실행되어 CloudWatch 로그를 쿼리하고 집계된 사용량 추적 및 추론된 비용을 데이터 스토리지에 출력합니다. 비용 추적 서비스를 확장하여 추가 보고서 및 시각화를 구축할 수 있습니다.

애플리케이션 어댑터 서비스

이 서비스는 테넌트가 사용자 지정 논리를 SaaS 환경에 통합하기 위해 구현할 수 있는 사양 및 API 세트를 제공합니다. 사용자 지정 통합이 얼마나 필요한지에 따라 이 구성 요소는 테넌트에 대해 선택 사항일 수 있습니다.

다중 테넌트 데이터 저장소

공유 서비스는 단일 공유가 가능한 데이터 저장소에 데이터를 저장합니다. 아마존 DynamoDB DynamoDB 항목을 개별 테넌트와 연결하는 테넌트 파티셔닝 키가 있는 테이블. 비용 추적 공유 서비스는 집계된 사용량 및 비용 추적 데이터를 Amazon S3에 출력합니다. 사용 사례에 따라 애플리케이션별 데이터 저장소도 있을 수 있습니다.

다중 테넌트 SaaS 환경에는 더 많은 구성 요소가 있을 수 있습니다. 자세한 내용은 다음을 참조하세요. AWS 서버리스 서비스를 사용하여 멀티 테넌트 SaaS 솔루션 구축.

여러 배포 모델 지원

SaaS 프레임워크는 일반적으로 풀과 사일로라는 두 가지 배포 모델을 설명합니다. 풀 모델의 경우 모든 테넌트는 공통 스토리지 및 컴퓨팅 인프라를 갖춘 공유 환경에서 FM에 액세스합니다. 사일로 모델에서는 각 테넌트가 고유한 전용 리소스 세트를 갖습니다. 격리 모델에 대한 내용은 다음에서 읽을 수 있습니다. SaaS 테넌트 격리 전략 백서.

제안된 솔루션은 두 SaaS 배포 모델 모두에 채택될 수 있습니다. 풀 접근 방식에서는 중앙 집중식 AWS 환경이 API, 스토리지 및 컴퓨팅 리소스를 호스팅합니다. 사일로 모드에서는 각 팀이 전용 AWS 환경의 API, 스토리지 및 컴퓨팅 리소스에 액세스합니다.

이 솔루션은 Amazon Bedrock에서 제공하는 사용 가능한 소비 계획에도 적합합니다. AWS는 추론을 위해 두 가지 소비 계획 중 하나를 선택할 수 있습니다.

온디맨드 – 이 모드를 사용하면 시간 기반 기간 약정 없이 종량제 기반으로 기초 모델을 사용할 수 있습니다.
프로비저닝된 처리량 – 이 모드를 사용하면 시간 기반 약정에 대한 대가로 애플리케이션의 성능 요구 사항을 충족하기에 충분한 처리량을 프로비저닝할 수 있습니다.

이러한 옵션에 대한 자세한 내용은 다음을 참조하세요. 아마존 베드락 가격.

이 게시물에 설명된 서버리스 SaaS 참조 솔루션은 Amazon Bedrock 소비 계획을 적용하여 최종 사용자에게 기본 및 프리미엄 계층화 옵션을 제공할 수 있습니다. 기본에는 Amazon Bedrock의 온디맨드 또는 프로비저닝된 처리량 소비가 포함될 수 있으며 특정 사용량 및 예산 제한이 포함될 수 있습니다. 요청, 토큰 크기 또는 예산 할당에 따라 요청을 제한하여 테넌트 제한을 활성화할 수 있습니다. 프리미엄 등급 테넌트는 Amazon Bedrock의 처리량 소비를 프로비저닝하여 자체 전용 리소스를 보유할 수 있습니다. 이러한 테넌트는 일반적으로 Amazon Bedrock FM에 대한 높은 처리량과 짧은 대기 시간 액세스가 필요한 프로덕션 워크로드와 연결됩니다.

결론

이 게시물에서는 비용 및 사용량 추적과 각 테넌트의 제한 제한에 중점을 두고 다중 테넌트 설정에서 Amazon Bedrock을 사용하여 기본 모델에 액세스하기 위한 내부 SaaS 플랫폼을 구축하는 방법에 대해 논의했습니다. 탐색할 추가 주제에는 조직의 기존 인증 및 권한 부여 솔루션 통합, 양방향 클라이언트 서버 상호 작용을 위한 웹 소켓을 포함하도록 API 계층 강화, 콘텐츠 필터링 및 기타 거버넌스 가드레일 추가, 다중 배포 계층 설계, SaaS에 다른 마이크로서비스 통합 등이 포함됩니다. 건축, 그리고 더 많은 것.

이 솔루션의 전체 코드는 다음에서 사용할 수 있습니다. GitHub 저장소.

SaaS 기반 프레임워크에 대한 자세한 내용은 다음을 참조하세요. SaaS 여정 프레임워크: AWS에서 새로운 SaaS 솔루션 구축.

저자에 관하여

하산 푸나 왈라 그는 의료 및 생명 과학 고객과 협력하는 AWS의 수석 AI/ML 전문가 솔루션 설계자입니다. Hasan은 AWS에서 생성적 AI 및 기계 학습 애플리케이션을 설계, 배포 및 확장하는 데 도움을 줍니다. 그는 클라우드에서의 기계 학습, 소프트웨어 개발 및 데이터 과학 분야에서 15년 이상의 업무 경험을 보유하고 있습니다. 여가 시간에 Hasan은 자연을 탐험하고 친구 및 가족과 함께 시간을 보내는 것을 좋아합니다.

아나스타샤 체벨레카 AWS의 수석 AI/ML 전문가 솔루션 아키텍트입니다. 업무의 일환으로 그녀는 EMEA 지역의 고객이 AWS 서비스를 사용하여 기반 모델을 구축하고 확장 가능한 생성 AI 및 기계 학습 솔루션을 만들 수 있도록 지원합니다.

부순피스톤 없음 밀라노에 본사를 둔 AWS용 생성 AI 및 ML 전문가 솔루션 아키텍트입니다. 그는 대규모 고객과 협력하여 기술 요구 사항을 깊이 이해하고 AWS 클라우드 및 Amazon Machine Learning 스택을 최대한 활용하는 AI 및 기계 학습 솔루션을 설계하도록 돕습니다. 그의 전문 분야에는 머신러닝 엔드투엔드, 머신러닝 산업화, 생성적 AI가 포함됩니다. 그는 친구들과 시간을 보내고 새로운 장소를 탐험하는 것뿐만 아니라 새로운 목적지로 여행하는 것을 즐깁니다.

비케시 판 데이 Generative AI/ML 솔루션 설계자로서 금융 서비스를 전문으로 하며 금융 고객이 수백에서 수천 명의 사용자로 확장되는 Generative AI/ML 플랫폼과 솔루션을 구축하고 확장하도록 지원합니다. 여가 시간에는 Vikesh는 다양한 블로그 포럼에 글을 쓰고 아이와 함께 레고를 만드는 것을 좋아합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/build-an-internal-saas-service-with-cost-and-usage-tracking-for-foundation-models-on-amazon-bedrock/

생성 데이터 인텔리전스

Amazon Bedrock의 기반 모델에 대한 비용 및 사용량 추적을 통해 내부 SaaS 서비스 구축 | 아마존 웹 서비스

도전

솔루션 개요

팀별 기반 모델 사용량 캡처

팀당 비용 추적

팀별 사용량 제어

사전 조건

AWS CDK 스택 배포

새로운 팀 온보딩

모델 액세스 제어 구성

서비스 호출

기초 모델에 대한 액세스가 거부되었습니다.

비용 추정 예시

기능적인 멀티 테넌트 서버리스 SaaS 환경에 대한 종합적인 보기

임차인 신청

공유 서비스

애플리케이션 어댑터 서비스

다중 테넌트 데이터 저장소

여러 배포 모델 지원

결론

저자에 관하여

BDAG는 5년 상위 2024개 유망 암호화폐 사전 판매를 주도합니다.

암호화폐를 구매하기 전에 시장 감정을 평가하는 방법

최신 인텔리전스

SOL 네트워크 문제 및 DOT 가격 예측 중 BlockDAG의 100억 달러 유동성 및 베스팅 기간

Rainbet 및 Crypto 카지노: 팩의 리더

암호화폐 백만장자의 약 87%는 암호화폐를 영원히 잃을 수도 있다고 믿지 않습니다 – The Daily Hodl

Forbes는 20개의 암호화폐 '좀비'를 공개하고 Ripple과 XRP가 언데드에 속한다고 선언했습니다.

비트코인 대학살: 암호화폐 분석가, 8% 가격 하락 후 '데스 크로스' 발견

AIEMP, 혁신적인 AI 보안 프로젝트 출시 발표