Amazon Braket으로 양자-고전 하이브리드 알고리즘 실행하기 (1편)
고전 컴퓨팅 자원과 양자 컴퓨팅 자원을 결합한 하이브리드 알고리즘은 현재 NISQ (Noisy Intermediate-Scale Quantum) 시대의 양자 컴퓨터 기술 수준에서 실질적인 문제 해결에 접근할 수 있는 효과적인 방법론으로 주목받고 있습니다. 이번 블로그에서는 Amazon Braket을 활용하여 하이브리드 환경을 구성하고 사용할 수 있는 두 가지 방법, 즉 코드 기반 방식과 콘솔 기반 방식을 소개합니다. 이를 통해 독자들은 Amaz
AI/MLBackendInfra
전체 읽기 →AWS와 NVIDIA로 Physical AI 가속화: 시뮬레이션과 실제 학습을 통한 프로덕션 레디 애플리케이션 구축
이 글은 AWS Open Source Blog의 “Accelerating physical AI with AWS and NVIDIA: building production-ready applications with simulation and real-world learning by Srinivas Nidamarthi, Alex Mevec, Ali Shahrokni, Brian Kreitzer, and Raja GT” 게시글을 번역한 글 입니다. 디
AI/MLBackendInfra
전체 읽기 →GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 2: 하이브리드 검색과 자연어 쿼리 변환
1. Part 1 요약 Part 1: 데이터 파이프라인과 인덱싱에서는 검색 정확도의 기반이 되는 데이터 파이프라인을 다루었습니다. 글로지(GloZ Inc.)는 약 10만 명의 번역가 이력서를 검색 가능한 형태로 구조화하기 위해, 문서 유형별 파싱 → LLM 기반 메타데이터 추출 → 동의어·표기 변형 정규화 → 환각 검증 → 임베딩 입력 전략 최적화로 이어지는 데이터 정제 파이프라인을 구축했습니다. Amazon OpenSearch […]
AI/MLBackendDatabaseTools
전체 읽기 →Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기
Physical AI를 위한 모델 개발 과정은 일반적으로 데이터 수집, 시뮬레이션, 정책 학습, 엣지 배포가 반복되는 긴 라이프사이클을 갖습니다. 또한, 각 단계는 서로 다른 컴퓨팅, 스토리지, 모니터링에 대한 요구사항을 갖습니다. PoC 단계에서는 단일 GPU 인스턴스에서 학습을 실행하는 것만으로도 충분할 수 있지만, 여러 데이터셋과 모델 버전으로 같은 워크플로를 반복 실행하려면 실행 환경, 아티팩트 보존, 관찰 가능성, 보안, […]
AI/MLBackendDevOpsInfraSecurity
전체 읽기 →AWS Unified Operations: 주요 핵심 워크로드를 위한 복원력 있는 운영 구축
AWS Unified Operations를 통한 대규모 핵심 워크로드의 복원력 확보 – 고가용성, 빠른 마이그레이션, 신속한 인시던트 해결을 위한 AWS 최고 등급 지원 Shift-Left 패러다임: 사후 대응에서 사전 예방으로 주요 핵심 워크로드를 운영하는 조직들은 복원력을 약화시키고, 클라우드 도입을 늦추는 세 가지 중요한 구조적 문제점에 직면해 있습니다. 첫 번째 약점은 역량 부족(Skills gaps)입니다. 클라우드 네이티브 아키텍처
ArchitectureBackendDevOpsInfra
전체 읽기 →AWS Unified Operations: 주요 핵심 워크로드를 위한 복원력 있는 운영 구축
AWS Unified Operations를 통한 대규모 핵심 워크로드의 복원력 확보 – 고가용성, 빠른 마이그레이션, 신속한 인시던트 해결을 위한 AWS 최고 등급 지원 Shift-Left 패러다임: 사후 대응에서 사전 예방으로 주요 핵심 워크로드를 운영하는 조직들은 복원력을 약화시키고, 클라우드 도입을 늦추는 세 가지 중요한 구조적 문제점에 직면해 있습니다. 첫 번째 약점은 역량 부족(Skills gaps)입니다. 클라우드 네이티브 아키텍처
ArchitectureDevOpsInfra
전체 읽기 →Amazon GameLift Servers DDoS Protection 기능으로 플레이어 상시 보호
이 글은 AWS for Games Blog에 게시된 Introducing Amazon Gamelift Servers DDOS Protection by Adam Chernick, Dan Green, Liam McCreith, Mark Choi, Michael Morris, and Brian Schuster을 한국어 번역 및 편집하였습니다. 멀티플레이어 게임은 분산 서비스 거부(DDoS) 공격의 가장 주요한 표적 중 하나입니다. e스포츠 대회, 게
BackendSecurityTools
전체 읽기 →Amazon SageMaker Unified Studio에서 Cross-Account Amazon Redshift Data Sharing 거버넌스 패턴 검증
도입 배경 소스 컴퓨트를 격리하면서 다른 계정이 Redshift로 쿼리하게 만들 수 있을까요? 한국 대형 리테일 그룹의 데이터 플랫폼 통합 프로젝트에서 맞닥뜨린 질문입니다. 자회사별로 Amazon Redshift와 ML 워크로드가 분리 운영되어 그룹 차원의 통합 분석과 AI/ML 활용에 사일로가 발생하던 환경이었고, SageMaker Unified Studio(이하 SMUS)로 그룹 단위 거버넌스를 통합해야 하지만, 동시에 각 자회사의 데이터
AI/MLBackendDatabase
전체 읽기 →AWS DevOps Agent와 Custom MCP 서버를 활용한 HYBE의 인시던트 자동 조사 체계 구축 사례
1. HYBE 인프라운영팀 소개 하이브(HYBE)는 글로벌 엔터테인먼트 기업으로, 사내 시스템부터 B2C 서비스까지 다양한 워크로드를 AWS 위에서 운영하고 있습니다. 인프라운영팀은 다중 AWS 계정과 EKS 클러스터에 걸쳐 다수의 서비스를 효율적인 인력 구성으로 운영합니다. 모니터링은 Datadog, 소스 코드는 GitLab, 이슈 관리는 Jira를 사용하고 있습니다. 2. 개요 새벽 3시, Slack 알림과 함께 온콜 담당자의 전화가 울립니
BackendDevOpsInfraTools
전체 읽기 →RIMAN KOREA의 Amazon Bedrock Knowledge Bases를 활용한 자연어 기반 상품 검색 시스템 구축기
RIMAN KOREA 소개 RIMAN KOREA는 2018년 설립된 K-뷰티 글로벌 다이렉트 셀링 기업입니다. 자이언트 병풀, 제주 용암해수 등 독자 원료를 기반으로 고기능성 스킨케어(ICD), 비건 뷰티(보타랩), 건강기능식품(라이프닝)을 주력 제품으로 합니다. 리만코리아의 E-Commerce 팀은 운영 중인 온라인 자사몰(이하 리만몰)을 고도화하기 위해 사용자로부터 접수된 문의 내역을 분석하였습니다. 그 결과 상품 검색이 어렵다는 문제를 발
AI/MLBackendDatabaseTools
전체 읽기 →분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – 분산 트레이닝을 위해 알아야 할 GPU 간 고속 통신 기술
대규모 분산 훈련에서 GPU 간 통신 성능은 전체 훈련 효율을 좌우하는 핵심 요소입니다. 수백 대의 GPU가 그래디언트(gradient, 모델이 실수를 고치는 방향 지시서)를 주고받아야 하는 환경에서, 데이터가 GPU 메모리에서 네트워크를 거쳐 원격 노드의 GPU 메모리에 도달하기까지의 경로를 얼마나 효율적으로 설계하느냐가 곧 성능의 차이로 이어집니다. 이번 블로그는 이 시리즈의 마지막 편으로, AWS 인스턴스에서 활용되는 GPU 간 고속 […
AI/MLBackendInfra
전체 읽기 →Strands와 AgentCore를 활용해 Amazon RDS for SQL Server용 에이전틱 AI 구축하기
이 글은 AWS Database Blog의 “Building agentic AI for Amazon RDS for SQL Server with Strands and AgentCore” by Sudhir Amin 게시글을 번역한 글입니다. Amazon Relational Database Service (Amazon RDS) for SQL Server 인스턴스를 관리한다면, 수년에 걸쳐 진단 스크립트들을 축적했을 것입니다. 이 스크립트들은 bloc
AI/MLBackendDatabaseInfra
전체 읽기 →Part 3: Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기
이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 세 번째 글입니다. Part 1: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 이 시리즈에서 구성하는 자동화 솔루션은 편의상 KIDA(K
DatabaseDevOpsTools
전체 읽기 →Part 2: Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기
이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 두 번째 글입니다. Part 1: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 시리즈에서 구성하는 자동화 솔루션은 편의상 KIDA(Kir
DatabaseDevOpsTools
전체 읽기 →Part 1: Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기
이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 첫 번째 글입니다. Part 1 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 이 시리즈에서는 Kiro와 MCP(Model Context
DatabaseDevOpsTools
전체 읽기 →Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기
최근 많은 기업들이 자체 LLM을 구축하거나, 오픈소스 sLLM(Small Large Language Model)을 활용하여 설치형 LLM서비스를 구성하려는 수요가 크게 증가하고 있습니다. 그런데 실제로 배포하려는 모델을 살펴보면, Llama 3 70B, Qwen 72B, EXAONE 3.5 32B 등 모델을 GPU에 로드할 때 필요한 메모리가 40GB에서 최대 150GB에 달하는 경우가 많아, GPU 메모리가 80GB인 H100/H200이 탑
AI/MLBackendInfra
전체 읽기 →GraphRAG Toolkit으로 지식 그래프 쿼리하기
시리즈 안내 이 글은 3편으로 기획된 GraphRAG Toolkit 시리즈의 3번째 글입니다. 시리즈의 첫 번째 글인 Neptune GraphRAG Toolkit을 활용하여 정교한 비정형 데이터 검색하기에서는 비정형 데이터에서 벡터 임베딩이 포함된 그래프를 자동으로 구축하고, 구조적으로 관련된 정보를 검색하는 질의응답 전략 프레임워크를 소개했습니다. 두 번째 글인 GraphRAG Toolkit으로 지식 그래프 인덱싱하기에서는 해당 toolkit
AI/MLDatabaseTools
전체 읽기 →현대오토에버의 Amazon Bedrock으로 구축한 빅데이터 클러스터 장애 대응 자동화 에이전트 구축기
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 세번째 글이며, 현대오토에버의 오명우, 정세종님과 함께 작성하였습니다. 첫 번째 글에서는 현대오토에버와 AWS가 GenAI Sandbox를 활용해 어떻게 생산성 향상 해커톤을 기획하고 운영했는지, 그리고 14개 팀 150여 명이 참여한 이 행사의 전반적인 성과를 소개 했습니다. 두 번째 글에서는 Amazon Bedrock과 LangGraph를 활용해 어떻게 다중
AI/MLBackendDevOpsInfra
전체 읽기 →현대오토에버의 Amazon Bedrock으로 구축한 다중 AI 에이전트: 장애 대응 시간 5분으로 단축하기
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 두 번째 글이며, 현대오토에버의 김만철, 최라윤님과 함께 작성하였습니다. 첫 번째 글에서는 현대오토에버와 AWS가 GenAI Sandbox를 활용해 어떻게 생산성 향상 해커톤을 기획하고 운영했는지, 그리고 14개 팀 150여 명이 참여한 이 행사의 전반적인 성과를 소개했습니다. 이번 글에서는 해커톤 수상 팀 중 하나인 ErrorWatcher 팀이 AWS에서 Lan
AI/MLBackendDevOpsTools
전체 읽기 →현대오토에버의 GenAI Sandbox 활용 생산성 향상 Hackathon: 혁신과 협업의 성공 사례
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 첫 번째 글이며, 현대오토에버의 허민오, 김지현님과 함께 작성하였습니다. “회사의 모든 팀이 GenAI 기반 서비스를 직접 만들 수 있다면 어떨까요?” 이 질문에 답하기 위해 현대오토에버는 GenAI 기술을 활용한 아이디어를 구성원 누구나 쉽게 실험해 볼 수 있는 환경을 구축하고 해커톤을 개최했습니다. 그 결과 14개의 팀, 150명의 구성원이 […]
AI/MLCultureTools
전체 읽기 →