Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기
최근 많은 기업들이 자체 LLM을 구축하거나, 오픈소스 sLLM(Small Large Language Model)을 활용하여 설치형 LLM서비스를 구성하려는 수요가 크게 증가하고 있습니다. 그런데 실제로 배포하려는 모델을 살펴보면, Llama 3 70B, Qwen 72B, EXAONE 3.5 32B 등 모델을 GPU에 로드할 때 필요한 메모리가 40GB에서 최대 150GB에 달하는 경우가 많아, GPU 메모리가 80GB인 H100/H200이 탑
AI/MLBackendInfra
전체 읽기 →VLM을 쓰지 않은 이유: Geometric Prior로 25배 빠른 의류 디테일컷 자동화
AI/MLBackendTools
전체 읽기 →농심클라우드
2026-05-26 · 약 1개월 전
[AWS Summit Seoul 2026] 나야, 차세대 OpenSearch: 에이전틱 AI를 곁들인
Amazon OpenSearch는 키워드와 벡터 검색을 넘어, AI 에이전트가 문맥을 이해하고 탐색하는 에이전틱 검색 플랫폼으로 진화하고 있습니다. 이번 글에서는 주요 신기능과 차세대 검색 구조를 살펴봅니다. The post [AWS Summit Seoul 2026] 나야, 차세대 OpenSearch: 에이전틱 AI를 곁들인 appeared first on NDS Cloud Tech Blog.
AI/MLBackendInfra
전체 읽기 →ODW #7: 세 가지 방법으로 토큰 소비량 40% 절감! ADK를 이용한 컨텍스트 엔지니어링
안녕하세요. 2024년 4월에 신입 사원으로 LY Corporation에 입사한 Inoue Shuichi입니다. 현재 사내용 Kubernetes as a Service인 FKE 팀...
AI/MLBackendDevOps
전체 읽기 →현대오토에버의 Amazon Bedrock으로 구축한 빅데이터 클러스터 장애 대응 자동화 에이전트 구축기
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 세번째 글이며, 현대오토에버의 오명우, 정세종님과 함께 작성하였습니다. 첫 번째 글에서는 현대오토에버와 AWS가 GenAI Sandbox를 활용해 어떻게 생산성 향상 해커톤을 기획하고 운영했는지, 그리고 14개 팀 150여 명이 참여한 이 행사의 전반적인 성과를 소개 했습니다. 두 번째 글에서는 Amazon Bedrock과 LangGraph를 활용해 어떻게 다중
AI/MLBackendDevOpsInfra
전체 읽기 →현대오토에버의 Amazon Bedrock으로 구축한 다중 AI 에이전트: 장애 대응 시간 5분으로 단축하기
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 두 번째 글이며, 현대오토에버의 김만철, 최라윤님과 함께 작성하였습니다. 첫 번째 글에서는 현대오토에버와 AWS가 GenAI Sandbox를 활용해 어떻게 생산성 향상 해커톤을 기획하고 운영했는지, 그리고 14개 팀 150여 명이 참여한 이 행사의 전반적인 성과를 소개했습니다. 이번 글에서는 해커톤 수상 팀 중 하나인 ErrorWatcher 팀이 AWS에서 Lan
AI/MLBackendDevOpsTools
전체 읽기 →메시징 서버의 스트레스 테스트 노하우와 AI 가 덜어 준 부분
Part 1. 개요 - 안정적인 운영을 위한 노력들 안녕하세요 저는 톡메시징개발플랫폼 서버개발자 쟈미입니다. 톡메시징 개발 플랫폼팀은 카카오톡의 메시지 수발신 채팅방 목록 관리와 같은 카카오톡 채팅시스템의 개발, 운영을 담당하고 있습니다. 카카오톡의 채팅 트래픽을 담당하는 부서이기 때문에 어떤 상황에서든 안정적으로 운영하기 위한 노력을 기울이고있습니다. (추천 글 : https://tech.kakao.com/posts/603) 그 노력 중 하나
AI/MLBackendDevOps
전체 읽기 →개발자 없이 5분 만에 버그를 고친 QA, 우리가 설계한 것과 설계하지 않은 것
BackendTestingTools
전체 읽기 →삼성 기술 블로그
2026-05-21 · 약 1개월 전
6G를 위한 AI/ML 물리계층 – JSCM 기반 오디오 전송
이 글은 모든 비트를 완벽하게 지키는 것보다 사람이 자연스럽게 듣고 이해할 수 있도록 하는 것에 집중하는 오디오 전송 방식을 다룹니다. 이를 위해 AI를 활용하여 압축과 전송을 하나로 설계한 JSCM 기반 오디오 전송 방식을 소개하고, 시뮬레이션과 하드웨어 실험을 통해 입증된 성능 우위를 공유합니다. 검증 결과, 제안 방식은 기존 대비 열악한 무선 환경에서도 대등한 음질을 유지했으며, 이는 향후 6G 시스템이 사용자의 경험과 인지를 더 잘 반영
AI/MLBackendInfraTestingTools
전체 읽기 →씨미가 4K · 4초 저지연 라이브를 만든 방법 — Amazon IVS와 자체 구축의 하이브리드 설계
본 글은 씨미(ci-me) 라이브 스트리밍 플랫폼이 4K 저지연 라이브 시청 경험을 제공하기 위해 Amazon IVS의 매니지드 환경과 자체 구축 영역을 어떻게 결합했는지에 대한 사례입니다. 또한 1만 명 동시 시청자를 가정한 부하 테스트 과정에서 마주친 기술적 의사결정과 시행착오가 함께 공유됩니다. 1. 배경 씨미(CIME)는 버추얼 스트리머와 게임 스트리머를 위한 라이브 스티리밍 플랫폼입니다. 4K 초고화질, 초저지연 방송 환경, […]
BackendInfraTools
전체 읽기 →MSA도, 모놀리스도 아닌 제3의 선택 — Spring Modulith
ArchitectureBackendTools
전체 읽기 →Sentry를 바로 도입하지 않고 200줄 에러 트래커를 만든 이유
BackendSecurityTools
전체 읽기 →CJ올리브영의 AI 협업 개발 프로세스 구축, AI-DLC 실전 도입 사례
“우리 팀 전체가 AI로 일하는 방식을 바꿀 수는 없을까?” 요즘 주변을 보면, AI 코딩 도구를 활용해 놀라운 생산성을 보여주는 개발자들이 눈에 띄게 늘고 있습니다. 프롬프트 몇 줄이면 동작하는 코드가 나오고, 컨텍스트 문서로 복잡한 시스템의 뼈대를 세우는 사람도 있습니다. 문제는 이런 능력이 특정 개인에게 집중된다는 점입니다. 한두 명이 빠르게 만들어낸 결과물은 인상적이지만, 그 사람이 빠지면 팀에는 […]
AI/MLBackendTools
전체 읽기 →데브시스터즈
2026-05-19 · 약 1개월 전
쿠키런: 킹덤의 전투 데이터, JSON Schema로 검증하고 자동완성하기
JSON 형태로 된 게임 데이터를 검증하기 위해 JSON Schema를 이용하는 방법을 소개합니다. 클라이언트 코드에서 JSON Schema를 생성하고, 후처리하고, 검증 및 자동완성에 이용하는 과정을 순서대로 다룹니다.
BackendTestingTools
전체 읽기 →GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 1: 데이터 파이프라인과 인덱싱
1. 회사 및 서비스 소개 글로지(GloZ Inc.) 글로지(GloZ Inc.)는 OTT, 게임, 웹툰·웹소설, 더빙 등 콘텐츠 로컬라이제이션을 전문으로 하는 기업으로, 70개 이상의 언어와 190여 개국에 콘텐츠를 전달하고 있습니다. 서울, 캘리포니아, 싱가포르, 도쿄 4개 거점과 전 세계 210여 개 도시에 분포한 언어 전문가 네트워크를 기반으로, 글로벌 OTT 파트너 품질 평가에서 4년 연속 1위를 기록해 왔습니다. 글로지는 번역 […]
BackendDatabaseTools
전체 읽기 →뉴빌리티의 Amazon Kinesis Video Streams 기반 원격 관제 확장 사례
뉴빌리티는 일상 속 로봇 기술을 지향하며, 로봇 하드웨어·소프트웨어·운영 시스템을 통합 제공하는 Physical AI 기반 RX 솔루션 기업입니다. 배달과 순찰 등 실제 서비스 환경에서 로봇 서비스를 운영해 왔으며, 로봇 도입부터 운영까지 전 과정을 하나의 시스템으로 연결해 상용화하고 있습니다. 2017년 설립 이후 다양한 로봇 서비스 실증을 운영해 온 뉴빌리티는 2024년 요기요와 함께 로봇 배달 서비스를 상용화했고, 순찰 […]
AI/MLBackendInfraSecurityTools
전체 읽기 →AI 스페셜리스트와 자동사냥 — 하네스로 제어하는 AI 파이프라인
AI/MLBackendTools
전체 읽기 →GS SHOP의 영상 기반 AI 상품 추천 플랫폼 구축기
개요 GS SHOP은 대한민국을 대표하는 TV 홈쇼핑 비즈니스에서 출발하여, 이제는 고객의 라이프스타일을 함께 만들어 나가는 온라인 종합 쇼핑 플랫폼으로 자리잡고 있습니다. 기존의 TV 라이브 채널뿐 아니라 데이터 홈쇼핑, 모바일 라이브까지 운영하며 쇼핑 채널을 넓혀왔고, 콘텐츠와 커머스를 결합한 멀티채널 쇼핑 플랫폼으로 진화해 가고 있습니다. 이러한 변화의 흐름 속에서 GS SHOP 검색추천파트는 검색, 광고, 추천 영역 전반에 […]
AI/MLBackendToolsUX/UI
전체 읽기 →AWS의 Claude Platform 소개: AWS 계정을 통한 Anthropic의 네이티브 Claude Platform 시작하기
이 글은 AWS Artificial Intelligence Blog에 게시된 Introducing Claude Platform on AWS: Anthropic’s native platform, through your AWS account 를 한국어로 번역 및 편집하였습니다. 오늘(미국 현지 시간 5월 11일에 공식 GA) 우리는 Claude Platform on AWS의 일반 가용성을 발표하게 되어 기쁩니다. Claude Platform on
AI/MLBackendInfra
전체 읽기 →Agentic AI 기반 플랫폼 – Part3 : AgentCore Policy, Evaluation, Observability로 기업 운영 체계 구축하기
들어가며 이전 글(Part 2)에서는 Amazon Bedrock AgentCore의 Runtime, Gateway, Identity를 활용하여 MCP Registry를 구현하는 방법을 다루었습니다. 다양한 형태의 MCP를 등록하고, AgentCore Gateway를 통해 단일 엔드포인트로 통합하는 아키텍처를 소개했습니다. MCP Registry를 통해 Agent가 Tool을 호출할 수 있는 환경은 갖추었지만, 기업 환경에서 실제 운영하기 위해서
AI/MLArchitectureBackend
전체 읽기 →