AI Posts | Latent Space

English

July 2, 2026 · AI

codex CLI에 로컬 Qwen 물리기 — ollama·vLLM 배선기

OpenAI codex를 ollama나 vLLM 위 로컬 모델에 5분 만에 붙이는 법

#codex #LLM #vLLM #ollama

July 2, 2026 · AI

colab CLI로 무료 GPU 원격 조종

google-colab-cli로 랩탑에서 무료 Colab GPU를 원격 조종하기

#Colab #google-colab-cli #GPU #vLLM

June 25, 2026 · AI

MTP와 diffusion으로 LLM 추론 가속하기

Gemma 4와 Qwen 3.6에서 MTP와 diffusion 추론을 H100으로 실측

#LLM #vLLM #MTP #Speculative Decoding

May 27, 2026 · AI

잠재상태로서의 요구사항

스펙 기반 개발이 요구사항 추론 아키텍처인 이유

#AI #Agent #Requirements #Spec-Driven

May 27, 2026 · AI

스킬과 하네스

개념적으로 구분되는 스킬과 하네스가 구현에서 겹치는 이유

#AI #Agent #Harness #Skills

May 26, 2026 · AI

환경으로서의 하네스

하네스 설계가 에이전트의 실제 적응 여부를 결정하는 이유

#AI #Agent #Harness #Memory

May 22, 2026 · AI

적응으로서의 기억

에이전트 메모리가 RAG 저장소에서 정책 적응의 기반으로 옮겨간 이유

#AI #Agent #Memory #RAG

May 22, 2026 · AI

Weights, Prompts, Codes as Parameters

가중치·프롬프트·코드를 정책공간의 서로 다른 층위 파라미터로 보는 관점

#AI #Agent #LLM #POMDP

May 21, 2026 · AI

GraphDB 8종 벤치마크 (2/2) — 워크로드 매트릭스와 최종 선택 기준

8개 그래프 엔진 OLTP·메모리·분석·차별화 쿼리 측정과 워크로드별 의사결정 표

#GraphDB #PostgreSQL #RCTE #Neo4j

May 21, 2026 · AI

LightRAG 계열 4종 비교 — 같은 뿌리, 다른 프로덕션화 전략

LightRAG에서 파생된 RAG-Anything·ApeRAG·EdgeQuake의 소스코드 레벨 비교

#LightRAG #RAG-Anything #ApeRAG #EdgeQuake

May 20, 2026 · AI

PDF-Markdown 변환 도구 5종 비교

학술 논문 PDF 변환 5종 (markitdown, pdftotext, pymupdf, mineru, opendataloader-pdf)을 7개 기준 100점 만점 루브릭으로 평가

#PDF #Markdown #RAG #Ingestion

May 20, 2026 · AI

Claude Code 세션 공유 — .jsonl 심볼릭 링크

여러 Claude Code 계정에서 같은 세션을 재개하는 셋업 — projects 디렉토리를 공유 물리 경로로 매핑

#Claude Code #Multi-account #Session Sharing #Symlink

May 20, 2026 · AI

Apple Silicon LLM 추론 백엔드 5종 벤치마크

Qwen3.5-9B를 Apple Silicon에서 MLX, llama.cpp, Ollama, omlx, vLLM Metal 다섯 백엔드로 측정. 단일 요청 throughput, prefill 스케일링, decode-vs-length, concurrency 응답까지

#LLM #Apple Silicon #MLX #llama.cpp

May 20, 2026 · AI

Apache AGE 없이 LightRAG — Recursive CTE로 그래프 저장소 구현

LightRAG의 BaseGraphStorage를 plain PostgreSQL + RCTE로 구현. 1-hop lookup 중심의 retrieval 패턴이 평면 SQL과 잘 맞는 이유

#LightRAG #PostgreSQL #RAG #GraphRAG

May 20, 2026 · AI

Codex App Server Python SDK — JSON-RPC v2 stdio 호출

codex app-server를 호출하는 Python SDK — 설치, 첫 호출, thread 모델, 주요 메서드

#Codex #OpenAI #Python SDK #JSON-RPC

May 20, 2026 · AI

같은 PC에서 Claude Code 계정 여러 개 동시에 돌리기

CLAUDE_CONFIG_DIR 환경변수와 쉘 함수 한두 개로 회사·개인·실험·고객 Claude Code 계정을 같은 머신에서 독립 운영하는 셋업

#Claude Code #Multi-account #zsh #Dotfiles

May 20, 2026 · AI

긴 컨텍스트 평가의 진짜 질문 — NIAH와 Lost in the Middle

NIAH 벤치마크의 한계, Lost in the Middle 현상, 대안 벤치마크, 4모드 측정 결과

#LLM #Long-context #NIAH #Benchmark

May 20, 2026 · AI

NVIDIA NIM API — GLM·Kimi·Nemotron·Gemma 4 무료 추론

NVIDIA는 build.nvidia.com에서 100개 이상의 오픈소스 모델을 무료로 제공합니다. Claude Code, Cursor 같은 코딩 에이전트에 직접 연결해서 쓸 수 있습니다.

#NVIDIA #NIM #AI #API

May 20, 2026 · AI

Claude Code 설정 동기화와 트러블슈팅

여러 Claude Code 계정 사이의 설정 동기화 매트릭스, 마이그레이션 절차, 자주 발생하는 문제와 진단 명령

#Claude Code #Multi-account #Settings Sync #Troubleshooting

May 20, 2026 · AI

GraphDB 8종 벤치마크 (1/2) — RCTE 290x 격차의 원인 분해

1.14M edge 지식그래프 워크로드에서 PostgreSQL RCTE가 Apache AGE 대비 290배 빠른 이유 — cypher() wrapper 13ms와 plan generation 비용

#GraphDB #PostgreSQL #RCTE #Apache AGE

May 15, 2026 · AI

초간단 벤치마크로 본 OpenAI 모델 10종

GPT-4, GPT-5, o-시리즈 10종 모델을 추론 문제 3종으로 30회씩 직접 실험했다. gpt-5-nano minimal 정확도는 4.4%였고, o1은 gpt-4o보다 낮았다.

#OpenAI #GPT #model comparison #AI

May 15, 2026 · AI

GitHub Models Inference API — 무료 모델 추론 실험

GitHub의 무료 AI 모델 추론 API를 활용하여 GPT-4.1, DeepSeek R1 등 다양한 최신 AI 모델을 손쉽게 사용하는 방법

#GitHub #Inference API #AI #API

May 15, 2026 · AI

GPT-5 Responses API 웹 검색 도구 실험

OpenAI GPT-5 Responses API의 웹 검색 기능 구현 과정에서 발견한 모델별 도구 지원 차이와 파라미터 구성 방식에 대한 실험 기록. gpt-5와 gpt-5-chat-latest 모델 간 웹 검색 도구 호환성 차이를 중심으로 API 호출 실험 결과를 분석한다.

#AI #GPT-5 #API #web search