AI
-
Transformer²: 자기 적응형 LLM(Self-Adaptive LLMs)AI/VLM 2025. 2. 10. 08:25
Transformer²의 새로운 패러다임의 제시는 인공지능 시장의 영향을 줄 수 있을것인가? gpt-o3에 적용된 기술이 모두 공개되지 않았지만 그중 알려진 SFT, RL-COT, inference test time 들의 내용은 본 논문이 유용하게 적용될 수 있다고 생각한다.요약적응은 자연에서 가장 놀라운 현상 중 하나입니다. 문어가 주변 환경에 어울리도록 피부색을 바꾸는 방식부터 , 인간의 뇌가 부상 후 스스로를 다시 배선하여 개인이 잃어버린 기능을 회복하고 새로운 사고방식이나 움직임에 적응할 수 있도록 하는 방식까지. 살아있는 유기체는 다양하고 끊임없이 변화하는 환경에서 생명이 번성할 수 있도록 하는 적응력을 보여줍니다.AI 분야에서 적응이라는 개념은 비슷한 매력을 가지고 있습니다. 익숙하지 않은..
-
LLM2CLIP: Powerful Language Model Unlocks Richer Visual RepresentationAI/VLM 2024. 12. 31. 19:25
최근 Microsft에서 " LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation" 라는 제목의 논문을 발표 했습니다. 논문에 따르면 LLM2CLIP은 기존 CLIP보다 더 강력한 텍스트 이해를 얻을 수 있으며 많은 이미지 캡션 데이셋에서 최첨단 검색 성능을 달성했다고 합니다. 이번 블로그에서는 LLM2CLIP의 내용을 확인하고 CLIP과 비교해보도록 하겠습니다. 먼저 LLM2CLIP과 CLIP은 LLM2Vec의 두가지 기술에 영향을 받기 때문에 CLIP과 LLM2Vec을 확인하고 LLM2CLIP을 확인해보겠습니다.CLIPCLIP는 OpenAI가 개발한 멀티모달 모델 중 하나로 Transformer 아키텍처를 기반으로 하는 이미지 ..
-
'제미나이키친' : VLM으로 음식 레시피 Assistant 구현AI/VLM 2024. 12. 23. 01:25
최근 티비 광고를 보다보면 구글 Gemini를 통해서 음식 요리를 하는 '제미나이키친' 영상을 볼 수 있습니다. 이번 블로그에서는 VLM모델인 LLaVA(Large Language and Vision Assistant)를 통해 '제미나이키친'영상 처럼 재료를 통해 레시피를 확인해보겠습니다. 소개최근 LLM 모델은 빠른속도로 발전했으며 이를 활용한 수 많은 어플리케이션이 개발되었고 앞으로 더 많은 더플리케이션이 출시 될것으로 예상됩니다. 특히, Vision Language Model은 GPT-4V에 비전 기능이 도입된 이후 점점 더 많은 주목을 받고 있습니다. 이미지 이해로 GPT-4의 자연어 기능을 강화함으로써 비전과 언어 이해가 모두 필요한 작업을 수행하는 사용자를 도울 수 있는 강력한 Assistan..
-
Wikipedia 지식 기반 LLM 에이전트 생성AI/Agent 2024. 12. 11. 00:42
Wikipedia API와 RAG를 활용해서 Solar 모델에서 Wikipedia의 지식을 어떻게 활용할 수 있는지 알아보겠습니다. 코드[링크] Wikipedia 지식 기반 Solar Agent위키피디아에서 검색한 정보를 기반으로 질문에 답하는 간단한 Agent를 만드는 단계는 다음과 같습니다.사용자의 질문과 관련된 위키피디아 페이지를 검색하기 위해 적절한 쿼리를 생성합니다.위키피디아에서 찾은 페이지 중 사용자의 질문과 가장 관련성이 높은 내용이 있는 페이지를 검색합니다.검색된 페이지에서 사용자의 프롬프트와 가장 관련성이 높은 구절을 추출 합니다.페이지에서 발췌한 내용을 기반으로 사용자의 질문에 답변합니다.일반적으로, 모델은 가장 관련성 있는 페이지의 전체 내용으로 증강된 프롬프트를 받거나 사용자의 프롬..
-
RAG for Vision: 멀티모달 컴퓨터 비전 시스템을 구축한다면?AI/VLM 2024. 12. 11. 00:10
Visual RAG가 무엇이고, 왜 중요한지, 컴퓨터 비전 파이프라인에 어떻게 적용될 수 있는지 알아보겠습니다. 먼저 들어가기전에 Visual Prompting에 대해서 알아보겠습니다.RAG는 프롬프트의 원리와 정보 검색의 원리를 결합한 방법입니다.Prompting 은 특정 지침이나 쿼리를 제공하여 MLLM(Multimodal Large Language Model)과 같은 기초 모델이 작업을 수행하도록 안내합니다. Vision 도메인에서 Visual Prompting은 시각적 입력(이미지, 선, 점 등)을 사용하여 대규모 비전 모델에 특정 작업을 수행하도록 지시합니다. 여기에는 종종 모델이 명시적으로 훈련받지 않은 작업도 포함됩니다. 다음 그림은 프롬프트이 가능한 모델을 어떻게 구성하여 대규모 시스템을 ..
-
[assay] 대규모 비전 모델(LVM)과 비전 언어 모델(VLM) 이해AI/VLM 2024. 9. 19. 19:34
빠르게 진화하는 AI 분야에서 Large Vision Models(LVM)와 Vision Language Models(VLM)는 혁신을 주도하는 두 가지 주요 범주입니다. 공통점이 있지만, 기능, 아키텍처, 애플리케이션에서도 상당한 차이점을 보입니다. 자세한 비교를 통해 차이를 살펴보겠습니다. Large Vision Models(LVM)정의: LVM은 분류, 감지, 분할, 생성 등의 작업을 수행하기 위해 시각 데이터 처리에만 초점을 맞춘 딥 러닝 모델입니다.특징:input : 시각적 데이터(이미지).output : 분류, 감지된 객체, 분할된 이미지, 생성된 이미지와 같은 시각적 콘텐츠.architecture : 이미지 처리를 위해 설계된 CNN 또는 Transformer활용:Classification..
-
-
yolov4 cuda 10.0AI/Darknet 2023. 1. 25. 10:56
https://github.com/Alan-D-Chen/YOLOv4-darknet-original