43일차 : 프로젝트 7 & AI Agent

Luis_J·7일 전
0

MS_AI_School 5기

목록 보기
44/48
post-thumbnail

Summary

Introduction

김승준 이사님
1차 프로젝트의 7번째 날이자 오랜만에 교육을 듣는 날입니다.

오후 3시까지는 프로젝트 준비를 했고
오후 3시부터는 AI Agent 에 대해 배웠습니다.

Code, Conept & Explanation

Gartner Hype cycle

  1. 기술 촉발 단계 Innovation Trigger:
    새로운 기술이 등장해서 모두가 관심을 가지기 시작.
    롤러코스터의 출발처럼 신나는 단계

  2. 기대의 절정 Peak of Inflated Expectations:
    기술에 대한 기대감이 엄청나게 커져요.
    사람들이 이 기술이 모든 것을 바꿀 거라고 생각하죠.
    가장 높은 지점에 도달한 상태예요.

  3. 환멸의 골짜기 Trough of Disillusionment:
    현실을 깨닫게 되는 순간이 와요.
    사람들이 기술의 한계를 알게 되고 흥미를 잃어가죠.
    롤러코스터가 내려가는 구간과 같아요.

  4. 계몽의 단계 Slope of Enlightenment:
    기술이 개선되고 사람들이 이를 더 잘 이해하게 돼요.
    실제로 어디에 유용하게 사용할 수 있을지 점점 명확해지죠.

  5. 생산성의 안정기 Plateau of Productivity:
    기술이 일상에서 유용하게 사용되고,
    사람들에게 이익을 주는 단계에 이르러요.

Agentic AI

Andrew Ng의 발표 영상
AI Agentic workflows
https://www.youtube.com/watch?v=sal78ACtGTc

Agentic Reasoning

Design Patterns는 AI 에이전트(프로그램)가 스스로 생각하고 행동하도록 만드는 여러 디자인 패턴

Reflection (반성/재검토)

Self-Refine : Coder Agent(LLM)만 있습니다.

Reflection : Agent 가 2개가 될 수 있습니다.
Coder Agent(LLM)
Critic Agent

Tool Use (도구 사용)

에이전트가 다양한 도구나 기능을 사용해서 더 똑똑하게 문제를 푸는 방식
Patil 등의 연구에서는 여러 API를 연결해 Gorilla라는 큰 언어 모델이 다양한 작업을 처리하게 하는 방법
Yang 등의 연구에서는 MM-REACT를 통해 ChatGPT가 여러 형태의 정보를 처리하고 이에 맞춰 행동할 수 있게 하는 방법을 설명

Planning (계획)

에이전트가 미리 생각하고 순서대로 논리적인 계획을 세워서 답을 찾는 방식
Wei 등의 연구는 Chain-of-Thought Prompting을 통해 AI가 단계적으로 생각하도록 유도해 더 나은 답을 유도하는 방식을 설명
Shen 등의 HuggingGPT 연구는 여러 AI 모델을 함께 사용해 작업을 해결하는 방법을 다루고 있음

Chain-of-Thought Prompting

Multi-Agent Collaboration (다중 에이전트 협업)

여러 AI 에이전트가 서로 소통하고 협력하여 더 복잡한 문제를 해결하는 방식
Qian 등의 연구는 Communicative Agents가 소프트웨어 개발에서 서로 소통하며 문제를 해결하는 방법을 설명
Wu 등의 AutoGen 연구는 여러 AI가 대화를 통해 차세대 애플리케이션을 만드는 방식

Open AI Multimodal agents

https://www.youtube.com/watch?v=yJHw33cVeHo&t=1015s

기존 방식은 사람이 코드를 요청하고
오류가 발생하면
사람과 ChatGPT가 서로 핑퐁하면서 해결

멀티모달 에이전츠가 나온다면
한 번의 명령으로 해결 가능

Autogen

AutoGen은 고수준 추상화로 다중 에이전트 대화 프레임워크를 제공

마이크로소프트에서 개발한 오픈 소스 프레임워크

AI 에이전트 시스템을 구축하고 관리하는 데 사용

이 프레임워크는 여러 에이전트 간의 협업을 통해 복잡한 작업을 자동화 및 최적화 목표

Anthropic

Open AI 에서 나온 분들이 만든 스타트업

Claude

Claude는 정보이론의 대표적인 과학자인 Claude Shannon의 이름을 따라서 지어진 AI 모델
OpenAI와 함께 현재 이 분야를 선도
AWS 와 활발하게 협업

Azure에 OpenAI가 있다면
AWS에 Claude가 있습니다

Computer use for coding

https://youtu.be/vH2f7cjXjKI?si=UaqIaLdBEPgjeUEk

Claude | Computer use for orchestrating tasks

https://youtu.be/jqx18KgIzAE?si=mlXwG0r2-XifCj_k

Computer use for automating operations

https://youtu.be/ODaHJzOyVCQ?si=kj5CAxw8o03TE-RB

5 CHALLENGES for Claude Computer Use

Here's What Happened - YouTube
https://www.youtube.com/watch?v=aN-IbSyIw7Q

한 번의 타이핑으로 원하는 아웃풋을 제공

Selenium

fragile한 측면이 있습니다.

OmniParser

화면에 보이는 사용자 인터페이스(UI) 스크린샷을 이해하기 쉽게 나누어 정리해 주는 기술

화면을 보고 작업을 수행하는 에이전트 시스템(자동화된 프로그램)들이 더 똑똑하게 행동할 수 있습니다

Challenges & Solutions

프로젝트 준비

전날 발표자료 초안은 나왔습니다.

부족한 부분은 제가 채웠고
천재님께서 디자인을 만져주신 덕분입니다.

인공지능윤리 마무리 되지 않아
추가 작업이 필요했습니다.

우리에게 주어진 발표 시간은 15분이었고
실전처럼 리허설을 진행해보니 16분 초과했습니다.

각자 분량을 줄이는 작업을 오전 중 진행하면서
계속해서 발표 시간을 줄여나갔습니다.

다행히 14분 내외까지 줄였습니다.

과정 중 발표 파트 나눌 때 명확한 답이 없다보니
결정하는데 시간이 오래 걸렸습니다.

천재님의 아이디어로
먼저 각자 스크립트를 작성하고
다른 사람이 대신 발표해도 되는 상황을 만들었습니다.

실제 발표를 하면서 분량을 최대한 유사하게 맞췄습니다.

Results

What I Learned & Insights

디자인을 모두가 고려하기보다는
누군가 개인적으로 전체 디자인을 고려하는 것이 나을 수도 있습니다.

발표 시간을 가늠하기 위해, 리허설이 필수입니다.

스크립트를 미리 작성해서 팀 전체 발표

Conclusion

profile
New life & History
post-custom-banner

0개의 댓글