DARPA ITM (In The Moment) Project

Kiwoong Park·2022년 6월 17일
0

정답이 없는 시나리오에서 신뢰할 수 있는 인공지능 의사결정모델 개발 프로젝트 ITM

원문링크
Developing Algorithms that Make Decisions Aligned with Human Experts
New effort seeks to build trusted AI decision-makers for scenarios where ground truth doesn’t exist

원문 본문 및 번역

Military operations – from combat, to medical triage, to disaster relief – require complex and rapid decision-making in dynamic situations where there is often no single right answer.
전투부터, 부상자 치료, 재난 구호 등 군사 작전에는 하나의 정답이 존재하지 않는 동적이 상황에서 복잡하고 신속한 의사결정이 필요합니다.

Two seasoned military leaders facing the same scenario on the battlefield, for example, may make different tactical decisions when faced with difficult options.
예를 들어, 전장에서 같은 시나리오를 마주한 두 명의 노련한 군사 지도자는 어려운 선택지에 직면했을 때 서로 다른 전술적 결정을 내릴 수 있습니다.

As AI systems become more advanced in teaming with humans, building appropriate human trust in the AI’s abilities to make sound decisions is vital. Capturing the key characteristics underlying expert human decision-making in dynamic settings and computationally representing that data in algorithmic decision-makers may be an essential element to ensure algorithms would make trustworthy choices under difficult circumstances.
AI 시스템이 인간과 협력하는 방식이 더욱 발전함에 따라, AI의 올바른 의사결정 능력에 대한 인간의 적절한 신뢰를 구축하는 것이 매우 중요합니다. 동적인 환경에서 인간 전문가 의사결정의 근간이 되는 주요 특성을 파악하고 알고리즘 의사결정자의 데이터를 계산적으로 표현하는 것은 알고리즘이 신뢰할 수 있는 선택을 하도록 보장하는데 필수적인 요소입니다.

DARPA announced the In The Moment (ITM) program, which seeks to quantify the alignment of algorithms with trusted human decision-makers in difficult domains where there is no agreed upon right answer. ITM aims to evaluate and build trusted algorithmic decision-makers for mission-critical Department of Defense (DoD) operations.
DARPA는 합의된 정답이 없는 어려운 전문 영역에서 알고리즘과 신뢰할 수 있는 인간 의사결정권자의 조율을 정량화하기 위한 In the Moment(ITM) 프로그램을 발표했습니다. ITM은 미션 크리티컬(실패나 중지 시 사업이나 조직의 운용 및 생존에 심대한 타격을 줄 수 있는 시스템)한 미 국방부의 작전을 위해 신뢰할 수 있는 알고리즘 의사결정자를 평가하고 구축하는 것을 목표로 합니다.

“ITM is different from typical AI development approaches that require human agreement on the right outcomes,” said Matt Turek, ITM program manager. “The lack of a right answer in difficult scenarios prevents us from using conventional AI evaluation techniques, which implicitly requires human agreement to create ground-truth data.”
ITM 프로그램 매니저인 매트 튜렉은 "ITM은 올바른 결과에 대해 인간의 동의가 필요한 전형적인 AI 개발 접근 방식과는 다르다"라고 말했습니다. "어려운 시나리오에서는 올바른 정답이 없기 때문에 실측 데이터를 생성하기 위해 암묵적으로 인간의 동의가 필요한 기존의 AI 평가 기법을 사용할 수 없습니다."

To illustrate, self-driving car algorithms can be based on ground truth for right and wrong driving responses based on traffic signs and rules of the road that don’t change. One feasible approach in those scenarios is hard-coding risk values into the simulation environment used to train self-driving car algorithms.
예를 들어, 자율주행차 알고리즘은 변하지 않는 교통 표지판과 도로 규칙을 기반으로 올바른 운전 반응 과 잘못된 운전 반응에 대한 실측 데이터를 기반으로 할 수 있습니다. 이러한 시나리오에서 실현 가능한 한 가지 접근 방식은 자율주행차 알고리즘을 학습시키는 데 사용되는 시뮬레이션 환경에 위험 값을 하드 코딩하는 것입니다.

“Baking in one-size-fits-all risk values won’t work from a DoD perspective because combat situations evolve rapidly, and commander’s intent changes from scenario to scenario,” Turek said. “The DoD needs rigorous, quantifiable, and scalable approaches to evaluating and building algorithmic systems for difficult decision-making where objective ground truth is unavailable. Difficult decisions are those where trusted decision-makers disagree, no right answer exists, and uncertainty, time-pressure, and conflicting values create significant decision-making challenges.”
"전투 상황은 빠르게 진화하고, 지휘관의 의도는 시나리오에 따라 달라지기 때문에 일률적인 위험 값을 적용하는 것은 국방부 관점에서 효과적이지 않습니다."라고 튜렉은 말합니다. 국방부는 객관적인 근거 자료를 얻을 수 없는 어려운 의사 결정을 위해 알고리즘 시스템을 평가하고 구축하는 데 엄격하고 정량화 가능하며 확장 가능한 접근 방식이 필요합니다.

ITM is taking inspiration from the medical imaging analysis field, where techniques have been developed for evaluating systems even when skilled experts may disagree on ground truth.
ITM은 의료 영상 분석 분야에서 영감을 얻어 숙련된 전문가들이 실측에 대해 의견이 다를 때에도 시스템을 평가할 수 있는 기술을 개발했습니다.

For example, the boundaries of organs or pathologies can be unclear or disputed among radiologists. To overcome the lack of a true boundary, an algorithmically drawn boundary is compared to the distribution of boundaries drawn by human experts. If the algorithm’s boundary lies within the distribution of boundaries drawn by human experts over many trials, the algorithm is said to be comparable to human performance.
예를 들어, 장기나 병리의 경계가 불분명하거나 방사선 전문의들 사이에서 이견이 있을 수 있습니다. 진짜 경계의 부재를 극복하기 위해, 알고리즘으로 그려진 경계를 인간 전문가가 그린 경계의 분포와 비교합니다. 만약 알고리즘의 경계가 인간 전문가가 여러 번의 실험을 통해 도출한 경계 분포 내에 있다면 알고리즘은 인간의 성능과 비슷하다고 할 수 있습니다.

“Building on the medical imaging insight, ITM will develop a quantitative framework to evaluate decision-making by algorithms in very difficult domains,” Turek said. “We will create realistic, challenging decision-making scenarios that elicit responses from trusted humans to capture a distribution of key decision-maker attributes. Then we’ll subject a decision-making algorithm to the same challenging scenarios and map its responses into the reference distribution to compare it to the trusted human decision-makers.”
"의학 영상에 대한 인사이트를 바탕으로, ITM은 매우 어려운 전문 영역에서도 알고리즘에 의한 의사 결정을 평가할 수 있는 정량적인 프레임워크를 개발할 예정입니다."라고 튜렉은 말합니다. "신뢰할 수 있는 인간의 반응을 이끌어내는 현실적이고 도전적인 의사결정 시나리오를 만들어 주요 의사결정자의 속성 분포를 파악할 것입니다."

The program has four technical areas. The first is developing decision-maker characterization techniques that identify and quantify key decision-maker attributes in difficult domains. The second technical area is creating a quantitative alignment score between a human decision-maker and an algorithm in ways that are predictive of end-user trust.
이 프로그램은 4 가지의 기술적 영역이 있습니다. 첫 번째는 어려운 전문 영역에서 의사결정자의 주요 속성을 식별하고 정량화하는 의사결정권자 특성화 기법을 개발하는 것입니다.
두 번째 기술 영역은 최종 사용자의 신뢰를 예측할 수 있는 방식으로 인간 의사결정자와 알고리즘 간의 정량적 정렬 점수를 생성하는 것입니다.

A third technical area is responsible for designing and executing the program evaluation. The final technical area is responsible for policy and practice integration; providing legal, moral, and ethical expertise to the program; supporting the development of future DoD policy and concepts of operations (CONOPS); overseeing development of an ethical operations process (DevEthOps); and conducting outreach events to the broader policy community.
세 번째 기술적 영역은 프로그램 평가의 설계와 실행을 담당합니다. 마지막 기술적 영역은 정책과 실무 통합,프로그램에 대한 법적, 도덕, 윤리적인 전문성 제공, 미래 국방부 정책 및 작전 운용 개념의 개발을 지원, 윤리적 운영 프로세스 개발 감독, 광범위한 정책 커뮤니티에 대한 홍보 행사 수행을 담당합니다.

ITM is a 3.5-year program encompassing two phases with potential for a third phase devoted to maturing the technology with a transition partner. The first phase is 24-months long and focuses on small-unit triage as the decision-making scenario. Phase 2 is 18-months long and increases decision-making complexity by focusing on mass-casualty events.
ITM은 2단계로 구성된 3.5년짜리 프로그램으로, 전환 파트너와 함께 기술을 성숙시키는 3단계가 추가될 가능성이 있습니다. 첫 번째 단계는 24개월 동안 진행되며 의사 결정 시나리오로서 소규모 단위 부상자 분류에 중점을 둡니다. 2단계는 18개월 동안 진행되며 대량 사상자 발생에 초점을 맞춰 의사 결정의 복잡성을 높입니다.

To evaluate the whole ITM process, multiple human and algorithmic decision-makers will be presented scenarios from the medical triage (Phase 1) or mass casualty (Phase 2) domains. Algorithmic decision-makers will include an aligned algorithmic decision-maker with knowledge of key human decision-making attributes and a baseline algorithmic decision-maker with no knowledge of those key human attributes. A human triage professional will also be included as an experimental control.
전체 ITM 프로세스를 평가하기 위해 여러 명의 인간 및 알고리즘 의사 결정권자에게 의료 분류(1단계) 또는 대량 사상자(2단계) 영역의 시나리오를 제시합니다. 알고리즘 의사결정자는 인간의 주요 의사결정 속성에 대한 지식을 갖춘 정렬된 알고리즘 의사결정자와 이러한 주요 인간 속성에 대한 지식이 없는 기준(baseline) 알고리즘 의사결정자로 구성됩니다. 인간 부상자 분류 전문가도 실험 대조군으로 포함될 것입니다.

“We’re going to collect the decisions, the responses from each of those decision-makers, and present those in a blinded fashion to multiple triage professionals,” Turek said. “Those triage professionals won’t know whether the response comes from an aligned algorithm or a baseline algorithm or from a human. And the question that we might pose to those triage professionals is which decision-maker would they delegate to, providing us a measure of their willingness to trust those particular decision-makers.”
"우리는 각 의사 결정권자의 결정과 응답을 수집하여 여러 부상자 분류 전문가에게 블라인드 방식으로 제시할 것입니다."라고 Turek은 말합니다. "이러한 부상자 분류 전문가들은 응답이 정렬된 알고리즘에서 나온 것인지, 기준(baseline) 알고리즘에서 나온 것인지, 아니면 사람이 한 것인지 알 수 없습니다. 이러한 분류 전문가에게 어떤 의사 결정권자에게 위임할 것인지에 대한 질문을 통해 특정 의사 결정권자를 얼마나 신뢰하는지 가늠할 수 있습니다."

profile
You matter, never give up

0개의 댓글

관련 채용 정보