해당 논문은 다음과 같은 출처를 가지고 있습니다.
출처: A rapidly structured aircraft concept design method based on generative artificial intelligence
논문의 제목은 다음과 같습니다.
제목: A rapidly structured aircraft concept design method based on generative artificial intelligence
제목: 생성적 인공지능 기반의 신속하게 구조화된 항공기 개념 설계 방법
항공기 개념 설계는 복잡한 과정과 여러 학분 분야를 포함하는 항공기 개발 및 연구의 가장 중요한 단계이다. 그렇기 때문에 품질을 보장하면서 항공기 개념 설계의 효율성을 높이는 것은 중요한 과제이다.
항공기 개념 설계를 위해서 기존 인공지능 기술(예: 신경망)은 공기역학, 구조 분석 등 특정 분야에서 중요한 역할을 했지만, 이를 위해 높은 데이터 요구 사항과 전이 학습의 어려움으로 인해 개념 설계 단계에서의 적용은 제한적이었다.
따라서 우리는 대규모 언어 모델인 LLM을 기반으로 항공기 개념 설계 솔루션을 생성하는 방법론을 제안하고자 한다.
이를 위한 프로토타입 시스템을 개발했고, 핵심적인 방법론은 다음과 같다.
먼저, 현재 가장 우사한 성능을 보이는 4가지 범용 LLM인 GPT-4, Gemini1.5, Llama3.1, Qwen2를 기초 모델로 선정하여 시스템에 배포하였다.
이 모델들은 벤치마크 순위, 사용자 만족도, API 접근성 다국어 처리 능력 등을 고려하여 선정되었다.
특히 Llama3.1-8B 모델과 Qwen2-7B 모델은 항공기 설계의 높은 기밀성 요구사항과 GPU RAM 제약으로 인해 로컬 배포를 위해 특별히 선택되었다.
(예: NVIDIA RTX 4090D 24GB, NVIDIA A100 80GB)
다음으로, LLM의 일반적인 프롬프트 프레임 워크, 항공기 개념 설계 솔루션 스키마 및 실제 설계 사례를 기반으로 항공기 개념 설계 솔루션 생성을 위한 작업 프롬프트를 제작하여 Full-Instruction, 1-Shot 및 5-Shot의 세 가지 유형의 프롬프트를 생성한다.
마지막으로, 프로토타입 시스템을 활용하여 개념 솔루션을 설계하고 모델에서 생성된 솔루션을 객관적 및 주관적 관점에서 엔지니어가 설계한 솔루션과 비교한다.
실험 결과 LLM은 엔지니어와 유사한 개념 설계 능력을 보여주며 강력한 일반화 능력과 혁신적인 설계 가능성을 보여주었다.
프롬프트 엔지니어링 개발에서 개념 설계는 항공기 설계의 초기 단계로 개념 설계 단계는 전체 개발 주기에서 비교적 짧은 시간을 차지하고 자금 및 인력을 포함한 비교적 적은 자원을 필요로 한다. 또한, 총 작업량 또는 비용의 20% ~ 30%를 차지하지만, 수많은 중요한 결정을 내린다. 이러한 결정은 항공기의 기술적 타당성 및 수명 주기 비용의 70% 이상을 결정한다.
그렇기 때문에 개념 설계가 항공기의 전체 개발 및 설계에 상당한 영향을 미친다는 것은 사실이다.
따라서 필요한 사양을 충족하는 설계 솔루션을 신속하고 비용 효율적으로 개발하는 방법의 문제가 중요하다.
항공기 개념 설계:
개념 설계는 항공기 개발 및 연구의 초기 단계로 전체 개발 주기에서 차지하는 시간과 자원은 상대적으로 적지만, 항공기의 기술적 타당성과 수명 주기 비용의 70% 이상을 결정하는 수많은 중요한 결정이 해당 단계에서 이루어진다.
하지만 항공기 개념 설계는 여러 분야를 포함하는 복잡한 프로세스이며, 엔지니어에게도 광범위한 설계 경험과 전문 기술을 요구한다. 숙련된 설계자도 포괄적인 설계 솔루션을 완료하는 데 상당한 시간이 필요하다.
LLM은 높은 훈련 비용 및 제한된 일반화 가능성과 같은 기존 인공지능 기술이 직면한 현재의 문제들을 해결할 준비가 되었다. 결과적으로, 본 연구에서는 LLM 기술을 항공기 개념 설계에 도입하여 응용 방법에 초점을 맞추고 항공기 개념 설계 프로세스에서의 잠재력을 탐구한다.
본 연구의 주요 기여는 다음과 같다.
항공기 개념 설계를 위한 솔루션 생성을 위해, 일반적인 LLM 프롬프트 프레임워크를 설계 스키마와 통합하고, 이를 기반으로 특화된 프롬프트를 개발한다. 이를 통해 LLM을 활용한 설계 솔루션 생성의 새로운 가능성을 탐색하고자 한다.
이러한 프롬프트 기반 접근을 바탕으로, 다양한 상황에서 일반적인 LLM을 활용할 수 있는 프로토타입 시스템을 개발한다. 해당 시스템은 LLM을 통해 항공기 개념 설계 솔루션을 신속하게 생성할 수 있도록 지원한다.
세 가지 프롬프트 방식과 다양한 크기의 LLM 모델을 사용해 생성된 설계 솔루션을, 실제 인간 엔지니어가 만든 솔루션과 비교함으로써 LLM의 설계 역량을 검증한다.
항공기 설계는 수십 년에 걸쳐 설계 프로세스, 기준 및 방법론을 포괄하는 잘 확립된 설계 시스템으로 발전해 왔다.
개념 설계 단계에서 주요 작업에는
위와 같은 단계가 포함된다.

조금 더 자세하게 보면, 위 사진의 오른쪽에 표시된 것처럼 개념 설계 단계를 3계층으로 분류할 수 있다.
이 파라미터들은 서로 밀접하게 연관되어 있어, 하나의 파라미터 변경이 다른 파라미터에 영향을 미치는 상호 의존적인 특성을 가진다.
이러한 상호 의존성 때문에, 요구사항(예: 비행 거리, 속도)을 설정하면 그에 맞춰 항공기를 바로 설계(예: 날개 면적, 동체 길이)하는 'forword design'방식, 즉 직선적이고 단방향적인 매핑이 매우 어렵다.
결과적으로 현재 항공기 개념 설계 과정은 설계자의 design experience와 과거 설계 솔루션의 데이터에 크게 의존한다. 이는 설계 과정을 비효율적으로 만들 뿐만 아니라, subjective 적인 판단이 개입될 여지가 커서 innovation이 부족한 결과물을 낼 위험이 있다.
이러한 문제점을 해결하기 위해 이 연구에서는 생성적 인공지능 중 하나인 대규모 언어 모델(LLM)과 프롬프트 엔지니어링 기술을 활용하여 항공기 개념 설계의 효율성과 innovation을 높이는 방법을 제안하고 있다.
하지만 LLM이 항공기 새념 설계에서 서로 강하게 결합된 설계 지표들을 동시에 고려하는 데 어려움을 겪는다는 문제가 존재한다.
예를 들어 날개의 형상(면적, 코드 길이, 스팬 등)이나 동체 길이와 같이 서로 유기적으로 영향을 미치는 설계 지표들은 특정 수치적 제약(예: 날개와 동체의 조립 관계, 구조적 안정성)을 동시에 만족시켜야 한다.
LLM은 이러한 수치적 관계나 공간적 제약을 "실제 숫자"로 이해하기 보다는 "토큰"으로 처리하는 결향이 있어, 복잡한 계산이나 물리적 제약 조건을 통합적으로 만족시키는 데 한계가 있다.
따라서 해당 연구에서는 이러한 LLM의 한계를 극복하기 위해서 제시된 항공기 개념 설계 데이터 모델을 기반으로 비결합 설계 매개변수 선정을 진행했다.
비결합 설계 매개변수란 서로 직접적인 결합 관계가 없는 일련의 설계 매개변수들을 신중하게 선정하여, 물리적 제약이 강하지 않은 항목들을 우선적으로 선택한 것이다.
이는 LLM이 설계 과정에서 발생할 수 있는 잠재적인 지표 간 충돌을 줄여, LLM이 더 효율적으로 작동할 수 있도록 문제를 "사전적으로 단순화"한 접근 방식이다.
결과적으로 이 연구는 LLM의 역할을 다음과 같이 단순화하여 정의했다.
입력: 정량적인 요구 사항 매개변수(quantitative requirement parameters)
LLM의 역할: 항공기의 전체 레이아웃, 형상 설계, 3D 모델링을 생성. (여기서 3D 모델링은 LLM이 직접 수행하는 것이 아니라, LLM이 생성한 매개변수를 기반으로 시스템이 자동화하여 모델을 생성하는 방식)
검증: 생성된 솔루션의 합리성(reasonability)과 타당성(feasibility)을 특성 평가(characteristic evaluation)를 통해 검증.
쉽게 요약하자면, 이 연구는 LLM이 복잡한 설계 제약 조건을 동시에 처리하는 데 어려움이 있다는 현실적인 한계를 인정하고, LLM이 강점을 발휘할 수 있는 범위 내에서 항공기 개념 설계 문제를 재정의하고 단순화하여 접근했다. 즉, LLM에게 모든 복잡한 상호작용을 맡기는 대신, LLM은 결합도가 낮은 핵심 설계 매개변수들을 생성하는 데 집중하고, 이후 생성된 매개변수를 기반으로 전문 도구를 활용하여 검증하는 시스템을 구축한 것이다.
LLM의 고유한 특성을 활용하도록 특별히 맞춤화된 LLM-in-the-loop 항공기 개념 설계 워크플로우를 개발

위 논문에서는 항공기 개념 설계를 진행하는 과정에서 생성해야 할 출력물의 형식과 내용을 정의하는 데 아래와 같은 테이블 1을 사용한다.
이는 LLM이 설계 결과물을 만들고 난 후 그 결과물을 평가하는 데도 사용된다.
단계별로 설명하면 다음과 같다.
프롬프트 정의 (LLM의 출력 가이드라인)
이 논문에서는 LLM에게 항공기 개념 설계를 시키기 위해 '프롬프트 엔지니어링'이라는 기술을 사용한다. 특히 CO-STAR 프레임워크와 함께 테이블 1에 명시된 설계 지표들(Indicator schema)을 활용하여 LLM이 출력해야 할 솔루션의 스키마를 정의한다.
즉, LLM에게 '항공기를 설계해 줘'라고 막연하게 지시하는 것이 아니라, "설계 결과물은 테이블 1에 있는 '총 연료량', '과부하', '해수면 최대 정지 출력' 등의 특정 지표들을 포함하여 JSON 형식으로 제공해야 한다"고 프롬프트에 명확히 알려주는 것이다.
이렇게 함으로써 LLM은 단순한 텍스트 설명이 아닌, 후속 설계 단계나 평가 도구와 연동할 수 있는 정형화된 설계 데이터(구조화된 설계 솔루션)를 생성하게 된다.
LLM의 설계 솔루션 생성
위에서 정의된 프롬프트(테이블 1의 지표 포함)와 함께 전투기, 여객기 등 특정 항공기의 정량적 요구 사항을 LLM에 입력하면, LLM은 이를 기반으로 테이블 1의 지표들에 대한 구체적인 수치 값을 포함하는 설계 솔루션을 생성한다.
예를 들어, LLM은 "총 연료량은 1699km입니다.", "해수면 최대 정지 출력은 200kN입니다."와 같은 방식으로 테이블 1의 각 항목에 해당하는 값을 만들어내는 것이다.
설계 솔루션 평가
LLM이 생성한 설계 솔루션(테이블 1의 지표에 해당하는 값들이 포함된 결과물)은 그 이후에 평가 단뎨에서 활용된다.
전문가 평가: LLM이 생성한 솔루션과 실제 엔지니어가 설계한 솔루션을 섞어 전문가들이 테이블 4에 제시된 '실현 가능성(Feasibility)', '참신성(Novelty)', '유용성(Usefulness)' 기준에 따라 평가한다. 이때 Table 1의 지표들이 설계 솔루션의 구체적인 내용이 된다.
계산 평가: 해당 논문의 섹션 2.3.2에서 설명된 바와 같이, Table 1의 지표에 해당하는 LLM이 생성한 실제 성능 값(x_i)을 요구 사항(X_i)과 비교하여 각 지표의 만족도(P_i)를 계산하고, 이를 통해 전체 솔루션의 만족도(M)를 정량적으로 평가합니다.
요약하자면, Table 1은 LLM에게 "무엇을, 어떤 형식으로 출력해야 하는가"에 대한 설계 지침을 제공하여 설계 결과물 생성을 돕고, 동시에 생성된 결과물이 "요구 사항을 얼마나 잘 충족하는가"를 판단하는 평가의 기준점으로 사용된다.
테이블 1.



테이블 4.

LLM을 활용한 설계 지원은 기존의 신경망에 비해 애플리케이션 비용이 낮다는 점에서 상당한 이점을 제공한다.
이는 자연어(프롬프트)로 작업 요구 사항을 완전하게 설명함으로써 사전 훈련 없이도 작업을 수행할 수 있게 한다.
따라서, LLM을 항공기 개념 설계에 적용할 때 핵심적인 문제는 이러한 프롬프트를 설계하는 것이다.
초기 테스트에서 비정형 자연어 프롬프트를 사용하여 대규모 언어 모델(LLM)이 항공기 개념 설계 솔루션을 생성하도록 시도했을 때 다음과 같은 문제점들이 발결되었다.
이러한 문제를 해결하기 위해, 프롬프트 엔지니어링 기법을 활용한 프롬프트 프레임워크가 도입된 것이다.
프롬프트 엔지니어링이란 자연어 처리 분야의 핵심 기술로, 모델에 정보를 입력하는 프롬프트를 설계하고 최적화하여 특정 작업에 대한 모델의 성능을 향상시키는 것을 목표로 한다.
LLM의 성능이 향상되면서 프롬프트 엔지니어링의 중요성이 다소 감소했지만, 여전히 의약, 컴퓨터 비전 분야에서는 특정 형식의 프롬프트가 모델의 작업 능력을 크게 향상시킬 수 있음이 연구를 통해 밝혀졌다.
따라서 해당 논문에서는 CO-STAR 프레임워크 기반 프롬프트 설계를 하고자 한다.
CO-STAR 프레임워크
CO-STAR 프레임워크는 싱가포르 데이터 과학 및 AI팀이 제안한 방식
논문에서는 CO-STAR 프레임워크를 기반으로 항공기 개념 설계 프롬프트를 작성하고자 한다.
기존 LLM의 비정형 자연어 프롬프트가 설명적인 텍스트만을 생성하여 후속 설계 단계에 활용될 수 없다는 문제를 해결하기 위해 도입된 것으로 CO-STAR 프레임워크는 CONTEXT(맥락), OBJECTIVE(목표), STYLE(스타일), TONE(어조), AUDIENCE(대상), RESPONSE(응답)의 6가지 요소를 포함한다.
이 중 RESPONSE 섹션은 JSON(JavaScript Object Notation) 형식으로 모델의 설계 솔루션 형태에 직접적인 영향을 미치므로 가장 중요하다.
다른 섹션의 키워드 선택 또한 모델 출력에 영향을 미칠 수 있으며, 예를 들어 OBJECTIVE 섹션에서 "설계 솔루션은 각 기준에 대한 특정 값을 포함해야 합니다"와 같은 문구를 생략하면 구체적인 값이 없는 출력이 생성될 수 있다.
이처럼 포괄적인 정보를 담아 LLM이 작업을 수행하도록 안내하는 프롬프트를 "Full-Instruction" 프롬프트라고 한다.
아래 이미지가 바로 Full Instruction의 예제이다.

위에서 우리가 설명한 "Full-Instruction" 프롬프트만으로는 충분히 효과적인 설계 결과를 얻기 어려울 수 있다.
이를 보안하기 위해 Few-Shot 방법이 최적화 기법으로 고려되어졌다.
Few-Shot은 프롬프트에 소수의 예제를 추가하여 LLM의 작업 성능을 크게 향상시키는 일반적인 기술이다.
이 연구에서는 CO-STAR 프레임워크의 SHOT 섹션에 고전적인 항공기 설계 사례를 통합하여 LLM의 항공기 설계 기능을 향상시켰다.
1-SHOT, 5-SHOT 이렇게 2가지 시나리오를 설계하여 Few-Shot 접근 방식이 LLM의 설계 능력 향상에 미치는 영향을 평가했다.
이러한 시나리오 선택은 주로 토큰 제한에 영향을 받았는데, LLM에 입력할 수 있는 토큰 제한 때문이다. 기본 프롬프트가 약 400 토큰, 각 설계 예제가 200 ~ 300 토큰을 차지하므로, 최대 5개의 예제로 제한된 것이다.
이러한 프롬프트 엔지니어링 기법은 LLM이 방대한 양의 일반 텍스트 데이터로 사전학습되었음에도 불구하고, 항공기 설계와 같은 고도로 전문화된 분야에서 특정 작업에 대한 이해도와 수행 능력을 효과적으로 끌어올리는 데 중요한 역할을 한다.
이는 기존 AI 기술의 한계였던 높은 데이터 요구량과 전이 학습의 어려움을 극복하는 새로운 가능성을 제시한다.

이 이미지는 LLM을 활용한 항공기 개념 설계의 전체 작업 흐름과 설계 패러다임을 보여준다.
복잡한 항공기 개념 설계를 효율적으로 수행하기 위해
이렇게 크게 4가지 주요 단계로 나뉘어진다.
각각에 대해서 살펴보자,
이러한 워크플로우를 통해 연구는 LLM이 항공기 개념 설계에서 설계 시간 및 인건비를 크게 절감하고, 설계 효율성을 높이며, 심지어 혁신적인 설계 아이디어를 제공할 수 있음을 보여준다.
특히 기존 인공지능 기술이 가진 높은 데이터 요구량과 전이 학습의 어려움 문제를 LLM의 강점인 광범위한 사전 학습 데이터와 일반화 능력을 통해 해결하려는 시도이다.
해당 논문에서는 LLM 기반의 항공기 개념 설계를 위해 ASoT를 활용한다.
ASoT(Authoritative Source of Truth)
ASoT는 항공기 설계에 활용되는 개념이며, 논문에서는 이를 항공기 개념 설계 과정에 적용하기 위해 사용하고 있다.
더 자세히 설명하면
ASoT는 항공기 설계 분야에서 사용되는 데이터 관리 아키텍처이다.
- ASoT의 핵심 아이디어는 항공기 설계의 다양한 단계에서 나오는 모든 설계 결과물을 구조화된 데이터 형태로 정의하고 저장하는 것
- 이는 복잡한 항공기 개발 과정에서 데이터의 일관성과 신뢰성을 확보하기 위한 중요한 개념
논문의 연구진은 개념 설계 솔루션 생성뿐만 아니라 요구 사항 분석 및 솔루션 평가와 같은 상류 및 하류 작업을 포함하는 시스템을 구축했다.
이때 데이터의 가용성과 일관성을 보장하기 위해, ASoT를 중심으로 클라우드 기반의 협업 설계 플랫폼을 구축한 것이다.
즉, ASoT는 이 시스템 내에서 데이터 통합, 관리, 접근을 위한 핵심 허브 역할을 담당한다.
결과적으로 ASoT는 항공기 설계와 같은 복잡한 엔지니어링 프로젝트에서 일관된 데이터 관리를 가능하게 하는 광범위한 개념이며, 본 논문에서는 대규모 언어 모델을 활용한 항공기 개념 설계 과정에서 이 ASoT 아키텍처를 적극적으로 활용하고 있는 것이다.
- Project (프로젝트): 가장 상위 레벨의 데이터 계층으로, 전체 설계 임무를 나타낸다. 이미지에서는 "LLM aircraft design" 프로젝트를 예시로 들고 있다.
- View (Data package, 데이터 패키지): 프로젝트 내의 특정 관점이나 모듈을 의미한다. 이는 관련된 여러 데이터 항목을 묶어 놓은 단위이다. 예를 들어, "Mission&SoS_requirement_analysis" (임무 및 시스템 요구사항 분석) 또는 "Overall_indicators" (전반적인 지표)와 같은 데이터 패키지가 있다.
- Model/data (Data item, 데이터 항목): 데이터 패키지 내의 개별적인 데이터를 나타낸다. "Overall_indicators" 패키지 안에는 "Total fuel quantity" (총 연료량)나 "Overload" (과부하)와 같은 구체적인 설계 지표들이 데이터 항목으로 존재한다.
- Element (요소): 데이터 항목의 가장 세부적인 단위로, 실제 측정값이나 정의된 값을 포함한다. 예를 들어, "Total fuel quantity" 데이터 항목의 실제 값은 "8500 kg"으로 표현된다.
이러한 계층적 구조는 항공기 개념 설계 과정에서 발생하는 방대한 양의 데이터를 체계적으로 관리하고, 서로 다른 설계 단계와 도구들 간의 데이터 일관성과 가용성을 보장하는 데 중요한 역할을 한다. 특히 LLM 기반의 설계 시스템에서는 LLM이 생성한 설계 해답을 전문 도구와 연동하여 평가하고 검증하기 위해 이러한 표준화된 데이터 모델이 필수적이다.
연구의 진전과 관련하여, 이 ASoT 프레임워크는 기존의 분산된 설계 데이터 관리 방식의 비효율성을 개선하고, 인공지능 모델이 생성한 데이터를 하류(downstream)의 전문 분석 도구와 원활하게 연동시킬 수 있도록 지원한다. 이는 복잡한 다학제적 설계 과정에서 데이터 통합의 난제를 해결하는 중요한 단계이며, 향후 LLM과 같은 생성형 AI의 설계 분야 적용을 더욱 확대할 수 있는 기반을 제공한다.
LLM은 설계 아이디어를 생성할 수 있지만, 생성된 솔루션이 실제 항공기 설계 요구사항을 충족하는지, 기술적으로 실현 가능한지 등을 검증하는 기능은 부족하다.
이를 해결하기 위해 전문 분석 도구를 활용한 검증 과정이 필수적이며, 해당 연구에서는 전문 분석 도구를 '기능 단위'로 캡슐화하고 설계 솔루션을 검증한다.
예비 설계 단계에서 주요 모델링, 평가 및 검증을 담당하는 6가지 핵심 기능 단위는 다음과 같다.
형상(Shape): 항공기 3차원 모델을 생성하는 부분, LLM의 설계 출력값을 기반으로 미리 정의된 파라미터 모델을 업데이트하여 자동으로 항공기 형상 모델링을 수행, 이는 공기역학, 무게, RCS 분석의 중요한 입력값이 됨
추진(Propulsion): 엔진 시스템을 설계하는 것이 아니라, 해수면에서의 최대 정지 추력과 같은 전체 성능 요구사항에 기반하여 추진 시스템을 선정, 미리 정의된 데이터베이스와 공학적 알고리즘을 사용하여 엔진의 물리적 치수, 무게, 추력 특성 및 특정 연료 소비량을 추정
공기역학(Aerodynamics): 항공기의 양력 및 항력 특성을 계산, 두 가지 방법이 사용됨
무게(Weight): 항공기 구조 중량, 연료 중량, 탑재량 중량을 추정, 특히 구조 중량과 탑재량 중량은 고전적인 Raymer method를 기반으로 Python 스크립트를 통해 계산
RCS(Radar Cross-Section): RCSPlus 소프트웨어 내에서 수치 시뮬레이션 방법을 사용하여 계산, 3D 모델을 입력으로 받아 메시 밀도, 레이더 파장, 각도 계산 범위 등의 파라미터를 설정하여 RCS 계산을 수행하고 결과를 출력
비행 성능(Flight Performance): 비행 성능은 항속 거리, 최대 비행 속도, 순항 속도, 최대 상승률, 이착률 거리 등 설계 요구사항과 밀접하게 관련된 파라미터를 포함, 공기 역학, 무게, 추진 특성 데이터가 입력으로 사용됨, 이는 공학적 추정 조건에서 정확한 결과를 얻기 어렵지만, 다른 모델이 생성한 솔루션과의 상대적인 비교 기준으로 활용됨
이 6가지 주요 검증 모듈은 통합 개발 환경 내에서 일반화된 구성 요소로 캡슐화되며, 워크플로우 엔진을 통해 통합된 스케줄링 및 제어가 이루어진다.
LLM이 생성한 설계 솔루션이 클라우드 플랫폼에 업로드되면, 솔루션 검증 모듈은 이를 감지하여 최신 설계 요구사항 및 솔루션 데이터를 다운로드하고, 위의 기능 단위를 순차적으로 호출하여 모델링 및 계산을 완료한다.
모든 계산이 완료된 CAD 모델, 파라미터, 곡선, 차트 등의 결과 데이터가 다시 협업 설계 플랫폼에 업로드된다.
시각화 모듈은 협업 설계 플랫폼 내의 설계 프로젝트를 기반으로 구축되어 설계 솔루션에서 생성된 모델과 데이터를 추출하고 이러한 요소를 다양한 형식으로 제공한다.
이 모듈은 이미지, 비디오, 오디오, 곡석, 시계열 데이터, CAD 모델 및 CAE 모델을 포함한 다양한 형식을 지원한다.
이 모듈을 통해 설계자는 전체 프로젝트의 개념 설계 상태에 명확하고 직관적으로 접근하고 비교, 의사 결정, 후속 최적화 및 상세 설계를 용이하게 한다.
이 연구에서 "전문가 평가"는 LLM이 생성한 항공기 개념 솔루션의 품질을 검증하기 위해 사용된 중요한 방법론이다.
해당 논문에서는 전문가 평가가 설계 솔루션 평가에 있어 "골드 스탠다드(gold standard)"로 여겨지며, 과학 연구 및 공학 분야에서 의사 결정의 최고 기준으로 간주한다.
물론 전문가 평가는 강한 주관성과 높은 자원을 요구하지만, 전문가 평가를 Feasibility, Novelty, Usefulness 3가지 핵심 기준을 기반으로 나누어 0점에서 10점까지 척도로 평가 하도록 하여 다양한 모델과 인간 디자이너 간의 설계 능력에 대한 비교 분석이 가능하도록 했다.
LLM이 생성한 18개의 설계 솔루션과 2명의 항공기 개념 설계 엔지니어가 설계한 2개의 솔루션을 혼합하여 총 20개의 솔루션을 준비
이 20개의 솔루션은 항공기 개념 설계 전문가 10명으로 구성된 팀에 의해 채점
각 솔루션에 대한 Feasibility, Novelty, Usefulness 점수는 전문가 평가 점수를 평균하여 산출
이를 통해 다양한 모델과 인간 디자이너 간의 설계 능력에 대한 비교 분석이 가능
이 연구에서는 전문가 평가 외에도, 객관적인 계산적 평가와 유사도 평가를 함께 수행하여 LLM 기반 설계 솔루션의 품질과 일관성을 다각도로 검증하도록 했다.
전상 평가 방식은 전문가 평가를 보완하는 역할을 한다.
단일 지표 만족도 계산
이 식은 단일 지표의 만족도 (P_i)를 계산하는 데 사용되며, 만족도는 0에서 1사이의 무차원 값으로 표현된다.
- X_i: 설계 요구 사항 (예: 최대 비행 속도는 1.6Ma 이상이어야 함)
- x_i: 설계 스키마에 따라 계산된 실제 성능 파라미터 값 (예: 설계된 항공기의 실제 최대 비행 속도)
- m: 설계 요구 사항의 총 개수
- f: 매핑 함수로 설계 지표마다 차원이 다르므로, 이를 0에서 1 사이의 척도로 변환하기 위해 사용
매핑 함수
- 비용 지표(Cost Indicators): 연료 소비량, 이착륙 거리 등 낮을수록 좋은 지표
이 식은 S자 형태의 함수를 사용하여 비선형적인 하향 추세를 반영함
- b: 속도 상수(rate constant)로, 양수이다, 이 값이 작을수록 함수의 감소 속도가 빠르고, 클수록 감소 속도가 느려진다. x_i가 X_i보다 클 경우 만족도가 감소하며, x_i가 X_i 이하일 경우 만족도는 1이 된다.
- 이득 지표(Benefit Indicators): 연료 효율, 비행 속도 등 높을수록 좋은 지표
이 식은 선형 함수를 사용하여 계산을 단순화함
- X_min: 최소 허용 설계 값으로, 예비 설계 단계에서는 설계 요구 사항의 1/2 값으로 설정할 수 있다. x_i가 X_min보다 작으면 만족도는 0이 되고, x_i가 X_i 이상이면 만족도는 1이 된다.
전체 솔루션 만족도 계산
이 식은 개별 지표의 만족도(P_i)를 평균하여 전체 솔루션의 만족도(M)를 계산한다.
- M: 전체 솔루션의 만족도이며, 단일 지표 만족도와 마찬가지로 0에서 1 사이의 무차원 값이다.
이러한 전산 평가 방식은 LLM이 생성한 항공기 개념 설계 솔루션의 정량적인 성능을 측정하여, 인간 엔지니어의 설계와 비교하고 모델의 설계 능력을 검증하는 데 활용된다.
항공기 개념 설계와 같은 복잡한 문제에서 LLM의 출력은 동일한 설계 요구 사항에 대해 다양할 수 있다.
따라서 해당 논문에서는 모델이 생성한 설계 솔루션의 일관성을 평가하는 방법을 설명한다.
LLM의 출력이 높은 유사성을 보인다면, 이는 모델이 특정 설계 요구 사항을 처리할 때 우수한 안정성과 일관성을 가지고 있음을 의미한다.
하지만 이는 모델이 다양한 가능성을 충분히 탐색하지 못해 생성된 솔루션의 다양성이 부족할 수 있음을 시사한다.
반대로, 모델이 낮은 유사성을 가진 설계 솔루션을 생성한다면, 이는 모델이 다양한 솔루션을 생성하고 넓은 설계 공간을 탐색하여 더 큰 혁신성과 유연성을 제공할 수 있음을 의미한다.
하지만 이는 설계 과정에서 불안정성을 초래할 수 있으며, 특히 출력의 품질이나 실현 가능성에 상당한 변동이 있을 수 있다.
따라서 모델의 내부 출력 결과의 일관성을 평가하는 것이 중요하다.
유사성 평가 방법
모델 출력의 표준화 (Standardization)
- 여러 모델에서 나온 출력값들을 비교하기 위해 먼저 데이터를 표준화한다. 이는 서로 다른 스케일이나 단위를 가진 설계 지표들을 동일한 기준으로 비교할 수 있도록 변환하는 과정이다.
모든 솔루션 간의 유클리드 거리 계산 (Euclidean Distance)
- 표준화된 설계 솔루션들 사이의 유사성을 정량적으로 측정하기 위해 유클리드 거리를 사용한다. 유클리드 거리가 작을수록 두 솔루션 간의 유사성이 높다고 해석할 수 있다.
평균 군집 거리 계산 (Average Cluster Distance)
- 모든 솔루션 간의 유킬리드 거리를 계산한 후, 모델이 생성한 전체 솔루션 집합의 평균 유사성(일관성)을 나타내는 지표로 '평균 군집 거리'를 계산한다.
이 값은 모델이 생성하는 솔루션들의 전반적인 분산 또는 응집 정도를 나타내어 모델의 일관성을 평가하는 데 사용된다.
이러한 유사성 평가는 LLM이 특정 디자인 작업에서 얼마나 안정적이고 일관된 결과를 생성하는지, 그리고 동시에 얼마나 혁신적인 다양한 솔루션을 탐색할 수 있는지를 이해하는 데 중요한 통착력을 제공한다.
해당 논문에서는 위 내용을 토대로 제작한 LLM 기반 항공기 개념 설계 솔루션 생성 시스템을 사용하여 특정 설계 과제를 다루었다.
설계 솔루션은 수동 채점 및 전산 평가 방법을 사용하여 평가되었으며, 이 연구는 생성된 솔루션의 품질, 솔루션 생성의 안정성 및 생성 프로세스의 효율성 측면에서 LLM의 기능을 탐구한다.
설계 문제는 아래 표에 나와 있는 10개의 정량적 기준으로 정의되었다.

이러한 요구 사항은 LLM 기반 항공기 개념 설계 솔루션 생성 시스템의 입력으로 사용되었고, Full-Instruction, 1-Shot 및 5-Shot 조건에서 설계를 위해 6개의 서로 다른 모델이 활용되었다.
선택된 모델 중 GPT-4, Gemini1.5, Llama3.1은 영어로, Qwen2는 중국어로 정렬되었다.
따라서 영어, 중국어로 모두 2가지 버전의 프롬프트가 설계되었으며, 각 모델을 호출할 때 해당 언어 프롬프트가 사용되었다.
실험 결과, 프롬프트 키워드가 충분히 포괄적일 때 6개의 모델 모두 설계 요구 사항에 대한 응답으로 각자의 설계 솔루션을 생성할 수 있었으며, 각 솔루션에는 임의로 설계 설명이 함께 제공되었다.
아래 그림은 Full-Instruction 조건에서 Llama3.1-405B에 의해 생성된 설계 솔루션의 출력 결과이다.

설계 솔루션은 JSON 형식으로 제공되며, 스크립트를 사용하여 파라미터 파싱을 수행한 후 설계 데이터는 항공기 협업 데이터 클라우드 플랫폼을 통해 통합된다.
이 플랫폼은 솔루션 평가 모듈의 분산된 역량 단위를 활용하여 항공기의 구성, 공기역학, 무게, 추진, 비행 성능 및 RCS 분석을 수행하여, 그 결과 아래와 같은 그림이 출력되었음을 확인할 수 있다.


LLM 기반 항공기 개념 솔루션 생성 시스템은 3가지 프롬프트 조건(Full-Instruction, 1-Shot, 5-Shot) 하에서 6개의 모델을 포함하는 18개의 항공기 개념 설계 솔루션의 설계, 평가 및 프레젠테이션을 성공적으로 완료했다.
전체 과정은 29분 48초가 소요되었으며, 생성된 18개의 항공기 솔루션의 구성은 다음과 같다.

본 논문에서는, 각 설계 솔루션의 품질을 비교하기 전에, 6개의 모델이 18개 솔루션에 대해 생성한 27개 파라미터 간의 차이를 평가하기 위해 변동 계수(CV) 분석을 수행했다.
변동 계수(CV)
변동 계수는 데이터의 상대적인 퍼짐 정도, 즉 상대적 변동성을 나타내는 지표이다.
데이터의 표준 편차를 평균으로 나눈 값으로 계산되며, 이 값은 측정 단위에 영향을 받지 않기 때문에, 서로 다른 단위를 가진 데이터 세트나 평균값이 크게 다른 데이터 세트 간의 변동성을 비교할 때 유용하게 사용된다.
CV 값이 높을수록 데이터가 평균으로부터 더 많이 퍼져 있다는 것을 의미하고
CV 값이 낮을수록 모델 간의 일관성이 높다는 뜻이다.해당 논문에서 "wing upper angle"(날개 상반각)의 CV가 1.54, "horizontal tail upper angle"(수평 꼬리날개 상반각)의 CV가 1.11이라는 것은 2가지 파라미터 값에 대해 LLM들이 평균적으로 해당 파라미터 값의 111%와 154%에 달하는 표준 편차를 가진 값을 출력했다는 의미로 모델들 간에 매우 큰 차이가 있음을 보여준다.
반면 "wing area"(날개 면적), "fuselage length"(동체 길이), "wing leading-edge sweep angle"(날개 앞전 후퇴각)과 같은 다른 파라미터들은 CV 값이 더 낮게 나타났는데, 이는 이들 파라미터에 대해서는 모델들이 상대적으로 더 일관된 설계 값을 도출했음을 의미한다.
이 단계의 목적은 서로 다른 모델에서 생성된 설계 솔루션 간에 차이를 평가하는 것이다.
이러한 차이는 전문가 점수 평가의 맥락에서 설계 솔루션의 후속 점수 부여 및 평가의 기초가 되며, 만약 모든 설계 솔루션이 설계 지표에서 최소한의 변동을 보인다면, 전문가 점수 평가의 신뢰성은 저하될 것이다.
결과는 다음과 같다.

위 데이터를 확인하면 "날개 상반각"과 "수평 꼬리 날개 상반각"에 대한 CV 값이 1.54와 1.11임을 나타내며, 이는 상당한 차이가 있음을 보여준다.
이러한 불일치는 파라미터가 공기역학적 성능에 미치는 상당한 영향에서 비롯될 수 있으며, 서로 다른 모델이 이를 최적화하기 위해 다양한 전략을 채택하도록 유도한다.
반면에 "날개 면적", "동체 길이", "날개 앞전 후퇴각"과 같은 파라미터는 더 낮은 변동 계수를 나타내며, 이는 이러한 파라미터가 서로 다른 모델의 설계 솔루션에서 더 일관성이 있음을 보여준다.
정리하면 전반적으로 모델에서 생성된 18개의 설계 솔루션에서 다양한 설계 파라미터의 변동성은 상당한 차이를 보여준다.
모델에서 생성된 18개의 설계 솔루션은 2 명의 항공기 개념 설계 엔지니어가 설계한 2개의 솔루션과 혼합되어 총 20개의 솔루션이 되었다.
인간 엔지니어의 설계 솔루션은 LLM에서 생성된 솔루션에 대한 비교 벤치마크 역할을 하도록 선택된다.
또한 2명의 설계자를 벤치마크로 선택함으로써 개인적인 전문성 또는 설계 개념의 영향을 완화할 수 있다.
이 20개의 솔루션은 항공기 개념 설계를 전문으로 하는 10명의 전문가에 의해 평가되었다.
각 솔루션에 대한 Feasibility(실현 가능성), Novelty(참신성) 및 Usefulness(유용성) 점수는 다음과 같은 표로 전문가 평가의 평균을 내어 정리하였다.

결과는 Full-Instruction 조건에서 Llama3.1-405 B 및 Qwen2-72 B에 의해 설계된 솔루션이 인간 엔지니어가 설계한 솔루션보다 기술적 실현 가능성 및 참신성에서 더 높은 점수를 받았음을 나타낸다.
반면에 GPT-4, Gemini1.5 및 두 명의 인간 엔지니어 솔루션의 성능은 유사했으며 Llama3.1-8 B 및 Qwen2-7 B의 성능이 가장 낮았다.
추가로 Llama3.1 및 Qwen2 시리즈 모델의 성능은 동일 시리즈 내에서 모델 파라미터 크기의 차이로 인해 설계 능력에 상당한 변화가 발생할 수 있음을 보여주었다.
파라미터가 클수록 더 나은 설계 결과를 얻을 수 있지만, 더 큰 배포 및 운영상의 어려움도 발생한다. 따라서 모델 설계 효과와 모델 크기 간의 관계를 신중하게 고려해야 한다.
결과적으로 Qwen2 시리즈 모델이 추가 테스트를 위해 선택되었으며, 결과는 다음과 같다.

위 결과를 보면 0.5 B 몯레은 항공기 설계를 전혀 할 수 없음을 나타내고, Full-Instruction 하에서 완전한 솔루션을 생성하지 못했고, 생성한 몇 안 되는 설계 파라미터도 상당한 오류가 있었다.
전문가 평가를 완료 후, 20개의 설계 솔루션의 만족도 수준을 위에서 설명했던 전산 평가를 사용하여 계산했다.
결과는 다음과 같다.


전반적으로 3가지 프롬프트 조건에서 GPT-4, Gemini1.5, Llama3.1-405B, Qwen2-72B에 의해 생성된 설계 솔루션은 설계 요구 사항에 대한 높은 수준의 만족도를 나타냈으며, 모두 8%를 초과하여 인간 엔지니어가 설계한 솔루션과 비슷했다.
재밌어요~