데이터를 JSON 형태로 만드는 방법은 여러 가지다. Python을 사용하거나 CSV 데이터를 자동으로 처리하도록 한다.
prompt,completion
"안녕하세요, 어떻게 도와드릴까요?", "저는 AI 챗봇입니다."
"오늘 날씨가 어떤가요?", "오늘은 맑고 화창합니다."
아래와 같이 Python을 사용하여 CSV 파일을 JSON 포맷으로 변환하는 스크립트를 작성
import csv
import json
# CSV 파일 경로와 JSON 파일 경로
csv_file_path = 'data.csv'
json_file_path = 'data.json'
# CSV 파일 읽기
data = []
with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
csv_reader = csv.DictReader(csv_file)
for row in csv_reader:
# 각 행을 JSON 포맷에 맞게 변환
data.append({
"prompt": row['prompt'],
"completion": row['completion']
})
# JSON 파일로 저장
with open(json_file_path, mode='w', encoding='utf-8') as json_file:
json.dump(data, json_file, ensure_ascii=False, indent=4)
print(f"JSON 파일이 성공적으로 생성되었습니다: {json_file_path}")
Pandas을 사용하는 예제 코드는 아래와 같다.
import pandas as pd
# CSV 파일 읽기
df = pd.read_csv('data.csv')
# JSON으로 변환 및 저장
df.to_json('data.json', orient='records', lines=True, force_ascii=False)
생성한 JSON 파일은 반드시 적절한 Json 구조인지 검증하는 것이 필요하다. 이는 온라인 JSON Validator나, Python에서 json 모듈로 직접 검증할 수 있다.