[AI] 데이터 학습을 위한 Json 포맷 만들기

JAsmine_log·2024년 8월 23일
0

데이터를 JSON 형태로 만드는 방법은 여러 가지다. Python을 사용하거나 CSV 데이터를 자동으로 처리하도록 한다.

Json 파일로 변환하는 방법

CSV 파일을 JSON 포맷으로 변환

1. CSV 파일 준비

prompt,completion
"안녕하세요, 어떻게 도와드릴까요?", "저는 AI 챗봇입니다."
"오늘 날씨가 어떤가요?", "오늘은 맑고 화창합니다."

2. Python 스크립트 작성:

아래와 같이 Python을 사용하여 CSV 파일을 JSON 포맷으로 변환하는 스크립트를 작성

import csv
import json

# CSV 파일 경로와 JSON 파일 경로
csv_file_path = 'data.csv'
json_file_path = 'data.json'

# CSV 파일 읽기
data = []
with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
    csv_reader = csv.DictReader(csv_file)
    for row in csv_reader:
        # 각 행을 JSON 포맷에 맞게 변환
        data.append({
            "prompt": row['prompt'],
            "completion": row['completion']
        })

# JSON 파일로 저장
with open(json_file_path, mode='w', encoding='utf-8') as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=4)

print(f"JSON 파일이 성공적으로 생성되었습니다: {json_file_path}")

3. 스케일 업:

  • 데이터가 아래에 해당하는 경우:
    • 매우 크거나1)^{1)}
    • 복잡한 경우2)^{2)}
    • 여러 소스에서 수집하거나3)^{3)}
    • 정규표현식(Regular Expressions)4)^{4)} 등을 사용
  • 데이터를 자동으로 전처리한 후 JSON 포맷으로 변환

Pandas 라이브러리 사용

Pandas을 사용하는 예제 코드는 아래와 같다.

import pandas as pd

# CSV 파일 읽기
df = pd.read_csv('data.csv')

# JSON으로 변환 및 저장
df.to_json('data.json', orient='records', lines=True, force_ascii=False)

텍스트 데이터 자동 수집 및 처리

  • 웹 스크래핑이나 API를 통해 데이터를 수집
  • 앞서 말한 방법으로JSON 포맷으로 변환

JSON 구조 검증

생성한 JSON 파일은 반드시 적절한 Json 구조인지 검증하는 것이 필요하다. 이는 온라인 JSON Validator나, Python에서 json 모듈로 직접 검증할 수 있다.

profile
Everyday Research & Development

0개의 댓글