이 프로젝트는 특정 캐릭터의 대사 데이터를 수집·정제하고, 각 대사에 감정 및 어조 정보를 부여하여 자연어 처리, 챗봇, 감정 분석 등에 활용할 수 있도록 구성된 데이터셋과 관련 코드들을 포함합니다.
data/row/: 원본 대사 텍스트 파일processed/: 전처리된 CSV, 압축 데이터 등
model/: 사전학습/파인튜닝된 모델 및 설정 파일scripts/: 데이터 처리, 분석, 챗봇 등 각종 파이프라인 스크립트util/: 보조 유틸리티test/: 테스트 코드
src/: 주요 서비스 코드(예: 디스코드 챗봇 등)README.md: 프로젝트 설명서 (본 파일)requirements.txt: 필요 파이썬 패키지 목록
-
data/processed/mari.csv
캐릭터의 대사, 정제문, 감정 분석 결과, 감정 태그, 어조(tone) 등이 포함된 주요 데이터셋입니다. -
scripts/preprocess.py
원본 텍스트를 정제하여 CSV 등으로 가공하는 전처리 스크립트입니다. -
scripts/emotion_chatbot.py,src/discord_bot.py
챗봇, 디스코드 연동 등 대화형 인터페이스 구현 코드입니다. -
model/
KoBERT, SBERT 등 사전학습/파인튜닝 모델 및 설정 파일이 저장됩니다.
| text | cleaned | emotions | emotion_tags | tone |
|---|---|---|---|---|
| 기다리고 있었답니다. | 기다리고 있었답니다 | [('기대감', 0.80), ...] | 기대감;환영/호의;기쁨 | 신뢰감주는 |
-
패키지 설치
pip install -r requirements.txt
-
데이터 전처리
python scripts/preprocess.py
-
챗봇 실행(예시)
python scripts/emotion_chatbot.py
테스트 코드는 scripts/test/ 폴더에 있습니다.
python -m unittest discover scripts/test