개인 PC 텍스트 파일 기반 간단 챗봇 파이썬 프로그램 예제

개요

개인 컴퓨터 내의 여러 `txt` 파일을 수집해서 벡터화하고, 질문 입력 시 가장 유사한 파일의 내용을 답변해주는 간단한 챗봇(Python CLI 형태) 예제입니다. 필수 패키지 설치 방법과, 작동 원리 그리고 파이썬 예제 코드를 미디어위키 표기법으로 정리했습니다.

필요한 패키지

sentence-transformers
chromadb

설치 방법

pip install sentence-transformers chromadb

폴더 구조 예시

본인의 텍스트 파일들을 한 폴더(`./textfiles` 등)에 넣습니다.

파이썬 예제 코드

import os
from sentence_transformers import SentenceTransformer
import chromadb
from chromadb.config import Settings

# 1. 텍스트 파일 데이터 불러오기
def load_files_from_folder(folder_path):
    texts = []
    file_names = []
    for filename in os.listdir(folder_path):
        if filename.endswith(".txt"):
            with open(os.path.join(folder_path, filename), "r", encoding='utf-8') as f:
                texts.append(f.read())
                file_names.append(filename)
    return texts, file_names

# 2. 벡터DB 설정 (ChromaDB)
def create_chroma_db(texts, file_names):
    client = chromadb.Client(Settings(chroma_db_impl="mem"))
    collection = client.create_collection(name="docs")
    model = SentenceTransformer('paraphrase-MiniLM-L6-v2')
    embeddings = model.encode(texts).tolist()
    collection.add(documents=texts, metadatas=[{"source": n} for n in file_names], ids=[str(i) for i in range(len(texts))], embeddings=embeddings)
    return collection, model

# 3. 챗봇 답변 함수
def get_answer(user_input, collection, model, texts, file_names):
    query_embedding = model.encode([user_input]).tolist()[0]
    results = collection.query(query_embeddings=[query_embedding], n_results=1)
    idx = int(results['ids'][0][0])
    source = file_names[idx]
    answer = texts[idx][:300]  # 첫 300자만 표시 (예시)
    return f"({source})에서 찾은 내용:\n{answer}..."

# --------
# 실행 파트
folder_path = "./textfiles" # 여기에 본인 폴더 경로 지정

print("텍스트 파일을 읽고 데이터를 준비합니다.")
texts, file_names = load_files_from_folder(folder_path)
collection, model = create_chroma_db(texts, file_names)

print("준비 완료. 질문을 입력하세요. 종료하려면 'exit'를 입력하세요.")
while True:
    user_input = input("\n질문: ")
    if user_input.lower().strip() == 'exit':
        print("챗봇을 종료합니다.")
        break
    answer = get_answer(user_input, collection, model, texts, file_names)
    print(answer)

작동 방식 요약

`./textfiles` 폴더 내의 여러 `.txt` 파일을 모두 읽어서 텍스트 데이터로 저장합니다.
파일 전체 내용을 벡터로 변환 및 ChromaDB 벡터DB에 등록합니다.
사용자가 질문을 하면 입력 질문을 벡터로 변환해서, 가장 유사한 벡터(=파일)을 찾아 일부 내용을 반환합니다.
'exit' 입력 시 종료됩니다.

참고 사항

문서 응답 품질을 높이려면 소단락(문단 등) 단위로 쪼개어 벡터화하는 방식을 추천합니다.
CLI 콘솔에서 동작합니다. (웹, GUI 등은 streamlit 등으로 확장 가능)

개인 PC 텍스트 검색 채봇

개인 PC 텍스트 파일 기반 간단 챗봇 파이썬 프로그램 예제

개요

필요한 패키지

설치 방법

폴더 구조 예시

파이썬 예제 코드

작동 방식 요약

참고 사항

Comments