sir QnA 데이타를 학습시키면 문제가 될까요? 정보
sir QnA 데이타를 학습시키면 문제가 될까요?
본문
초반에 나온 많은 AI 모델은 저작권을 신경 안쓰고 모델을 학습시켰습니다.
그래서 성능이 좋을수 밖에 없죠. 방대한 양을 학습했으니까요.
현재 모델들은 저작권 이슈를 생각하여 오픈소스만 학습하거나, 저작권 계약을 맺은뒤에 학습을 하고 있는것 같습니다.
코드 학습은 대부분 github.com 의 public repo 를 학습하게 되는데, 한국 상황에서는 조금 문제가 됩니다.
한국의 많은 웹사이트가 그누보드나 xe 등을 기반으로 하고 있어, 제대로 코드 학습이 안되어 있습니다.
그리서 gpt 에 대해서 그누보드 코드를 물어보면 제대로 답변을 못해줍니다.
그나마 chatgpt-4o 가 코드 학습이 좀 된 편이고, 클로드나 제미나이는 그냥 딴소리(할루시네이션) 합니다.
결론적으로 그누보드5 코드를 잘 만드는 챗봇을 만들려면, 그누보드5 코드를 학습해야 하는데, 단순 코드 학습 뿐만 아니라, 다양한 케이스를 학습해야 하는 상황입니다. 회사 업무나 지금 개발중인게 마무리되면 이와 관련된 부분도 연말쯤에는 한번 진행해볼수 있을것 같네요.
그래서 sir 팁게시판과 QnA 데이타를 파인튜닝이나 RAG 에서 학습시키면 문제가 될까요???
추천
2
2
댓글 2개
AI시대 저작권은 풀어야 할 숙제라고 봅니다
그누보드에 있는 질문답변의 저작권이 작성자에게 있는지, 그누보드회사에 있는지 불명확하고요
시스템화된 매뉴얼이 있어야 할 듯 합니다

저도 비슷한 의견을 낸 적이 있으니 한번 확인해 보시기 바랍니다