클로드 (언어 모델)

클로드(Claude)는 앤트로픽에서 개발한 대형 언어 모델 제품군이다. 첫 번째 모델은 2023년 3월 출시됐다. 2024년 3월 출시된 클로드 3도 이미지 분석이 가능하다.

클로드
개발자앤트로픽
발표일2023년 3월(1년 전)(2023-03)
종류
라이선스사유
웹사이트claude.ai

트레이닝

편집

클로드 모델은 생성적으로 사전 훈련된 변환기이다. 이것들은 많은 양의 텍스트에서 다음 단어를 예측하도록 사전 훈련되었다. 그런 다음 클로드 모델을 유용하고 정직하며 무해하게 만들기 위해 컨스티튜셔널 AI(Constitutional AI)를 사용하여 미세 조정했다.[1][2]

컨스티튜셔널 AI

편집

컨스티튜셔널 AI는 광범위한 인간 피드백에 의존하지 않고도 AI 시스템, 특히 클로드와 같은 언어 모델을 무해하고 유용하게 훈련하기 위해 앤트로픽에서 개발한 접근 방식이다. "Constitutional AI: Harmlessness from AI Feedback" 논문에 자세히 설명된 이 방법은 지도 학습과 강화 학습이라는 두 단계로 구성된다.

지도 학습 단계에서 모델은 프롬프트에 대한 응답을 생성하고 일련의 지침 원칙("컨스티튜션", 즉 헌법)을 기반으로 이러한 응답을 자체 비판하고 응답을 수정한다. 그런 다음 모델은 이러한 수정된 응답에 대해 미세 조정된다.

AI 피드백 강화학습(RLAIF) 단계에서는 구성 준수 여부에 따라 응답을 생성하고 비교한다. 이 AI 피드백 데이터 세트는 체질을 얼마나 충족하는지에 따라 응답을 평가하는 선호 모델을 훈련하는 데 사용된다. 그런 다음 클로드는 이 선호 모델에 맞게 미세 조정된다. 이 기술은 선호도 모델을 훈련하는 데 사용되는 비교가 AI에서 생성되고 구성을 기반으로 한다는 점을 제외하면 인간 피드백을 통한 강화 학습(RLHF)과 유사하다.

이 접근 방식을 통해 유용하면서도 무해한 AI 비서 교육이 가능하며, 유해한 요청에 대한 반대 의견을 설명하고 투명성을 강화하며 인간 감독에 대한 의존도를 줄일 수 있다.

클로드의 "컨스티튜션"에는 UN 세계 인권 선언의 조항을 포함하여 75개 항목이 포함되어 있다.

각주

편집
  1. Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia (2022년 12월 15일), 《Constitutional AI: Harmlessness from AI Feedback》, arXiv:2212.08073 
  2. “Claude's Constitution”. 《Anthropic》 (영어). 2023년 5월 9일. 2024년 3월 26일에 확인함.