외계 지성 정렬하기 — 듀얼 브레인 북클럽

내용 요약

AI를 인간의 가치와 목적에 맞게 '정렬(alignment)'하는 문제를 다룹니다. 저자는 닉 보스트롬의 '페이퍼클립 AI' 사고실험을 소개합니다. 클립을 최대한 많이 만들라는 단순한 목표를 가진 AI가 결국 지구의 모든 자원을 클립으로 바꿔버린다는 이 극단적 시나리오는, 목표 설정이 잘못된 AI의 위험을 극적으로 보여줍니다. 그러나 저자는 이런 공상과학적 두려움에 지나치게 매몰되는 것도 경계합니다.

현실적인 정렬 문제는 훨씬 일상적인 수준에서 발생합니다. AI 기업들은 인간 피드백 강화학습(RLHF)을 통해 모델이 '유용하고, 무해하며, 정직하게' 행동하도록 유도하지만, 그 과정에서 학습 데이터의 편향과 특정 기업의 가치관이 AI에 녹아들게 됩니다. 오늘날의 AI는 '중립적' 존재가 아닙니다. AI가 틀린 정보를 자신 있게 말한다면 사용자는 어떻게 대응해야 하는지가 핵심 과제입니다.

저자는 AI의 환각(hallucination) 문제도 심층적으로 다룹니다. AI는 사실이 아닌 정보를 마치 사실인 것처럼 자신 있게 말하는 경향이 있습니다. 이것은 버그가 아니라 LLM의 근본적 작동 방식에서 비롯됩니다. AI의 한계를 인정하되 두려워하지 말고, AI가 강력해질수록 사용자의 판단과 최종 책임이 더욱 중요해진다는 것이 이 챕터의 결론입니다.

실생활 프로젝트

AI 답변 검증표 만들기

AI 답변을 받을 때마다 아래 기준으로 점검하는 습관을 만듭니다.

점검 항목	점검 질문
사실성	이 답변은 사실인가? 확인이 필요한 정보는 무엇인가?
출처	근거가 있는가? 출처를 요청했는가?
편향	한쪽 관점만 반영하고 있지는 않은가?
적용성	내 상황에 실제로 맞는가?
윤리성	누군가에게 피해를 줄 가능성은 없는가?
인간 판단	최종 결정은 내가 했는가?

토론 질문

AI의 '환각' 문제를 알면서도 AI를 신뢰하며 사용할 수 있을까? 어느 정도의 오류율이 허용 가능하다고 생각하는가?

AI를 '정렬'하는 주체가 소수의 기업이라는 점에 대해 어떻게 생각하는가? 누가 AI의 가치관을 결정해야 할까?

우리 가정, 학교, 일터에서 AI 사용 규칙을 만든다면 무엇을 포함해야 할까?