Anthropic에서 개발자 생산성에 AI가 미치는 영향을 탐구한 매우 흥미로운 논문(https://arxiv.org/pdf/2601.20245)을을) 발표했다.
놀랍게도, AI 기반 코딩이 실제로는 생산성을 높이지 않을 수도 있다는 결과가 나왔는데, 프롬프트를 작성하고 다듬는 과정, 그리고 생성된 결과를 해석하는 데 상당한 시간이 소요되기 때문이다. 게다가 엔지니어가 핵심 개념을 이해하거나 코드 구조를 파악하고, 직접 디버깅해 볼 기회를 뺏음으로써 전반적인 역량을 저하시키는 역효과를 낼 수도 있다.
이 연구는 1시간이라는 시간 제약과 적은 표본 크기라는 한계가 있지만, 더 넓은 맥락에서 의미 있는 통찰을 제공한다.
연구 내용 중 특히 흥미로운 점은 AI 사용 방식을 6가지 패턴으로 분류하여 어떤 접근 방식이 가장 효율적인 결과를 내는지 분석했다는 것이다.

점수가 낮은 패턴 (Low-Scoring Interaction Patterns)
점수가 낮은 패턴은 일반적으로 코드 생성이나 디버깅에서 AI에 대한 의존도가 높은 경우였다. 이 그룹들의 평균 퀴즈 점수는 40% 미만이다. 해당 패턴을 보인 참가자들은 독립적인 사고가 적었고 인지적 오프로딩(cognitive offloading) 경향이 강했다[Lee et al., 2025].
- AI 위임 (AI Delegation, n=4): 이 그룹의 참가자들은 코드 작성과 과제 완료를 전적으로 AI에게 의존했다. 작업을 가장 빠르게 완료했으며 과정 중 오류도 거의 없었다.
- 점진적 AI 의존 (Progressive AI Reliance, n=4): 처음에는 1~2개의 질문으로 시작했다가 결국 모든 코드 작성을 AI 어시스턴트에게 넘긴 그룹이다. 두 번째 과제에서 어떤 개념도 제대로 숙지하지 못해 퀴즈 점수가 낮았다.
- 반복적 AI 디버깅 (Iterative AI Debugging, n=4): 코드 디버깅이나 검증을 AI에 의존한 그룹이다. AI 어시스턴트에게 더 많은 질문을 던졌지만, 본인의 이해를 명확히 하기보다는 어시스턴트가 문제를 해결해 주길 바랐다. 결과적으로 퀴즈 점수가 낮았으며 두 과제를 완료하는 속도도 상대적으로 느렸다.
점수가 높은 패턴 (High-Scoring Interaction Patterns)
점수가 높은 상호작용 패턴은 평균 퀴즈 점수가 65% 이상인 행동 그룹들이다. 이 그룹의 참가자들은 코드 생성, 개념적 질문, 또는 두 가지를 조합하여 AI를 활용했다.
- 생성 후 이해 (Generation-Then-Comprehension, n=2): 먼저 코드를 생성하고 수동으로 복사/붙여넣기를 한 뒤, 후속 질문을 통해 이해도를 높인 그룹이다. AI를 사용할 때 속도가 특별히 빠르지는 않았지만 퀴즈에서 높은 이해도를 보였다. 중요한 점은 이 방식이 'AI 위임' 그룹과 거의 비슷해 보이지만, 본인의 이해를 점검하기 위해 AI를 추가로 활용했다는 것이다.
- 하이브리드 코드-설명 (Hybrid Code-Explanation, n=3): 코드 생성과 함께 생성된 코드에 대한 설명을 요청하는 복합적인 질문을 던진 그룹이다. 요청한 설명을 읽고 이해하는 데 더 많은 시간이 소요되었다.
- 개념적 탐구 (Conceptual Inquiry, n=7): 오직 개념적인 질문만 던지고, 향상된 본인의 이해력을 바탕으로 과제를 완료한 그룹이다. 많은 오류에 직면했지만 스스로 해결했다. 평균적으로 이 방식은 고득점 패턴 중 가장 빨랐으며, 전체적으로는 'AI 위임' 모드 다음으로 두 번째로 빨랐다.
결론
연구 결과는 가장 효과적인 패턴이 단순히 AI가 생성한 코드를 그대로 사용하는 것이 아니라, 코드의 기본 원리나 개념을 AI에게 묻고 완전히 이해한 후에 적용하는 것임을 시사한다.
결론적으로, 단순히 요구사항만 제공하고 AI가 코드를 생성하게 두는 관행은 고품질의 결과를 만들어내지 못할 뿐만 아니라, 궁극적으로 엔지니어의 전문 기술 저하로 이어진다.
요즘 개인적으로도 걱정이 되는 부분이, 내 장점을 개념 이해와 글쓰기라고 생각했는데, AI를 사용하다 보니 생각하는 근육이 점점 줄어드는 느낌이 든다. 혼자서 연구하고 쓰는 글에 비해서 70~80%의 품질은 나오지만, 시간이 짧기 때문에 하이브리드 형태로 사용하고 있다. 이 논문은 요즘 내가 하는 고민에, 하나의 경고를 주는 듯한 느낌이다.