이번 주에는 AI 개념이나 코딩 튜토리얼을 설명하는 평소 기사에서 약간 우회합니다. 네, 그것은 철학적이고 향수를 불러일으키는 여행입니다. 제가 운좋게도 끝까지 걸어갈 수 있었던 것입니다.
아주 일찍 밭에서 시작하는 드문 특권 중 하나는 밭이 아기처럼 자라는 것을 볼 수 있다는 것입니다. 10년 전 제가 컴퓨터 비전 석사 과정을 시작했을 때 CS 졸업생 친구가 "컴퓨터 비전이 무슨 뜻인가요?"라고 물었습니다. 분할(아래 참조)과 같은 컴퓨터 비전 작업에 대한 충분한 비디오가 인터넷에 떠돌고 있는 오늘날 이는 사소한 질문입니다.
10년 전 딥 러닝이 시작되었을 때 인터넷 전체에 퍼져 있던 컴퓨터 비전 작업인 이미지 분할의 결과입니다.
그렇다면 지난 10년 동안 어떤 변화가 있었나요? 동전에는 항상 양면이 있습니다. 또한 성장은 좋을 수도 있고 나쁠 수도 있습니다.
아이슬란드 사람들은 서로 어떤 식으로든 연관되어 있고, 만약 누군가가 당신의 사촌보다 높으면 그 사람과 결혼하는 것이 좋다고 합니다.
마찬가지로 AI 커뮤니티도 긴밀하게 연결되어 있었습니다. 끈끈한 공동체의 느낌은 사라졌습니다. 연구에 참여한 사람과 상호 작용할 때 일반적으로 그들이 어떤 그룹에 속하는지 알고 있었습니다. 당신은 그들이 해당 분야에 미친 영향을 읽고 평가하면서 어떻게든 그들의 작업에 공감하고 존경하게 될 것입니다.
분야가 끝없이 확장되면서 누군가의 일을 안다고 말하고 잊어버리는 것이 점점 더 어려워지고 있습니다. 새로운 이름과 참신한 분야가 너무 많아 추적하기조차 어렵습니다.
또 다른 예로, PyTorch는 초기 단계였습니다. Slack 커뮤니티는 매우 작고 도움이 되었기 때문에 PyTorch 개발자가 라이브러리 사용에 관한 질문에 직접 응답했습니다. 이는 그것에 대해 점점 더 많이 배우도록 장려했습니다. 오늘날 프레임워크는 매우 성숙해졌고 LangChain 및 Llamaindex와 같은 새로운 프레임워크가 등장했습니다. AI의 다른 분야에 비해 LLM에 초점이 맞춰져 있습니다.
그 당시 우리는 영향력 있는 무언가를 만들기 위해 단일 GPU에서 심층 신경망을 훈련시켰습니다. CVPR, NeurIPS 및 ICML과 같은 주요 컨퍼런스에서 발표된 대부분의 작업은 단일 8GB GPU 시스템에서 훈련 및 복제될 수 있으며 최악의 경우 드문 경우 4개의 GPU가 있는 단일 시스템에서 학습 및 복제될 수 있습니다.
Tesla가 AI에 사용하는 최신 GPU 클러스터 이미지(출처:
저는 Kaggle 대회에 참가하기 위해 RAM이 8GB에 불과한 단일 상용 GPU를 구입하여 얼마나 기뻤는지 생생하게 기억합니다. Kaggle Grandmasters의 성공적인 솔루션 중 일부는 집에 있는 단일 GPU 시스템에서 딥 러닝 모델을 교육했습니다.
오늘날의 AI 세계에서는 기본 모델을 훈련하기 위해 GPU 클러스터가 필요합니다. 이러한 모델을 미세 조정하려면 24GB GPU가 필요합니다. 이 GPU는 "AI 예산"이 있는 기업에서만 사용할 수 있는 비싸고 저렴한 비용입니다.
당시에는 현장에 AI 래퍼가 아직 적용되지 않은 시절이었습니다. 채용자들에게는 "딥 러닝" 엔지니어를 찾는 낯선 임무가 주어졌습니다. 채용 담당자와 스타트업 창업자들은 모든 채널을 통해 딥 러닝 전문가를 찾고 있었습니다. LinkedIn에서 딥 러닝 엔지니어로 팀에 합류해 달라는 정기적인 메시지를 받는 것은 일반적인 일이었습니다.
불과 5일 전에 게시된 기계 학습 엔지니어 구인 광고 스크린샷에 지원자가 100명이 넘었습니다!
현재 상황은 "기계 학습 엔지니어" 채용 공고가 광고가 나온 지 하루 만에 LinkedIn에서 100개가 넘는 지원서를 받는 것입니다. 믿기 어렵다면 위의 스크린샷을 살펴보세요. 지원자의 기술이 직무 사양과 얼마나 관련성이 있는지에 대한 질문이 남아 있습니다. 하지만 시장은 기술로 가득 차 있습니다. 아주 빠르게 말이죠!
성장은 더 많은 다양성과 기회를 의미합니다. ML-ops, LLM-ops, ML-architects와 같은 새로운 역할이 등장하고 있습니다. 작은 단일 모델 파일(1GB 미만)의 시대는 지났습니다. 모델의 크기와 기능이 성장함에 따라 모델을 배포하고 유지 관리하는 새로운 기술이 탄생했습니다.
또한 MFLow와 같은 도구를 사용하여 모델 교육 및 배포가 자동화되고 있습니다. 교육을 위한 클라우드 인프라는 충분히 정교해야 합니다. 이 모든 것이 전담 책임을 맡은 정규직 역할을 가능하게 했습니다.
AI 작업에서 가장 재미있는 것은 모델 아키텍처를 작성하고 내부 데이터를 사용하여 처음부터 모델을 교육하는 것입니다. 여기에는 데이터 전처리가 많이 포함되지만, 모델을 훈련하고 훈련 결과를 시각화하는 것은 예전에는 매우 즐거웠습니다. 이를 위한 ML(Machine Learning) 엔지니어라는 전문적인 역할이 있었습니다.
거대 기술 기업의 기반 모델 개발은 이러한 역할을 재정의하고 있습니다. 모델 크기가 커지면 학습 예산도 엄청납니다. 실제로 LLama 2 모델을 훈련하는 데 드는 비용은 Meta의 경우 2천만 달러였습니다. 분명히 AI를 도입하려는 스타트업이나 조직은 이 금액을 낭비하고 싶지 않습니다. 이제 Mistral 및 Anthropic과 같은 일부 회사를 제외하고 기반 모델은 기술 거대 기업이 개발할 수 있다는 것이 확립되었습니다.
안타깝게도 이는 ML 엔지니어 역할이 AI 엔지니어 역할로 전환된다는 의미입니다. ML 엔지니어의 역할은 모델 아키텍처 개발, 교육, 평가에 관한 것이었습니다. 새로운 AI 엔지니어 역할에는 주로 API를 개발하거나 거대 기술 기업(OpenAI, Meta 및 Google)에서 제공하는 API를 호출하여 기반 모델을 실행하는 작업이 포함됩니다.
드문 경우지만 이러한 기초 모델을 미세 조정하는 경우도 있습니다. 그러나 기업에는 RAG 파이프라인을 구축하거나 기초 모델을 미세 조정하는 대신 "있는 그대로" 사용할 수 있는 옵션이 있습니다.
결론적으로 저는 이것이 소프트웨어 엔지니어링과 머신러닝 역할의 느린 융합이라고 봅니다. 소프트웨어 엔지니어와 딥 러닝 전문가 사이의 경계가 희미해지고 있습니다. 따라서 앞으로 몇 년 동안 소프트웨어 엔지니어는 기반 모델과 함께 작업하여 코드를 작성하고 고객 요구 사항을 해결하는 AI 엔지니어가 될 것입니다.
또한 앞으로 몇 년 안에 기업은 AI 제품 기업과 AI 서비스 기업이라는 두 가지 범주로 분류될 것입니다. AI 제품 회사는 다시 OpenAI, Meta 및 Google이 되어 기본 모델을 개발하게 됩니다. AI 서비스 회사는 고객에게 서비스를 제공하기 위해 AI 기반 모델을 중심으로 RAG 스타일 파이프라인을 미세 조정하거나 개발하여 API 서비스를 제공합니다.
마지막으로, 취업 지원자의 급증은 닷컴 버블처럼 버블이 곧 붕괴될 것이라는 신호일까요? 그런 것 같아요. 그렇습니다. 하지만 기다려보자.
도움이 되었기를 바랍니다.
이 기사가 마음에 드셨다면 저를 팔로우해 보세요.
그리고 제 구독도 부탁드려요