본문 바로가기
IT정보

제미나이 Gemini 사용법 : 텍스트, 이미지, 음성

by djqxldj 2023. 12. 11.
반응형

구글이 제미나이르 발표했죠. 울트라, 프로, 나노 3개 버전으로 발표했습니다. 울트라는 대규모 시스템에 적합한 버전이고 아직 적용된 곳이 없습니다. 앞으로 바드(Bard) 어드밴스드에 적용한다고 합니다. 나노는 모바일 디바이스와 같이 소규모에 적합한 모델이어서 구글 모바일폰 픽셀 8에 적용할 예정이라고 합니다. 프로 모델은 Bard 서비스에 적용이 되었다고 합니다.

제미나이-사용법
제미나이-소개영상

처음 발표된 생성형 AI 바드(Bard)가 ChatGPT에 비교되면서 실망감을 안겨줬었는데요.

이번에 발표돈 제미나이는 텍스트, 이미지, 음성 등 다양한 매체를 통한 입력을 받을 수 있는 멀티모달 기능이 추가되었습니다. 그리고 성능 테스트 결과 ChatGPT4.0보다 뛰어난 성능을 가졌다고 합니다. 그런데 이 부분은 제한된 환경에서의 테스트 결과라서 논란의 여지가 있는것으로 보입니다.

 

 

제미나이(Gemini): 구글(Google)에서 발표한 멀티모달 AI

구글이 최신 AI 모델 제미나이(Gemini)를 발표했습니다.. 이 모델은 GPT-4를 뛰어넘는 성능을 자랑하며 멀티모달 기능을 갖추고 있다고 합니다. 데이터센터, 모바일 기기등 여러 환경에서 활용이 가

uptier.tistory.com

 

그러면 Gemini가 얼마나 좋은 성능을 가지고 있는지 직접 확인해봐야겠죠?

현재 Gemini를 실제 체험해 볼 수 있는 곳은 제미나이 프로가 적용되어 있는 바드(Bard)입니다.

Bard에서 텍스트, 이미지, 음성 등을 얼마나 잘 인식하고 처리할 수 있는지 확인해 보겠습니다.

 

제미나이 Gemini 사용법

  1. 바드(Bard)에 회원가입하고 로그인합니다.
    구글 바드의 회원가입은 아래 글을 보고 하나씩 따라 하시면 됩니다.
     

    구글 바드(Bard) 가입 및 사용법

    구글 바드(Bard)는 2월에 발표된 생성형 AI입니다. OPEN AI에서 발표한 ChatGPT4를 따라잡기 위해 급하게 발표했습니다. 따라서 성능이나 품질 면에서 미흡한 점이 많아서 크게 관심을 끌지 못했습니다

    uptier.tistory.com




  2. 텍스트 입력 테스트를 해봤습니다. 
    최신 데이터를 기반으로 하고 있는지 확인해 봤는데요.
    OPEN AI 무료 버전인 ChatGPT3.5의 경우 과거 학습 데이터 기반으로 답변하므로 틀린 대답을 주는데요.
    제미나이는 최신 데이터로 대답을 주는 부분은 좀 더 나은 부분으로 보입니다.


  3. 이미지 입력 테스트를 해봤습니다.
    이미지 입력의 경우 왼쪽에 이미지 업로드 버튼을 누르고 이미지 파일을 선택하면 업로드됩니다.
    테무(Temu) 앱 이미지 파일을 올리면서 어떤 앱인지 물어봤습니다.
    이미지를 인식에서 무엇인지 인식하고 자세한 설명도 해주네요. 
    이미지 인식은 잘되네요.
  4. 음성파일 인식은 구글 클라우드에 업로드하고 URL을 알려달라고 하는군요.
    아직 이 부분은 아직 테스트를 못해봤는데요.
    음성 파일 입력을 어떻게 해야 하는지 직접 물어봤습니다.


 

 

바드에서 오디오 파일을 업로드하면 파일을 분석할 수 있는것 처럼 답변을 하는데요.

실제로는 그렇지 않고 아래 화면의 마이크 버튼을 눌러서 오디오 파일을 재생시켜서 입력해야 하는것입니다.

마이크 버튼을 누르면 아래와 같이 소리 입력을 기다리고 있습니다.
아래와 같이 여러 형태로 시험해봤어요.

  • 스티브잡스 스탠퍼드 연설문을 핸드폰으로 재생해보았습니다.
    영어라서 그런지 제대로 인식을 못하네요
  • 클래식 음악  비발디의 '사계'를 재생해 봤습니다.
    아무 반응없이 종료되네요...
  • 제미나이의 새로운 기능에 대해서 설명해달라고 말을 했습니다.
    아래와 같이 말한 내용을 텍스트로 변환해주네요.
    엔터를 누르면 텍스트 입력 내용에 대한 답변을 해줍니다.

멀티모달이라고 해서 음악이나 영어, 음성파일 등을 들려주거나 업로드해서 분석하는것은 아직 안되는것으로 보입니다.

음성 입력을 받는다는 의미가 음성으로 말하면 텍스트로 변환해주고, 변환된 텍스트 기반으로 답변을 주는것으로 봐야겠네요.

음성파일이나, 음악 파일을 업로드하면 분석을 해줄것으로 생각했는데
기대했던것과는 조금 다른것 같네요.

 

 

구글 제미나이 사용하는 방법에 대해서 궁금해하시는 분들에게 도움이 되셨기 바랍니다.

 

지금까지 제미나이 사용법에 대해서 알아보았는데요.

텍스트, 이미지 입력 테스트 결과와 음성 입력 테스트  결과에 대해서 알아봤습니다.

 

반응형