AI는 사람들의 목소리를 들었습니다. 그런 다음 얼굴을 생성했습니다.

Pin
Send
Share
Send

자신의 목소리만으로 본 적이없는 사람의 정신적 이미지를 구성한 적이 있습니까? 인공 지능 (AI)은 이제 간단한 오디오 클립 만 사용하여 사람의 얼굴에 대한 디지털 이미지를 생성 할 수 있습니다.

명명 된 Speech2Face, 신경망-인간 두뇌와 비슷한 방식으로 "생각"하는 컴퓨터-과학자들은 인터넷에서 수백만의 교육 비디오를 통해 100,000 명이 넘는 사람들이 말하는 것을 보여주었습니다.

이 데이터 세트에서 Speech2Face는 보컬 큐와 인간 얼굴의 특정 신체적 특징 사이의 연관성을 배웠다고 연구자들은 새로운 연구에서 썼습니다. 그런 다음 AI는 오디오 클립을 사용하여 음성과 일치하는 사실적인 얼굴을 모델링했습니다.

이 연구 결과는 5 월 23 일 온라인으로 인쇄판 jounral arXiv에 게시되었으며, 동료 검토는 이루어지지 않았습니다.

고맙게도 AI는 특정 개인이 자신의 목소리만으로 어떻게 보이는지 정확히 알지 못합니다. 신경망은 성별, 연령 및 민족을 가리키는 특정 마커, 많은 사람들이 공유하는 특징을 인식했다고 연구 저자들은 보도했다.

과학자들은“이와 같이 모델은 평균적으로 보이는 얼굴 만 만들어 낼 것”이라고 말했다. "특정 인물의 이미지를 생성하지 않습니다."

AI는 이미 고양이에 대한 해석이 솔직히 약간 끔찍하지만, 매우 정확한 인간의 얼굴을 만들 수 있음을 이미 보여주었습니다.

Speech2Face에 의해 생성 된 얼굴 (모두 전면을 향하고 중립적 인 표현을 가짐)은 음성 뒤에있는 사람들과 정확하게 일치하지 않았습니다. 그러나 연구에 따르면 이미지는 일반적으로 올바른 연령대, 민족 및 성별을 포착했습니다.

그러나 알고리즘의 해석은 완벽하지 않았습니다. Speech2Face는 언어 변형에 직면했을 때 "혼합 성능"을 보여주었습니다. 예를 들어 AI가 중국어를 사용하는 아시아 인의 오디오 클립을들을 때 프로그램은 아시아 얼굴의 이미지를 만들었습니다. 그러나 같은 사람이 다른 오디오 클립에서 영어로 말했을 때 AI는 백인의 얼굴을 생성했다고 과학자들은 보도했다.

이 알고리즘은 또한 낮은 음의 목소리와 남성의 얼굴을 연결하고 높은 음의 목소리와 여성의 얼굴을 연결하여 성별 편향을 보여줍니다. 또한 교육 데이터 세트는 YouTube의 교육용 비디오만을 나타 내기 때문에 "전 세계 인구를 똑같이 대표하지는 않습니다"라고 연구원들은 말했습니다.

슬레이트에 따르면이 비디오 데이터 세트에 대한 또 다른 우려는 YouTube 비디오에 등장한 사람이 자신의 유사성이 연구에 포함되었다는 사실에 놀랐을 때 일어났다. 샌프란시스코의 인터넷 보안 회사 Cloudflare의 암호화 책임자 인 Nick Sullivan은 Speech2Face를 훈련하는 데 사용 된 예제 중 하나 인 예상치 못한 얼굴을 발견했습니다.

슬레이트에 따르면 설리반은 이번 연구에 참여하는 데 동의하지 않았지만이 데이터 세트의 YouTube 비디오는 추가 권한을 얻지 않고도 연구원들이 사용할 수있는 것으로 널리 간주되고있다.

Pin
Send
Share
Send