Solutions

Sign Language Interpreters for Video Clips

Solution implemented by Pornchanok Pinnuwat

Overview

ในปัจจุบันแพลตฟอร์มสื่อ YouTube ขาดการสนับสนุนภาษามืออย่างมาก ทําให้เกิดอุปสรรคสําคัญสําหรับชุมชนคนหูหนวกและคนหูตึงทั่วโลกที่มีโดยรวมประมาณ 1.5 พันล้านคนทั่วโลก เพื่อแก้ไขปัญหานี้เราจึงคิดค้น ”ปลั๊กอินแปลภาษามือสำหรับผู้พิการทางการได้ยิน (VideoSign Converter) ที่ช่วยเพิ่มการเข้าถึงโดยสื่อโดยให้บริการแปลภาษามือแบบเรียลไทม์สําหรับเนื้อหาวิดีโอ

Solutions

What is "VideoSign Converter" ?

ปลั๊กอินการแปลภาษามือ เป็นปลั๊กอินที่ออกแบบมาเพื่อทํางานร่วมกับแพลตฟอร์มสื่อ YouTube เว็บไซต์นี้ใช้ Azure Service เพื่อแปลเนื้อหาพูดเป็นภาษามือแบบเรียลไทม์ ทั้งนี้เป้าหมายของปลั๊กอินคือเพื่อทําให้ชุมชนคนหูหนวกและคนหูตึงสามารถเข้าถึงเนื้อหาวิดีโอได้โดยแสดงการตีความภาษามือไปพร้อมกับเนื้อหาในวิดีโอ

Solutions

Key Components

Azure Blob Storage

Azure Cognitive Service

H2O.ai

WebGL

MMPose

Azure Function

Solutions

คุณสมบัติ

การเก็บรวบรวมข้อมูลและประมวลผลคำบรรยายแบบเรียลไทม์

ระบบจะทำการดึงข้อมูลเนื้อหาวิดีโอและคําบรรยายภาพ (CC) จาก YouTube Data API และวิเคราะห์คำบรรยายด้วย Azure Cognitive Services จากนั้นจะนำข้อมูลไปจัดเก็บข้อมูลใน Azure Blob Storage

การแปลภาษามือด้วย AI

ระบบจะใช้ Azure Cognitive Services และโมเดลจาก H2O.ai เพื่อวิเคราะห์บริบทและแปลข้อความจากคําบรรยายเป็นท่าทางภาษามือ แบบ 3D และจัดเก็บเป็นไฟล์ GLTF

การแสดงผลการแปลภาษามือควบคู่กับวีดีโอ

เว็บไซต์จะแสดงการแปลภาษามือเข้ากับ User Interface โดยเรนเดอร์ท่าทางภาษามือเป็นวิดีโอควบคู่กับเนื้อหาหลักในเวลาเดียวกัน

Sign Language Interpreters for Video Clips

How It Works

01

YouTube ส่งข้อมูล Media Platform Data API ไปยัง Azure Function เพื่อส่งข้อมูลวิดีโอ จากนั้น Azure Function ประมวลผลและจัดเก็บข้อมูลชั่วคราวใน Azure Blob Storage

02

ข้อมูลถูกส่งเข้า Azure Cognitive Services เพื่อแปลงเสียงเป็นข้อความ และส่งต่อไปยัง H2O.ai และ MMPose เพื่อสร้างคำแปลภาษามือในรูปแบบ 3 มิติ

03

ข้อมูลคำแปลถูกเก็บไว้ใน Azure Blob Storage Azure Function ดึงข้อมูล pose และใช้ Pose Retrieval API เพื่อเรนเดอร์ท่าทางด้วย WebGL (Three.js)

Solutions