ਕੇਸ ਸਟੱਡੀ: ਗੱਲਬਾਤ ਸੰਬੰਧੀ ਏ.ਆਈ
3 ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ASR ਬਣਾਉਣ ਲਈ 8k ਘੰਟੇ ਤੋਂ ਵੱਧ ਡਾਟਾ ਇਕੱਠਾ, ਖੰਡਿਤ ਅਤੇ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤਾ ਗਿਆ
ਭਾਸ਼ਿਨੀ, ਭਾਰਤ ਦਾ AI-ਸੰਚਾਲਿਤ ਭਾਸ਼ਾ ਅਨੁਵਾਦ ਪਲੇਟਫਾਰਮ, ਡਿਜੀਟਲ ਇੰਡੀਆ ਪਹਿਲਕਦਮੀ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਹੈ।
MSMEs, ਸਟਾਰਟਅੱਪਸ, ਅਤੇ ਸੁਤੰਤਰ ਇਨੋਵੇਟਰਾਂ ਨੂੰ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਅਤੇ ਨੈਚੁਰਲ ਲੈਂਗੂਏਜ ਪ੍ਰੋਸੈਸਿੰਗ (NLP) ਟੂਲ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ, ਭਾਸ਼ਿਨੀ ਪਲੇਟਫਾਰਮ ਇੱਕ ਜਨਤਕ ਸਰੋਤ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਟੀਚਾ ਭਾਰਤੀ ਨਾਗਰਿਕਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੀਆਂ ਮੂਲ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਦੇਸ਼ ਦੀਆਂ ਡਿਜੀਟਲ ਪਹਿਲਕਦਮੀਆਂ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾ ਕੇ ਡਿਜੀਟਲ ਸ਼ਮੂਲੀਅਤ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸਦਾ ਉਦੇਸ਼ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਇੰਟਰਨੈਟ ਸਮੱਗਰੀ ਦੀ ਉਪਲਬਧਤਾ ਨੂੰ ਮਹੱਤਵਪੂਰਣ ਰੂਪ ਵਿੱਚ ਵਧਾਉਣਾ ਹੈ। ਇਹ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਜਨਤਕ ਹਿੱਤ ਦੇ ਖੇਤਰਾਂ ਜਿਵੇਂ ਕਿ ਸ਼ਾਸਨ ਅਤੇ ਨੀਤੀ, ਵਿਗਿਆਨ ਅਤੇ ਤਕਨਾਲੋਜੀ, ਆਦਿ ਵੱਲ ਨਿਸ਼ਾਨਾ ਹੈ। ਸਿੱਟੇ ਵਜੋਂ, ਇਹ ਨਾਗਰਿਕਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਸਰਗਰਮ ਭਾਗੀਦਾਰੀ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੇ ਹੋਏ, ਉਹਨਾਂ ਦੀ ਆਪਣੀ ਭਾਸ਼ਾ ਵਿੱਚ ਇੰਟਰਨੈਟ ਦੀ ਵਰਤੋਂ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰੇਗਾ।
ਭਾਸ਼ਾ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਨੂੰ ਪਾਰ ਕਰਨ ਦੇ ਉਦੇਸ਼ ਨਾਲ ਯੋਗਦਾਨ ਪਾਉਣ ਵਾਲਿਆਂ, ਭਾਈਵਾਲੀ ਕਰਨ ਵਾਲੀਆਂ ਸੰਸਥਾਵਾਂ ਅਤੇ ਨਾਗਰਿਕਾਂ ਦੇ ਵਿਭਿੰਨ ਪਰਿਆਵਰਣ ਪ੍ਰਣਾਲੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ NLP ਦੀ ਵਰਤੋਂ ਕਰੋ, ਜਿਸ ਨਾਲ ਡਿਜੀਟਲ ਸ਼ਮੂਲੀਅਤ ਅਤੇ ਸਸ਼ਕਤੀਕਰਨ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ।
ਅਸਲ ਸੰਸਾਰ ਹੱਲ
ਡੇਟਾ ਦੇ ਨਾਲ ਸਥਾਨਕਕਰਨ ਦੀ ਸ਼ਕਤੀ ਨੂੰ ਜਾਰੀ ਕਰਨਾ
ਭਾਰਤ ਨੂੰ ਇੱਕ ਅਜਿਹੇ ਪਲੇਟਫਾਰਮ ਦੀ ਲੋੜ ਸੀ ਜੋ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਡਿਜੀਟਲ ਸੇਵਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਬਹੁ-ਭਾਸ਼ਾਈ ਡੇਟਾਸੇਟਸ ਅਤੇ ਏਆਈ-ਅਧਾਰਤ ਭਾਸ਼ਾ ਤਕਨਾਲੋਜੀ ਹੱਲਾਂ ਨੂੰ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰੇ। ਇਸ ਪਹਿਲਕਦਮੀ ਨੂੰ ਸ਼ੁਰੂ ਕਰਨ ਲਈ, ਇੰਡੀਅਨ ਇੰਸਟੀਚਿਊਟ ਆਫ਼ ਟੈਕਨਾਲੋਜੀ, ਮਦਰਾਸ (IIT ਮਦਰਾਸ) ਨੇ ਬਹੁ-ਭਾਸ਼ਾਈ ਭਾਸ਼ਣ ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਭਾਰਤੀ ਭਾਸ਼ਾ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਇਕੱਤਰ ਕਰਨ, ਵੰਡਣ ਅਤੇ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕਰਨ ਲਈ ਸ਼ੈਪ ਨਾਲ ਸਾਂਝੇਦਾਰੀ ਕੀਤੀ।
ਚੁਣੌਤੀ
ਕਲਾਇੰਟ ਦੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਪੀਚ ਟੈਕਨਾਲੋਜੀ ਸਪੀਚ ਰੋਡਮੈਪ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨ ਲਈ, ਟੀਮ ਨੂੰ AI ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਸਿਖਲਾਈ ਡੇਟਾ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ, ਵੰਡਣ ਅਤੇ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕਰਨ ਦੀ ਲੋੜ ਸੀ। ਗਾਹਕ ਦੀਆਂ ਮਹੱਤਵਪੂਰਨ ਲੋੜਾਂ ਸਨ:
ਡਾਟਾ ਇਕੱਤਰ ਕਰਨਾ
- ਪ੍ਰਤੀ ਭਾਸ਼ਾ 3000 ਉਪਭਾਸ਼ਾਵਾਂ ਦੇ ਨਾਲ 8 ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ 4 ਘੰਟਿਆਂ ਦਾ ਸਿਖਲਾਈ ਡੇਟਾ ਪ੍ਰਾਪਤ ਕਰੋ।
- ਹਰੇਕ ਭਾਸ਼ਾ ਲਈ, ਸਪਲਾਇਰ Extempore Speech ਅਤੇ
18-60 ਸਾਲ ਦੇ ਉਮਰ ਸਮੂਹਾਂ ਤੋਂ ਗੱਲਬਾਤ ਸੰਬੰਧੀ ਭਾਸ਼ਣ - ਉਮਰ, ਲਿੰਗ, ਸਿੱਖਿਆ ਅਤੇ ਉਪਭਾਸ਼ਾਵਾਂ ਦੁਆਰਾ ਬੁਲਾਰਿਆਂ ਦੇ ਵਿਭਿੰਨ ਮਿਸ਼ਰਣ ਨੂੰ ਯਕੀਨੀ ਬਣਾਓ
- ਨਿਰਧਾਰਨ ਦੇ ਅਨੁਸਾਰ ਰਿਕਾਰਡਿੰਗ ਵਾਤਾਵਰਨ ਦੇ ਵਿਭਿੰਨ ਮਿਸ਼ਰਣ ਨੂੰ ਯਕੀਨੀ ਬਣਾਓ।
- ਹਰੇਕ ਆਡੀਓ ਰਿਕਾਰਡਿੰਗ ਘੱਟੋ-ਘੱਟ 16kHz ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ ਪਰ ਤਰਜੀਹੀ ਤੌਰ 'ਤੇ 44kHz ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ
ਡਾਟਾ ਸੈਗਮੈਂਟੇਸ਼ਨ
- 15 ਸਕਿੰਟਾਂ ਦੇ ਸਪੀਚ ਸੈਗਮੈਂਟ ਬਣਾਓ ਅਤੇ ਗੱਲਬਾਤ ਵਿੱਚ ਹਰੇਕ ਦਿੱਤੇ ਸਪੀਕਰ, ਆਵਾਜ਼ ਦੀ ਕਿਸਮ (ਭਾਸ਼ਣ, ਬੋਲ, ਸੰਗੀਤ, ਸ਼ੋਰ), ਵਾਰੀ, ਵਾਕਾਂਸ਼ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਲਈ ਔਡੀਓ ਨੂੰ ਮਿਲੀਸਕਿੰਟ ਵਿੱਚ ਟਾਈਮਸਟੈਂਪ ਕਰੋ
- ਸ਼ੁਰੂ ਅਤੇ ਅੰਤ 'ਤੇ 200-400 ਮਿਲੀਸਕਿੰਟ ਪੈਡਿੰਗ ਦੇ ਨਾਲ ਇਸਦੇ ਨਿਸ਼ਾਨੇ ਵਾਲੇ ਧੁਨੀ ਸਿਗਨਲ ਲਈ ਹਰੇਕ ਹਿੱਸੇ ਨੂੰ ਬਣਾਓ।
- ਸਾਰੇ ਖੰਡਾਂ ਲਈ, ਹੇਠ ਲਿਖੀਆਂ ਵਸਤੂਆਂ ਭਰੀਆਂ ਜਾਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ ਜਿਵੇਂ ਕਿ, ਸ਼ੁਰੂਆਤੀ ਸਮਾਂ, ਸਮਾਪਤੀ ਸਮਾਂ, ਖੰਡ ID, ਉੱਚੀ ਪੱਧਰ, ਆਵਾਜ਼ ਦੀ ਕਿਸਮ, ਭਾਸ਼ਾ ਕੋਡ, ਸਪੀਕਰ ID, ਆਦਿ।
ਡਾਟਾ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ
- ਅੱਖਰਾਂ ਅਤੇ ਵਿਸ਼ੇਸ਼ ਚਿੰਨ੍ਹਾਂ, ਸਪੈਲਿੰਗ ਅਤੇ ਵਿਆਕਰਨ, ਕੈਪੀਟਲਾਈਜ਼ੇਸ਼ਨ, ਸੰਖੇਪ, ਸੰਕੁਚਨ, ਵਿਅਕਤੀਗਤ ਬੋਲੇ ਜਾਣ ਵਾਲੇ ਅੱਖਰ, ਸੰਖਿਆਵਾਂ, ਵਿਰਾਮ ਚਿੰਨ੍ਹ, ਸੰਖੇਪ ਸ਼ਬਦ, ਵਿਘਨ, ਸਪੀਚ, ਅਸਪੱਸ਼ਟ ਭਾਸ਼ਣ, ਗੈਰ-ਨਿਸ਼ਾਨਾ ਭਾਸ਼ਾਵਾਂ, ਗੈਰ-ਨਿਸ਼ਾਨਾ ਆਦਿ ਦੇ ਆਲੇ ਦੁਆਲੇ ਵੇਰਵੇ ਪ੍ਰਤੀਲਿਪੀ ਦਿਸ਼ਾ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ।
ਗੁਣਵੱਤਾ ਜਾਂਚ ਅਤੇ ਫੀਡਬੈਕ
- ਗੁਣਵੱਤਾ ਦੇ ਮੁਲਾਂਕਣ ਅਤੇ ਪ੍ਰਮਾਣਿਕਤਾ ਤੋਂ ਗੁਜ਼ਰਨ ਲਈ ਸਾਰੀਆਂ ਰਿਕਾਰਡਿੰਗਾਂ, ਸਿਰਫ ਪ੍ਰਮਾਣਿਤ ਭਾਸ਼ਣ ਦਿੱਤਾ ਜਾਣਾ ਹੈ
ਦਾ ਹੱਲ
ਗੱਲਬਾਤ ਸੰਬੰਧੀ AI ਦੀ ਸਾਡੀ ਡੂੰਘੀ ਸਮਝ ਦੇ ਨਾਲ, ਅਸੀਂ ਕਲਾਇੰਟ ਨੂੰ 8 ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਆਡੀਓ ਡੇਟਾਸੈਟ ਦਾ ਵੱਡਾ ਭੰਡਾਰ ਬਣਾਉਣ ਲਈ ਮਾਹਰ ਕੁਲੈਕਟਰਾਂ, ਭਾਸ਼ਾ ਵਿਗਿਆਨੀਆਂ ਅਤੇ ਵਿਆਖਿਆਕਾਰਾਂ ਦੀ ਇੱਕ ਟੀਮ ਦੇ ਨਾਲ ਡੇਟਾ ਨੂੰ ਇਕੱਤਰ ਕਰਨ, ਵੰਡਣ ਅਤੇ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ।
ਸ਼ੈਪ ਲਈ ਕੰਮ ਦੇ ਦਾਇਰੇ ਵਿੱਚ ਸ਼ਾਮਲ ਹੈ ਪਰ ਆਡੀਓ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਪ੍ਰਾਪਤ ਕਰਨ, ਆਡੀਓ ਰਿਕਾਰਡਿੰਗਾਂ ਨੂੰ ਮਲਟੀਪਲ ਵਿੱਚ ਵੰਡਣ, ਡੇਟਾ ਨੂੰ ਟ੍ਰਾਂਸਕ੍ਰਿਬ ਕਰਨ ਅਤੇ ਮੈਟਾਡੇਟਾ [ਸਪੀਕਰਆਈਡੀ, ਉਮਰ, ਲਿੰਗ, ਭਾਸ਼ਾ, ਉਪਭਾਸ਼ਾ, ਨਾਲ ਸੰਬੰਧਿਤ JSON ਫਾਈਲਾਂ ਪ੍ਰਦਾਨ ਕਰਨ ਤੱਕ ਸੀਮਿਤ ਨਹੀਂ ਸੀ।
ਮਾਤ ਭਾਸ਼ਾ, ਯੋਗਤਾ, ਕਿੱਤਾ, ਡੋਮੇਨ, ਫਾਈਲ ਫਾਰਮੈਟ, ਬਾਰੰਬਾਰਤਾ, ਚੈਨਲ, ਆਡੀਓ ਦੀ ਕਿਸਮ, ਸਪੀਕਰਾਂ ਦੀ ਗਿਣਤੀ, ਵਿਦੇਸ਼ੀ ਭਾਸ਼ਾਵਾਂ ਦੀ ਸੰਖਿਆ, ਵਰਤੀ ਗਈ ਸੈੱਟਅੱਪ, ਨੈਰੋਬੈਂਡ ਜਾਂ ਵਾਈਡਬੈਂਡ ਆਡੀਓ, ਆਦਿ]।
ਸ਼ੈਪ ਨੇ ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਸਪੀਚ ਟੈਕਨਾਲੋਜੀ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਲੋੜੀਂਦੇ ਗੁਣਵੱਤਾ ਦੇ ਲੋੜੀਂਦੇ ਪੱਧਰਾਂ ਨੂੰ ਕਾਇਮ ਰੱਖਦੇ ਹੋਏ ਪੈਮਾਨੇ 'ਤੇ 3000 ਘੰਟਿਆਂ ਦਾ ਆਡੀਓ ਡੇਟਾ ਇਕੱਠਾ ਕੀਤਾ। ਹਰੇਕ ਭਾਗੀਦਾਰ ਤੋਂ ਸਪੱਸ਼ਟ ਸਹਿਮਤੀ ਫਾਰਮ ਲਿਆ ਗਿਆ ਸੀ।
1. ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ