ਪੰਜਾਬੀ ਡਾਟਾਸੈਟ
ਪੰਜਾਬੀ ਡਾਟਾਸੈਟ
ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਟਾਈਟਲ
ਪੰਜਾਬੀ ਦੇ ਭਾਸ਼ਾ ਡੇਟਾਸੈਟ
ਡਾਟਾਸੈੱਟ ਦੀ ਕਿਸਮ
ਕਾਲ-ਸੈਂਟਰ
ਵੇਰਵਾ
"ਏਜੰਟ" ਅਤੇ "ਗਾਹਕ" ਵਿਚਕਾਰ ਗੈਰ-ਸਕ੍ਰਿਪਟ, ਸਿੰਥੈਟਿਕ ਟੈਲੀਫੋਨ ਗੱਲਬਾਤ, ਲਗਭਗ। ਆਡੀਓ ਦੀ ਮਿਆਦ (ਸੀਮਾ) 5-15 ਮਿੰਟ।
ਕੇਸ ਵਰਤੋ
ASR, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟ, ਚੈਟਬੋਟ, ਕਨਵਰਸੇਸ਼ਨਲ AI, ਸਪੀਚ ਐਨਾਲਿਟਿਕਸ, TTS, ਲੈਂਗੂਏਜ ਮਾਡਲਿੰਗ
ਡਾਟਾ ਸੈੱਟ ਵੇਰਵੇ
ਕੁੱਲ ਘੰਟੇ
60
ਨਮੂਨਾ ਦਰ
8 ਖਜ਼
ਆਡੀਓ ਚੈਨਲ
ਡਿਊਲ
ਰਿਕਾਰਡਿੰਗ ਪਲੇਟਫਾਰਮ
ਡੈਸਕਟਾਪ
ਆਡੀਓ ਫਾਰਮੈਟ
.ਵਾਵ
ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਫਾਰਮੈਟ
.json
WER (%)
5
ਡੈਟਾ ਸੈਟ ਜਨਸੰਖਿਆ
ਦੇਸ਼
ਭਾਰਤ ਨੂੰ
ਭਾਸ਼ਾ
ਪੰਜਾਬੀ ਦੇ
ਲਿੰਗ
ਪੁਰਸ਼: 330, ਔਰਤ: 364 ਅਤੇ ਅਗਿਆਤ: 0
ਬੋਲਣ ਵਾਲਿਆਂ ਦੀ ਗਿਣਤੀ
694
ਉੁਮਰ
18-50
ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਟਾਈਟਲ
ਪੰਜਾਬੀ ਦੇ ਭਾਸ਼ਾ ਡੇਟਾਸੈਟ
ਡਾਟਾਸੈੱਟ ਦੀ ਕਿਸਮ
ਆਮ ਗੱਲਬਾਤ
ਵੇਰਵਾ
"ਏਜੰਟ" ਅਤੇ "ਗਾਹਕ" ਵਿਚਕਾਰ ਗੈਰ-ਸਕ੍ਰਿਪਟ, ਸਿੰਥੈਟਿਕ ਟੈਲੀਫੋਨ ਗੱਲਬਾਤ, ਲਗਭਗ। ਆਡੀਓ ਦੀ ਮਿਆਦ (ਸੀਮਾ) 5-15 ਮਿੰਟ।
ਕੇਸ ਵਰਤੋ
ASR, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟ, ਚੈਟਬੋਟ, ਕਨਵਰਸੇਸ਼ਨਲ AI, ਸਪੀਚ ਐਨਾਲਿਟਿਕਸ, TTS, ਲੈਂਗੂਏਜ ਮਾਡਲਿੰਗ
ਡਾਟਾ ਸੈੱਟ ਵੇਰਵੇ
ਕੁੱਲ ਘੰਟੇ
100
ਨਮੂਨਾ ਦਰ
8 ਖਜ਼
ਆਡੀਓ ਚੈਨਲ
ਡਿਊਲ
ਰਿਕਾਰਡਿੰਗ ਪਲੇਟਫਾਰਮ
ਡੈਸਕਟਾਪ
ਆਡੀਓ ਫਾਰਮੈਟ
.ਵਾਵ
ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਫਾਰਮੈਟ
.json
WER (%)
5
ਡੈਟਾ ਸੈਟ ਜਨਸੰਖਿਆ
ਦੇਸ਼
ਭਾਰਤ ਨੂੰ
ਭਾਸ਼ਾ
ਪੰਜਾਬੀ ਦੇ
ਲਿੰਗ
ਪੁਰਸ਼: 142, ਔਰਤ: 176 ਅਤੇ ਅਗਿਆਤ: 0
ਬੋਲਣ ਵਾਲਿਆਂ ਦੀ ਗਿਣਤੀ
318
ਉੁਮਰ
18-50
ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਟਾਈਟਲ
ਪੰਜਾਬੀ ਦੇ ਭਾਸ਼ਾ ਡੇਟਾਸੈਟ
ਡਾਟਾਸੈੱਟ ਦੀ ਕਿਸਮ
ਮੀਡੀਆ ਆਡੀਓ
ਵੇਰਵਾ
ਲਾਇਸੰਸਯੋਗ ਪਬਲਿਕ ਡੋਮੇਨ ਆਡੀਓ/ਵੀਡੀਓ ਫਾਈਲਾਂ ਜਿਵੇਂ ਕਿ ਇੰਟਰਵਿਊ, ਪੋਡਕਾਸਟ ਆਦਿ - 1 ਤੋਂ 5 ਲੋਕ। ਲਗਭਗ. ਆਡੀਓ ਦੀ ਮਿਆਦ (ਸੀਮਾ) 15-60 ਮਿੰਟ।
ਕੇਸ ਵਰਤੋ
ASR, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟ, ਚੈਟਬੋਟ, ਕਨਵਰਸੇਸ਼ਨਲ AI, ਸਪੀਚ ਐਨਾਲਿਟਿਕਸ, TTS, ਲੈਂਗੂਏਜ ਮਾਡਲਿੰਗ
ਡਾਟਾ ਸੈੱਟ ਵੇਰਵੇ
ਕੁੱਲ ਘੰਟੇ
40
ਨਮੂਨਾ ਦਰ
16 ਖਜ਼
ਆਡੀਓ ਚੈਨਲ
ਮੋਨੋ
ਰਿਕਾਰਡਿੰਗ ਪਲੇਟਫਾਰਮ
ਵੈੱਬ ਸੋਰਸਿੰਗ
ਆਡੀਓ ਫਾਰਮੈਟ
.ਵਾਵ
ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਫਾਰਮੈਟ
.json
WER (%)
5
ਡੈਟਾ ਸੈਟ ਜਨਸੰਖਿਆ
ਦੇਸ਼
ਭਾਰਤ ਨੂੰ
ਭਾਸ਼ਾ
ਪੰਜਾਬੀ ਦੇ
ਲਿੰਗ
ਪੁਰਸ਼: 37, ਔਰਤ: 7 ਅਤੇ ਅਗਿਆਤ: 0
ਬੋਲਣ ਵਾਲਿਆਂ ਦੀ ਗਿਣਤੀ
44
ਉੁਮਰ
18-50
ਫੀਚਰਡ ਕਲਾਇੰਟ
ਵਿਸ਼ਵ-ਮੋਹਰੀ ਏਆਈ ਉਤਪਾਦਾਂ ਨੂੰ ਬਣਾਉਣ ਲਈ ਟੀਮਾਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨਾ.
ਜੋ ਤੁਸੀਂ ਲੱਭ ਰਹੇ ਹੋ ਉਹ ਨਹੀਂ ਲੱਭ ਸਕਦੇ?
ਸਾਰੇ ਡੇਟਾ ਕਿਸਮਾਂ ਵਿੱਚ ਨਵੇਂ ਆਫ-ਦੀ-ਸ਼ੈਲਫ ਡੇਟਾਸੇਟ ਇਕੱਠੇ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ
ਆਪਣੀਆਂ ਆਡੀਓ/ਸਪੀਚ ਸਿਖਲਾਈ ਡੇਟਾ ਇਕੱਤਰ ਕਰਨ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਹੁਣੇ ਸਾਡੇ ਨਾਲ ਸੰਪਰਕ ਕਰੋ