ਤਾਮਿਲ ਡਾਟਾਸੈੱਟ
தமிழ் தரவுத்தொகுப்பு
ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਟਾਈਟਲ
ਤਮਿਲ ਭਾਸ਼ਾ ਡੇਟਾਸੈਟ
ਡਾਟਾਸੈੱਟ ਦੀ ਕਿਸਮ
ਕਾਲ-ਸੈਂਟਰ
ਵੇਰਵਾ
"ਏਜੰਟ" ਅਤੇ "ਗਾਹਕ" ਵਿਚਕਾਰ ਗੈਰ-ਸਕ੍ਰਿਪਟ, ਸਿੰਥੈਟਿਕ ਟੈਲੀਫੋਨ ਗੱਲਬਾਤ, ਲਗਭਗ। ਆਡੀਓ ਦੀ ਮਿਆਦ (ਸੀਮਾ) 5-15 ਮਿੰਟ।
ਕੇਸ ਵਰਤੋ
ASR, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟ, ਚੈਟਬੋਟ, ਕਨਵਰਸੇਸ਼ਨਲ AI, ਸਪੀਚ ਐਨਾਲਿਟਿਕਸ, TTS, ਲੈਂਗੂਏਜ ਮਾਡਲਿੰਗ
ਡਾਟਾ ਸੈੱਟ ਵੇਰਵੇ
ਕੁੱਲ ਘੰਟੇ
60
ਨਮੂਨਾ ਦਰ
8 ਖਜ਼
ਆਡੀਓ ਚੈਨਲ
ਡਿਊਲ
ਰਿਕਾਰਡਿੰਗ ਪਲੇਟਫਾਰਮ
ਡੈਸਕਟਾਪ
ਆਡੀਓ ਫਾਰਮੈਟ
.ਵਾਵ
ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਫਾਰਮੈਟ
.json
WER (%)
5
ਡੈਟਾ ਸੈਟ ਜਨਸੰਖਿਆ
ਦੇਸ਼
ਭਾਰਤ ਨੂੰ
ਭਾਸ਼ਾ
ਤਮਿਲ
ਲਿੰਗ
ਪੁਰਸ਼: 102, ਔਰਤ: 442 ਅਤੇ ਅਗਿਆਤ: 0
ਬੋਲਣ ਵਾਲਿਆਂ ਦੀ ਗਿਣਤੀ
544
ਉੁਮਰ
18-50
ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਟਾਈਟਲ
ਤਮਿਲ ਭਾਸ਼ਾ ਡੇਟਾਸੈਟ
ਡਾਟਾਸੈੱਟ ਦੀ ਕਿਸਮ
ਆਮ ਗੱਲਬਾਤ
ਵੇਰਵਾ
"ਏਜੰਟ" ਅਤੇ "ਗਾਹਕ" ਵਿਚਕਾਰ ਗੈਰ-ਸਕ੍ਰਿਪਟ, ਸਿੰਥੈਟਿਕ ਟੈਲੀਫੋਨ ਗੱਲਬਾਤ, ਲਗਭਗ। ਆਡੀਓ ਦੀ ਮਿਆਦ (ਸੀਮਾ) 5-15 ਮਿੰਟ।
ਕੇਸ ਵਰਤੋ
ASR, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟ, ਚੈਟਬੋਟ, ਕਨਵਰਸੇਸ਼ਨਲ AI, ਸਪੀਚ ਐਨਾਲਿਟਿਕਸ, TTS, ਲੈਂਗੂਏਜ ਮਾਡਲਿੰਗ
ਡਾਟਾ ਸੈੱਟ ਵੇਰਵੇ
ਕੁੱਲ ਘੰਟੇ
100
ਨਮੂਨਾ ਦਰ
8 ਖਜ਼
ਆਡੀਓ ਚੈਨਲ
ਡਿਊਲ
ਰਿਕਾਰਡਿੰਗ ਪਲੇਟਫਾਰਮ
ਡੈਸਕਟਾਪ
ਆਡੀਓ ਫਾਰਮੈਟ
.ਵਾਵ
ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਫਾਰਮੈਟ
.json
WER (%)
5
ਡੈਟਾ ਸੈਟ ਜਨਸੰਖਿਆ
ਦੇਸ਼
ਭਾਰਤ ਨੂੰ
ਭਾਸ਼ਾ
ਤਮਿਲ
ਲਿੰਗ
ਪੁਰਸ਼: 158, ਔਰਤ: 282 ਅਤੇ ਅਗਿਆਤ: 0
ਬੋਲਣ ਵਾਲਿਆਂ ਦੀ ਗਿਣਤੀ
440
ਉੁਮਰ
18-50
ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਟਾਈਟਲ
ਤਮਿਲ ਭਾਸ਼ਾ ਡੇਟਾਸੈਟ
ਡਾਟਾਸੈੱਟ ਦੀ ਕਿਸਮ
ਮੀਡੀਆ ਆਡੀਓ
ਵੇਰਵਾ
ਲਾਇਸੰਸਯੋਗ ਪਬਲਿਕ ਡੋਮੇਨ ਆਡੀਓ/ਵੀਡੀਓ ਫਾਈਲਾਂ ਜਿਵੇਂ ਕਿ ਇੰਟਰਵਿਊ, ਪੋਡਕਾਸਟ ਆਦਿ - 1 ਤੋਂ 5 ਲੋਕ। ਲਗਭਗ. ਆਡੀਓ ਦੀ ਮਿਆਦ (ਸੀਮਾ) 15-60 ਮਿੰਟ।
ਕੇਸ ਵਰਤੋ
ASR, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟ, ਚੈਟਬੋਟ, ਕਨਵਰਸੇਸ਼ਨਲ AI, ਸਪੀਚ ਐਨਾਲਿਟਿਕਸ, TTS, ਲੈਂਗੂਏਜ ਮਾਡਲਿੰਗ
ਡਾਟਾ ਸੈੱਟ ਵੇਰਵੇ
ਕੁੱਲ ਘੰਟੇ
40
ਨਮੂਨਾ ਦਰ
16 ਖਜ਼
ਆਡੀਓ ਚੈਨਲ
ਮੋਨੋ
ਰਿਕਾਰਡਿੰਗ ਪਲੇਟਫਾਰਮ
ਵੈੱਬ ਸੋਰਸਿੰਗ
ਆਡੀਓ ਫਾਰਮੈਟ
.ਵਾਵ
ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਫਾਰਮੈਟ
.json
WER (%)
5
ਡੈਟਾ ਸੈਟ ਜਨਸੰਖਿਆ
ਦੇਸ਼
ਭਾਰਤ ਨੂੰ
ਭਾਸ਼ਾ
ਤਮਿਲ
ਲਿੰਗ
ਪੁਰਸ਼: 28, ਔਰਤ: 4 ਅਤੇ ਅਗਿਆਤ: 0
ਬੋਲਣ ਵਾਲਿਆਂ ਦੀ ਗਿਣਤੀ
32
ਉੁਮਰ
18-50
ਫੀਚਰਡ ਕਲਾਇੰਟ
ਵਿਸ਼ਵ-ਮੋਹਰੀ ਏਆਈ ਉਤਪਾਦਾਂ ਨੂੰ ਬਣਾਉਣ ਲਈ ਟੀਮਾਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨਾ.
ਜੋ ਤੁਸੀਂ ਲੱਭ ਰਹੇ ਹੋ ਉਹ ਨਹੀਂ ਲੱਭ ਸਕਦੇ?
ਸਾਰੇ ਡੇਟਾ ਕਿਸਮਾਂ ਵਿੱਚ ਨਵੇਂ ਆਫ-ਦੀ-ਸ਼ੈਲਫ ਡੇਟਾਸੇਟ ਇਕੱਠੇ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ
ਆਪਣੀਆਂ ਆਡੀਓ/ਸਪੀਚ ਸਿਖਲਾਈ ਡੇਟਾ ਇਕੱਤਰ ਕਰਨ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਹੁਣੇ ਸਾਡੇ ਨਾਲ ਸੰਪਰਕ ਕਰੋ