ਜਨਵਰੀ 4, 2022

ਤੁਹਾਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਦੇਣ ਲਈ 15 ਸਭ ਤੋਂ ਵਧੀਆ NLP ਡੇਟਾਸੈੱਟ

ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸ਼ਸਤਰ ਵਿੱਚ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਹੈ। ਹਾਲਾਂਕਿ, ਮਾਡਲ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਨ ਲਈ ਇਸ ਨੂੰ ਭਾਰੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਅਤੇ ਸਿਖਲਾਈ ਦੀ ਲੋੜ ਹੈ। NLP ਦੇ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਮੁੱਦਿਆਂ ਵਿੱਚੋਂ ਇੱਕ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟਾਂ ਦੀ ਘਾਟ ਹੈ ਜੋ ਡੋਮੇਨ ਦੇ ਅੰਦਰ ਦਿਲਚਸਪੀ ਦੇ ਵਿਸ਼ਾਲ ਖੇਤਰਾਂ ਨੂੰ ਕਵਰ ਕਰ ਸਕਦੀ ਹੈ।

ਜੇਕਰ ਤੁਸੀਂ ਇਸ ਵਿਸ਼ਾਲ ਖੇਤਰ ਵਿੱਚ ਸ਼ੁਰੂਆਤ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਆਪਣੇ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਬਣਾਉਣਾ ਚੁਣੌਤੀਪੂਰਨ ਅਤੇ ਅਮਲੀ ਤੌਰ 'ਤੇ ਬੇਲੋੜਾ ਲੱਗੇ। ਖਾਸ ਤੌਰ 'ਤੇ ਜਦੋਂ ਗੁਣਵੱਤਾ ਹੁੰਦੀ ਹੈ ਐਨ ਐਲ ਪੀ ਤੁਹਾਡੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਉਦੇਸ਼ ਦੇ ਆਧਾਰ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਉਪਲਬਧ ਡਾਟਾਸੈੱਟ।

ਐਨਐਲਪੀ ਮਾਰਕੀਟ 11.7 ਅਤੇ 2018 ਦੇ ਦੌਰਾਨ 2026% ਦੇ CAGR ਨਾਲ ਵਧਣ ਦੀ ਉਮੀਦ ਹੈ 28.6 ਤੱਕ 2026 ਬਿਲੀਅਨ ਡਾਲਰ. NLP ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੀ ਵਧਦੀ ਮੰਗ ਲਈ ਧੰਨਵਾਦ, ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਸਮੀਖਿਆਵਾਂ, ਸਵਾਲ ਅਤੇ ਜਵਾਬ ਵਿਸ਼ਲੇਸ਼ਣ, ਅਤੇ ਭਾਸ਼ਣ ਵਿਸ਼ਲੇਸ਼ਣ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਲੇ ਗੁਣਵੱਤਾ ਡੇਟਾਸੈਟਾਂ 'ਤੇ ਤੁਹਾਡੇ ਹੱਥ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੁਣ ਸੰਭਵ ਹੈ।

ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ NLP ਡੇਟਾਸੇਟਸ ਜਿਸ 'ਤੇ ਤੁਸੀਂ ਭਰੋਸਾ ਕਰ ਸਕਦੇ ਹੋ

ਕਿਉਂਕਿ ਅਣਗਿਣਤ ਡਾਟਾਸੈੱਟ - ਵੱਖ-ਵੱਖ ਲੋੜਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਦੇ ਹੋਏ - ਲਗਭਗ ਹਰ ਰੋਜ਼ ਜਾਰੀ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ, ਇਸ ਲਈ ਗੁਣਵੱਤਾ, ਭਰੋਸੇਮੰਦ, ਅਤੇ ਵਧੀਆ ਡਾਟਾਸੈਟਾਂ ਤੱਕ ਪਹੁੰਚ ਕਰਨਾ ਚੁਣੌਤੀਪੂਰਨ ਹੋ ਸਕਦਾ ਹੈ। ਇੱਥੇ, ਅਸੀਂ ਤੁਹਾਡੇ ਲਈ ਕੰਮ ਨੂੰ ਆਸਾਨ ਬਣਾ ਦਿੱਤਾ ਹੈ, ਕਿਉਂਕਿ ਅਸੀਂ ਤੁਹਾਨੂੰ ਉਹਨਾਂ ਦੁਆਰਾ ਦਿੱਤੀਆਂ ਜਾਂਦੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਦੇ ਅਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਕਿਉਰੇਟਿਡ ਡੇਟਾਸੇਟਸ ਪੇਸ਼ ਕੀਤੇ ਹਨ।

ਜਨਰਲ

UCI ਦਾ ਸਪੈਮਬੇਸ (ਲਿੰਕ)

ਸਪੈਮਬੇਸ, ਹੈਵਲੇਟ-ਪੈਕਾਰਡ ਲੈਬਜ਼ ਵਿੱਚ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਵਿੱਚ ਉਪਭੋਗਤਾਵਾਂ ਦੁਆਰਾ ਸਪੈਮ ਈਮੇਲਾਂ ਦਾ ਇੱਕ ਸੰਗ੍ਰਹਿ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਇੱਕ ਵਿਅਕਤੀਗਤ ਸਪੈਮ ਫਿਲਟਰ ਵਿਕਸਿਤ ਕਰਨਾ ਹੈ। ਇਸ ਵਿੱਚ ਈਮੇਲ ਸੁਨੇਹਿਆਂ ਤੋਂ 4600 ਤੋਂ ਵੱਧ ਨਿਰੀਖਣ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ 1820 ਦੇ ਕਰੀਬ ਸਪੈਮ ਹਨ।

ਐਨਰੋਨ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਐਨਰੋਨ ਡੇਟਾਸੈਟ ਵਿੱਚ ਲੋਕਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਉਪਲਬਧ ਅਗਿਆਤ 'ਅਸਲ' ਈਮੇਲਾਂ ਦਾ ਇੱਕ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਹੈ। ਇਹ 150 ਤੋਂ ਵੱਧ ਉਪਭੋਗਤਾਵਾਂ, ਮੁੱਖ ਤੌਰ 'ਤੇ ਐਨਰੋਨ ਦੇ ਸੀਨੀਅਰ ਪ੍ਰਬੰਧਨ ਤੋਂ ਅੱਧੇ ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਈਮੇਲਾਂ ਦਾ ਮਾਣ ਕਰਦਾ ਹੈ। ਇਹ ਡੇਟਾਸੈਟ ਢਾਂਚਾਗਤ ਅਤੇ ਗੈਰ-ਸੰਗਠਿਤ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਵਰਤੋਂ ਲਈ ਉਪਲਬਧ ਹੈ। ਗੈਰ-ਸੰਗਠਿਤ ਡੇਟਾ ਨੂੰ ਵਧਾਉਣ ਲਈ, ਤੁਹਾਨੂੰ ਡੇਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਹੋਵੇਗਾ।

ਸਿਫ਼ਾਰਿਸ਼ਕਰਤਾ ਸਿਸਟਮ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਸਿਫਾਰਿਸ਼ਕਰਤਾ ਸਿਸਟਮ ਡੇਟਾਸੇਟ ਵੱਖ-ਵੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਾਲੇ ਵੱਖ-ਵੱਖ ਡੇਟਾਸੈਟਾਂ ਦਾ ਇੱਕ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਹੈ ਜਿਵੇਂ ਕਿ,

ਉਤਪਾਦ ਸਮੀਖਿਆ
ਸਟਾਰ ਰੇਟਿੰਗ
ਤੰਦਰੁਸਤੀ ਟਰੈਕਿੰਗ
ਗੀਤ ਡਾਟਾ
ਸਮਾਜਿਕ ਨੈੱਟਵਰਕ
ਟਾਈਮਸਟੈਂਪਸ
ਉਪਭੋਗਤਾ/ਆਈਟਮ ਦੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ
GPS ਡਾਟਾ

ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ

ਫਿਲਮਾਂ ਅਤੇ ਵਿੱਤ ਲਈ ਸ਼ਬਦਕੋਸ਼ (ਲਿੰਕ)

ਫਿਲਮਾਂ ਅਤੇ ਵਿੱਤ ਡੇਟਾਸੇਟ ਲਈ ਡਿਕਸ਼ਨਰੀਜ਼ ਵਿੱਤ ਭਰਨ ਅਤੇ ਫਿਲਮ ਸਮੀਖਿਆਵਾਂ ਵਿੱਚ ਸਕਾਰਾਤਮਕ ਜਾਂ ਨਕਾਰਾਤਮਕ ਧਰੁਵੀਤਾ ਲਈ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਸ਼ਬਦਕੋਸ਼ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਸ਼ਬਦਕੋਸ਼ IMDb ਅਤੇ US ਫਾਰਮ-8 ਭਰਨ ਤੋਂ ਬਣਾਏ ਗਏ ਹਨ।

ਭਾਵਨਾ 140 (ਲਿੰਕ)

ਭਾਵਨਾ 140 ਵਿੱਚ 160,000 ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤੇ ਗਏ ਵੱਖ-ਵੱਖ ਇਮੋਸ਼ਨਸ ਦੇ ਨਾਲ 6 ਤੋਂ ਵੱਧ ਟਵੀਟਸ ਹਨ: ਟਵੀਟ ਦੀ ਮਿਤੀ, ਪੋਲਰਿਟੀ, ਟੈਕਸਟ, ਉਪਭੋਗਤਾ ਨਾਮ, ID, ਅਤੇ ਪੁੱਛਗਿੱਛ। ਇਹ ਡੇਟਾਸੈਟ ਤੁਹਾਡੇ ਲਈ ਟਵਿੱਟਰ ਗਤੀਵਿਧੀ 'ਤੇ ਅਧਾਰਤ ਕਿਸੇ ਬ੍ਰਾਂਡ, ਉਤਪਾਦ, ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ ਕਿਸੇ ਵਿਸ਼ੇ ਦੀ ਭਾਵਨਾ ਨੂੰ ਖੋਜਣਾ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ। ਕਿਉਂਕਿ ਇਹ ਡੇਟਾਸੈਟ ਸਵੈਚਲਿਤ ਤੌਰ 'ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਦੂਜੇ ਮਨੁੱਖੀ-ਐਨੋਟੇਟ ਟਵੀਟਸ ਦੇ ਉਲਟ, ਇਹ ਸਕਾਰਾਤਮਕ ਭਾਵਨਾਵਾਂ ਅਤੇ ਨਕਾਰਾਤਮਕ ਭਾਵਨਾਵਾਂ ਵਾਲੇ ਟਵੀਟਸ ਨੂੰ ਪ੍ਰਤੀਕੂਲ ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਦਾ ਹੈ।

ਮਲਟੀ-ਡੋਮੇਨ ਭਾਵਨਾ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਇਹ ਮਲਟੀ-ਡੋਮੇਨ ਭਾਵਨਾ ਡੇਟਾਸੈਟ ਵੱਖ-ਵੱਖ ਉਤਪਾਦਾਂ ਲਈ ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆਵਾਂ ਦਾ ਭੰਡਾਰ ਹੈ। ਕੁਝ ਉਤਪਾਦ ਸ਼੍ਰੇਣੀਆਂ, ਜਿਵੇਂ ਕਿ ਕਿਤਾਬਾਂ, ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਹਜ਼ਾਰਾਂ ਵਿੱਚ ਚੱਲ ਰਹੀਆਂ ਹਨ, ਜਦੋਂ ਕਿ ਦੂਜਿਆਂ ਦੀਆਂ ਸਿਰਫ਼ ਕੁਝ ਸੌ ਸਮੀਖਿਆਵਾਂ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਟਾਰ ਰੇਟਿੰਗਾਂ ਵਾਲੀਆਂ ਸਮੀਖਿਆਵਾਂ ਨੂੰ ਬਾਈਨਰੀ ਲੇਬਲਾਂ ਵਿੱਚ ਬਦਲਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਆਉ ਅੱਜ ਤੁਹਾਡੀ AI ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਲੋੜ ਬਾਰੇ ਚਰਚਾ ਕਰੀਏ।

ਪਾਠ

ਵਿਕੀ QA ਕਾਰਪਸ (ਲਿੰਕ)

ਓਪਨ-ਡੋਮੇਨ ਸਵਾਲ ਅਤੇ ਜਵਾਬ ਖੋਜ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ, WiKi QA ਕਾਰਪਸ ਸਭ ਤੋਂ ਵਿਆਪਕ ਜਨਤਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। Bing ਖੋਜ ਇੰਜਣ ਪੁੱਛਗਿੱਛ ਲੌਗਸ ਤੋਂ ਕੰਪਾਇਲ ਕੀਤਾ ਗਿਆ, ਇਹ ਸਵਾਲ-ਜਵਾਬ ਜੋੜਿਆਂ ਦੇ ਨਾਲ ਆਉਂਦਾ ਹੈ। ਇਸ ਵਿੱਚ 3000 ਤੋਂ ਵੱਧ ਸਵਾਲ ਅਤੇ 1500 ਲੇਬਲ ਵਾਲੇ ਜਵਾਬ ਵਾਕ ਹਨ।

ਕਨੂੰਨੀ ਕੇਸ ਰਿਪੋਰਟਾਂ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਲੀਗਲ ਕੇਸ ਰਿਪੋਰਟਸ ਡੇਟਾਸੈਟ ਵਿੱਚ 4000 ਕਾਨੂੰਨੀ ਕੇਸਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਅਤੇ ਇਸਦੀ ਵਰਤੋਂ ਆਟੋਮੈਟਿਕ ਟੈਕਸਟ ਸੰਖੇਪ ਅਤੇ ਹਵਾਲਾ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਹਰੇਕ ਦਸਤਾਵੇਜ਼, ਕੈਚਫ੍ਰੇਜ਼, ਹਵਾਲਾ ਕਲਾਸਾਂ, ਹਵਾਲਾ ਕੈਚਫ੍ਰੇਜ਼, ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।

ਖ਼ਤਰਨਾਕ (ਲਿੰਕ)

Jeopardy dataset 200,000 ਤੋਂ ਵੱਧ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਇੱਕ Reddit ਉਪਭੋਗਤਾ ਦੁਆਰਾ ਇਕੱਠੇ ਕੀਤੇ ਗਏ ਪ੍ਰਸਿੱਧ ਕਵਿਜ਼ ਟੀਵੀ ਸ਼ੋਅ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੇ ਗਏ ਹਨ। ਹਰੇਕ ਡੇਟਾ ਪੁਆਇੰਟ ਨੂੰ ਇਸਦੀ ਪ੍ਰਸਾਰਿਤ ਮਿਤੀ, ਐਪੀਸੋਡ ਨੰਬਰ, ਮੁੱਲ, ਦੌਰ, ਅਤੇ ਸਵਾਲ/ਜਵਾਬ ਦੁਆਰਾ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਆਡੀਓ ਸਪੀਚ

ਸਪੋਕਨ ਵਿਕੀਪੀਡੀਆ ਕਾਰਪੋਰਾ (ਲਿੰਕ)

ਇਹ ਡੇਟਾਸੈਟ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਤੋਂ ਪਰੇ ਜਾਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਵਾਲੇ ਹਰੇਕ ਲਈ ਸੰਪੂਰਨ ਹੈ। ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਡੱਚ ਅਤੇ ਜਰਮਨ ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਬੋਲੇ ਜਾਣ ਵਾਲੇ ਲੇਖਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ। ਇਸ ਵਿੱਚ ਵਿਸ਼ਿਆਂ ਦੀ ਵਿਭਿੰਨ ਸ਼੍ਰੇਣੀ ਹੈ ਅਤੇ ਸੈਂਕੜੇ ਘੰਟਿਆਂ ਵਿੱਚ ਚੱਲਣ ਵਾਲੇ ਸਪੀਕਰ ਸੈੱਟ ਹਨ।

2000 HUB5 ਅੰਗਰੇਜ਼ੀ (ਲਿੰਕ)

2000 HUB5 ਅੰਗਰੇਜ਼ੀ ਡੇਟਾਸੈਟ ਵਿੱਚ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਵਿੱਚ 40 ਟੈਲੀਫੋਨ ਗੱਲਬਾਤ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਹਨ। ਡੇਟਾ ਨੈਸ਼ਨਲ ਇੰਸਟੀਚਿਊਟ ਆਫ਼ ਸਟੈਂਡਰਡਜ਼ ਐਂਡ ਟੈਕਨਾਲੋਜੀ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਅਤੇ ਇਸਦਾ ਮੁੱਖ ਫੋਕਸ ਗੱਲਬਾਤ ਦੇ ਭਾਸ਼ਣ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਭਾਸ਼ਣ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਣ 'ਤੇ ਹੈ।

LibriSpeech (ਲਿੰਕ)

LibriSpeech ਡੇਟਾਸੈਟ ਲਗਭਗ 1000 ਘੰਟਿਆਂ ਦੀ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਣ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਅਤੇ ਆਡੀਓ ਕਿਤਾਬਾਂ ਦੇ ਅਧਿਆਵਾਂ ਵਿੱਚ ਵਿਸ਼ਿਆਂ ਦੁਆਰਾ ਸਹੀ ਢੰਗ ਨਾਲ ਵੰਡਿਆ ਗਿਆ ਹੈ, ਇਸ ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ ਲਈ ਇੱਕ ਸੰਪੂਰਨ ਸਾਧਨ ਬਣਾਉਂਦਾ ਹੈ।

ਸਮੀਖਿਆ

ਯੈਲਪ ਸਮੀਖਿਆਵਾਂ (ਲਿੰਕ)

ਯੈਲਪ ਡੇਟਾਸੇਟ ਵਿੱਚ 8.5 ਤੋਂ ਵੱਧ ਕਾਰੋਬਾਰਾਂ ਦੀਆਂ ਲਗਭਗ 160,000 ਮਿਲੀਅਨ ਸਮੀਖਿਆਵਾਂ, ਉਹਨਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ, ਅਤੇ ਉਪਭੋਗਤਾ ਡੇਟਾ ਦਾ ਇੱਕ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਹੈ। ਸਮੀਖਿਆਵਾਂ ਦੀ ਵਰਤੋਂ ਤੁਹਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਭਾਵਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਅੱਠ ਮਹਾਨਗਰ ਸਥਾਨਾਂ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੀਆਂ 200,000 ਤੋਂ ਵੱਧ ਤਸਵੀਰਾਂ ਹਨ।

IMDB ਸਮੀਖਿਆਵਾਂ (ਲਿੰਕ)

IMDB ਸਮੀਖਿਆਵਾਂ 50 ਹਜ਼ਾਰ ਤੋਂ ਵੱਧ ਫਿਲਮਾਂ ਲਈ ਕਾਸਟ ਜਾਣਕਾਰੀ, ਰੇਟਿੰਗਾਂ, ਵਰਣਨ ਅਤੇ ਸ਼ੈਲੀ ਵਾਲੇ ਸਭ ਤੋਂ ਪ੍ਰਸਿੱਧ ਡੇਟਾਸੇਟਾਂ ਵਿੱਚੋਂ ਹਨ। ਇਹ ਡੇਟਾਸੈਟ ਤੁਹਾਡੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਅਤੇ ਸਿਖਲਾਈ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆਵਾਂ ਅਤੇ ਰੇਟਿੰਗਾਂ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆ ਅਤੇ ਰੇਟਿੰਗ ਡੇਟਾਸੈਟ ਵਿੱਚ 1996 ਤੋਂ 2014 ਤੱਕ ਇਕੱਤਰ ਕੀਤੇ ਮੈਟਾਡੇਟਾ ਅਤੇ ਐਮਾਜ਼ਾਨ ਤੋਂ ਵੱਖ-ਵੱਖ ਉਤਪਾਦਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਦਾ ਇੱਕ ਕੀਮਤੀ ਸੰਗ੍ਰਹਿ ਹੈ - ਲਗਭਗ 142.8 ਮਿਲੀਅਨ ਰਿਕਾਰਡ। ਮੈਟਾਡੇਟਾ ਵਿੱਚ ਕੀਮਤ, ਉਤਪਾਦ ਵਰਣਨ, ਬ੍ਰਾਂਡ, ਸ਼੍ਰੇਣੀ, ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਸਮੀਖਿਆਵਾਂ ਵਿੱਚ ਟੈਕਸਟ ਗੁਣਵੱਤਾ, ਟੈਕਸਟ ਦੀ ਉਪਯੋਗਤਾ, ਰੇਟਿੰਗਾਂ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ।

ਤਾਂ, ਤੁਸੀਂ ਆਪਣੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕਿਹੜਾ ਡੇਟਾਸੈਟ ਚੁਣਿਆ ਹੈ?

ਜਿਵੇਂ ਅਸੀਂ ਜਾਂਦੇ ਹਾਂ, ਅਸੀਂ ਤੁਹਾਡੇ ਨਾਲ ਛੱਡ ਦਿਆਂਗੇ ਪ੍ਰੋ-ਟਿਪ.

ਆਪਣੀਆਂ ਜ਼ਰੂਰਤਾਂ ਲਈ ਇੱਕ NLP ਡੇਟਾਸੈਟ ਨੂੰ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ README ਫਾਈਲ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਜਾਣਨਾ ਯਕੀਨੀ ਬਣਾਓ। ਡੇਟਾਸੈਟ ਵਿੱਚ ਉਹ ਸਾਰੀ ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੋਵੇਗੀ ਜਿਸਦੀ ਤੁਹਾਨੂੰ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਡੇਟਾਸੈਟ ਦੀ ਸਮੱਗਰੀ, ਵੱਖ-ਵੱਖ ਮਾਪਦੰਡ ਜਿਨ੍ਹਾਂ 'ਤੇ ਡੇਟਾ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਗਿਆ ਹੈ, ਅਤੇ ਡੇਟਾਸੈਟ ਦੇ ਸੰਭਾਵਿਤ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ।

ਤੁਹਾਡੇ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਮਾਡਲਾਂ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਸਾਡੀਆਂ ਮਸ਼ੀਨਾਂ ਨੂੰ ਸਾਡੀਆਂ ਜ਼ਿੰਦਗੀਆਂ ਨਾਲ ਹੋਰ ਨਜ਼ਦੀਕੀ ਅਤੇ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਜੋੜਨ ਦੀ ਇੱਕ ਦਿਲਚਸਪ ਸੰਭਾਵਨਾ ਹੈ। NLP ਦੇ ਨਾਲ, ਕਾਰੋਬਾਰ, ਫਿਲਮਾਂ, ਬੋਲੀ ਮਾਨਤਾ, ਵਿੱਤ ਅਤੇ ਹੋਰ ਲਈ ਸੰਭਾਵਨਾਵਾਂ ਕਈ ਗੁਣਾ ਵੱਧ ਗਈਆਂ ਹਨ। ਜੇਕਰ ਤੁਸੀਂ ਅਜਿਹੇ ਹੋਰ ਡੇਟਾਸੇਟਸ ਦੀ ਤਲਾਸ਼ ਕਰ ਰਹੇ ਹੋ ਇੱਥੇ ਕਲਿੱਕ ਕਰੋ.

ਸਮਾਜਕ ਸ਼ੇਅਰ

ਕਿਸੇ ਮਾਹਰ ਨਾਲ ਗੱਲ ਕਰੋ

ਪਹਿਲਾ ਨਾਂ*
ਆਖਰੀ ਨਾਂਮ*
ਈਮੇਲ*
ਫੋਨ*
ਕੰਪਨੀ*
ਦੇਸ਼*
ਦੇਸ਼
Comments*
ਰਜਿਸਟਰ ਕਰਕੇ, ਮੈਂ ਸ਼ੈਪ ਨਾਲ ਸਹਿਮਤ ਹਾਂ ਪਰਾਈਵੇਟ ਨੀਤੀ ਅਤੇ ਸੇਵਾ ਦੀਆਂ ਸ਼ਰਤਾਂ ਅਤੇ Shaip ਤੋਂ B2B ਮਾਰਕੀਟਿੰਗ ਸੰਚਾਰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਮੇਰੀ ਸਹਿਮਤੀ ਪ੍ਰਦਾਨ ਕਰੋ।
ਕੈਪਟਚਾ

ਮੁਫ਼ਤ ਕਿਤਾਬ ਡਾਊਨਲੋਡ ਕਰੋ

ਤੁਹਾਨੂੰ ਇਹ ਵੀ ਹੋ ਸਕਦੇ ਹਨ

ਤੁਹਾਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਦੇਣ ਲਈ 15 ਸਭ ਤੋਂ ਵਧੀਆ NLP ਡੇਟਾਸੈੱਟ

ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ NLP ਡੇਟਾਸੇਟਸ ਜਿਸ 'ਤੇ ਤੁਸੀਂ ਭਰੋਸਾ ਕਰ ਸਕਦੇ ਹੋ

ਜਨਰਲ

UCI ਦਾ ਸਪੈਮਬੇਸ (ਲਿੰਕ)

ਐਨਰੋਨ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਸਿਫ਼ਾਰਿਸ਼ਕਰਤਾ ਸਿਸਟਮ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ

ਫਿਲਮਾਂ ਅਤੇ ਵਿੱਤ ਲਈ ਸ਼ਬਦਕੋਸ਼ (ਲਿੰਕ)

ਭਾਵਨਾ 140 (ਲਿੰਕ)

ਮਲਟੀ-ਡੋਮੇਨ ਭਾਵਨਾ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਪਾਠ

ਵਿਕੀ QA ਕਾਰਪਸ (ਲਿੰਕ)

ਕਨੂੰਨੀ ਕੇਸ ਰਿਪੋਰਟਾਂ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਖ਼ਤਰਨਾਕ (ਲਿੰਕ)

ਆਡੀਓ ਸਪੀਚ

ਸਪੋਕਨ ਵਿਕੀਪੀਡੀਆ ਕਾਰਪੋਰਾ (ਲਿੰਕ)

2000 HUB5 ਅੰਗਰੇਜ਼ੀ (ਲਿੰਕ)

LibriSpeech (ਲਿੰਕ)

ਸਮੀਖਿਆ

ਯੈਲਪ ਸਮੀਖਿਆਵਾਂ (ਲਿੰਕ)

IMDB ਸਮੀਖਿਆਵਾਂ (ਲਿੰਕ)

ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆਵਾਂ ਅਤੇ ਰੇਟਿੰਗਾਂ ਡੇਟਾਸੈਟ (ਲਿੰਕ)

ਸਮਾਜਕ ਸ਼ੇਅਰ

ਕਿਸੇ ਮਾਹਰ ਨਾਲ ਗੱਲ ਕਰੋ

ਏਆਈ ਡਾਟਾ ਸੇਵਾਵਾਂ

ਸਪੈਸਲਿਟੀ

ਉਦਯੋਗ

ਉਤਪਾਦ

ਕੰਪਨੀ

ਸਰੋਤ

ਸਾਡੇ ਨਾਲ ਸੰਪਰਕ ਕਰੋ