NLP ਡੇਟਾਸੈੱਟ ਬਹੁਤ ਸਾਰੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਪ੍ਰੋਜੈਕਟਾਂ ਦੀ ਰੀੜ੍ਹ ਦੀ ਹੱਡੀ ਹਨ, ਜੋ ਟੈਕਸਟ ਵਰਗੀਕਰਨ, ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਅਤੇ ਪ੍ਰਸ਼ਨ ਉੱਤਰ ਵਰਗੇ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਲਈ ਲਚਕਤਾ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਉਦਾਹਰਣ ਵਜੋਂ, ਬਲੌਗ ਲੇਖਕ ਕਾਰਪਸ ਵਿੱਚ ਲਗਭਗ 681,000 ਬਲੌਗਰਾਂ ਦੀਆਂ 20,000 ਤੋਂ ਵੱਧ ਬਲੌਗ ਪੋਸਟਾਂ ਹਨ, ਜੋ ਇਸਨੂੰ ਲਿਖਣ ਸ਼ੈਲੀਆਂ, ਲੇਖਕ ਪਛਾਣ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਇੱਕ ਅਮੀਰ ਸਰੋਤ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਅਕਾਦਮਿਕ ਖੋਜ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਣ ਵਾਲਿਆਂ ਲਈ, arXiv ਖੋਜ ਪੱਤਰ ਡੇਟਾਸੈਟ ਕਈ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਵਿਗਿਆਨਕ ਪੇਪਰਾਂ ਦੇ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਤੱਕ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਹਵਾਲਾ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਦਸਤਾਵੇਜ਼ ਵਰਗੀਕਰਨ ਵਰਗੇ ਉੱਨਤ NLP ਕਾਰਜਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ। ਫੈਡਰਲ ਪ੍ਰੋਕਿਊਰਮੈਂਟ ਡੇਟਾ ਸੈਂਟਰ ਡੇਟਾਸੈਟ ਇੱਕ ਹੋਰ ਕੀਮਤੀ ਸਰੋਤ ਹੈ, ਜੋ ਸੰਘੀ ਇਕਰਾਰਨਾਮਿਆਂ ਬਾਰੇ ਵਿਸਤ੍ਰਿਤ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ - ਸਰਕਾਰੀ ਡੇਟਾ ਅਤੇ ਇਕਾਈ ਮਾਨਤਾ ਵਾਲੇ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਆਦਰਸ਼।
ਇਹ ਐਨਐਲਪੀ ਡੇਟਾਸੈੱਟ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਹਨ, ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਐਨਐਲਪੀ ਕਾਰਜਾਂ ਵਿੱਚ ਆਪਣੇ ਸਿਸਟਮਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ। ਭਾਵੇਂ ਤੁਸੀਂ ਬਲੌਗ ਪੋਸਟਾਂ, ਖੋਜ ਪੱਤਰਾਂ, ਜਾਂ ਸਰਕਾਰੀ ਡੇਟਾ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹੋ, ਇਹ ਡੇਟਾਸੈੱਟ ਮਜ਼ਬੂਤ ਅਤੇ ਬਹੁਪੱਖੀ ਐਨਐਲਪੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਨੀਂਹ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ।
ਐਨਐਲਪੀ ਕੀ ਹੈ?
NLP (ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ) ਕੰਪਿਊਟਰਾਂ ਨੂੰ ਮਨੁੱਖੀ ਭਾਸ਼ਾ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਇਹ ਕੰਪਿਊਟਰਾਂ ਨੂੰ ਪਾਠ ਅਤੇ ਬੋਲਣ ਨੂੰ ਪੜ੍ਹਨਾ, ਸਮਝਣਾ ਅਤੇ ਜਵਾਬ ਦੇਣਾ ਸਿਖਾਉਣ ਵਾਂਗ ਹੈ ਜਿਵੇਂ ਕਿ ਮਨੁੱਖ ਕਰਦੇ ਹਨ।
NLP ਕੀ ਕਰ ਸਕਦਾ ਹੈ?
- ਗੜਬੜ ਵਾਲੇ ਟੈਕਸਟ ਨੂੰ ਸੰਗਠਿਤ ਡੇਟਾ ਵਿੱਚ ਬਦਲੋ
- ਸਮਝੋ ਕਿ ਕੀ ਟਿੱਪਣੀਆਂ ਸਕਾਰਾਤਮਕ ਹਨ ਜਾਂ ਨਕਾਰਾਤਮਕ
- ਭਾਸ਼ਾਵਾਂ ਵਿਚਕਾਰ ਅਨੁਵਾਦ ਕਰੋ
- ਲੰਬੇ ਪਾਠਾਂ ਦੇ ਸੰਖੇਪ ਬਣਾਓ
- ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ!
- NLP ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨਾ:
ਚੰਗੇ NLP ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਬਣਾਉਣ ਲਈ, ਤੁਹਾਨੂੰ ਉਹਨਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਬਹੁਤ ਸਾਰੀਆਂ ਉਦਾਹਰਣਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ - ਜਿਵੇਂ ਕਿ ਕਿਵੇਂ ਮਨੁੱਖ ਹੋਰ ਅਭਿਆਸ ਨਾਲ ਬਿਹਤਰ ਸਿੱਖਦੇ ਹਨ। ਚੰਗੀ ਖ਼ਬਰ ਇਹ ਹੈ ਕਿ ਇੱਥੇ ਬਹੁਤ ਸਾਰੇ ਮੁਫਤ ਸਰੋਤ ਹਨ ਜਿੱਥੇ ਤੁਸੀਂ ਇਹਨਾਂ ਉਦਾਹਰਣਾਂ ਨੂੰ ਲੱਭ ਸਕਦੇ ਹੋ: ਜੱਫੀ ਪਾਉਣ ਵਾਲਾ ਚਿਹਰਾ, ਕਾਗਲ ਅਤੇ GitHub. ਇਹਨਾਂ ਪਲੇਟਫਾਰਮਾਂ ਤੋਂ ਡੇਟਾਸੈਟਾਂ ਤੱਕ ਆਸਾਨੀ ਨਾਲ ਪਹੁੰਚ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਜੋ NLP ਪ੍ਰੋਜੈਕਟ ਵਿਕਾਸ ਨੂੰ ਤੇਜ਼ ਕਰਦੀ ਹੈ।
NLP ਮਾਰਕੀਟ ਦਾ ਆਕਾਰ ਅਤੇ ਵਿਕਾਸ:
2023 ਤੱਕ, ਨੈਚੁਰਲ ਲੈਂਗੂਏਜ ਪ੍ਰੋਸੈਸਿੰਗ (NLP) ਮਾਰਕੀਟ ਦੀ ਕੀਮਤ ਲਗਭਗ $26 ਬਿਲੀਅਨ ਸੀ। 30 ਤੋਂ 2023 ਤੱਕ ਲਗਭਗ 2030% ਦੀ ਮਿਸ਼ਰਿਤ ਸਲਾਨਾ ਵਿਕਾਸ ਦਰ (CAGR) ਦੇ ਨਾਲ, ਇਸਦੇ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਵਧਣ ਦੀ ਉਮੀਦ ਹੈ। ਇਹ ਵਾਧਾ ਸਿਹਤ ਸੰਭਾਲ, ਵਿੱਤ, ਅਤੇ ਗਾਹਕ ਸੇਵਾ ਵਰਗੇ ਉਦਯੋਗਾਂ ਵਿੱਚ NLP ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਵਧਦੀ ਮੰਗ ਦੁਆਰਾ ਚਲਾਇਆ ਜਾਂਦਾ ਹੈ।
ਇੱਕ ਚੰਗਾ NLP ਡੇਟਾਸੈਟ ਕਿਵੇਂ ਚੁਣਨਾ ਹੈ, ਹੇਠਾਂ ਦਿੱਤੇ ਕਾਰਕਾਂ 'ਤੇ ਵਿਚਾਰ ਕਰੋ:
- ਸਬੰਧ: ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਡੇਟਾਸੇਟ ਤੁਹਾਡੇ ਖਾਸ ਕੰਮ ਜਾਂ ਡੋਮੇਨ ਨਾਲ ਇਕਸਾਰ ਹੈ।
- ਆਕਾਰ: ਵੱਡੇ ਡੇਟਾਸੇਟਸ ਆਮ ਤੌਰ 'ਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਂਦੇ ਹਨ, ਪਰ ਗੁਣਵੱਤਾ ਦੇ ਨਾਲ ਆਕਾਰ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਦੇ ਹਨ।
- ਡਾਇਵਰਸਿਟੀ: ਮਾਡਲ ਦੀ ਮਜ਼ਬੂਤੀ ਨੂੰ ਵਧਾਉਣ ਲਈ ਵੱਖੋ-ਵੱਖਰੀਆਂ ਭਾਸ਼ਾ ਸ਼ੈਲੀਆਂ ਅਤੇ ਸੰਦਰਭਾਂ ਵਾਲੇ ਡੇਟਾਸੇਟਾਂ ਦੀ ਭਾਲ ਕਰੋ।
- ਕੁਆਲਟੀ: ਗਲਤੀਆਂ ਪੇਸ਼ ਕਰਨ ਤੋਂ ਬਚਣ ਲਈ ਚੰਗੀ ਤਰ੍ਹਾਂ ਲੇਬਲ ਕੀਤੇ ਅਤੇ ਸਹੀ ਡੇਟਾ ਦੀ ਜਾਂਚ ਕਰੋ।
- ਅਸੈੱਸਬਿਲਟੀ: ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਡੇਟਾਸੇਟ ਵਰਤੋਂ ਲਈ ਉਪਲਬਧ ਹੈ ਅਤੇ ਕਿਸੇ ਵੀ ਲਾਇਸੈਂਸ ਪਾਬੰਦੀਆਂ 'ਤੇ ਵਿਚਾਰ ਕਰੋ।
- ਪੂਰਵ ਪ੍ਰਕਿਰਿਆ: ਪਤਾ ਕਰੋ ਕਿ ਕੀ ਡੇਟਾਸੈਟ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਸਫਾਈ ਜਾਂ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਲੋੜ ਹੈ।
- ਕਮਿਊਨਿਟੀ ਸਹਾਇਤਾ: ਪ੍ਰਸਿੱਧ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚ ਅਕਸਰ ਵਧੇਰੇ ਸਰੋਤ ਅਤੇ ਭਾਈਚਾਰਕ ਸਹਾਇਤਾ ਹੁੰਦੀ ਹੈ, ਜੋ ਮਦਦਗਾਰ ਹੋ ਸਕਦੀ ਹੈ।
ਇਹਨਾਂ ਕਾਰਕਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਕੇ, ਤੁਸੀਂ ਇੱਕ ਅਜਿਹਾ ਡੇਟਾਸੈੱਟ ਚੁਣ ਸਕਦੇ ਹੋ ਜੋ ਤੁਹਾਡੇ ਪ੍ਰੋਜੈਕਟ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਦੇ ਅਨੁਕੂਲ ਹੋਵੇ। NLP ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਅਨੁਕੂਲ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਸਹੀ ਡੇਟਾਸੈੱਟਾਂ ਦੀ ਚੋਣ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸਿਖਲਾਈ ਕੁਸ਼ਲਤਾ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ।
NLP ਲਈ ਸਿਖਰ ਦੇ 33 ਓਪਨ ਡੇਟਾਸੈੱਟ ਦੇਖਣੇ ਚਾਹੀਦੇ ਹਨ
ਜਨਰਲ
UCI ਦਾ ਸਪੈਮਬੇਸ (ਲਿੰਕ)
ਸਪੈਮਬੇਸ, ਹੈਵਲੇਟ-ਪੈਕਾਰਡ ਲੈਬਜ਼ ਵਿੱਚ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਵਿੱਚ ਉਪਭੋਗਤਾਵਾਂ ਦੁਆਰਾ ਸਪੈਮ ਈਮੇਲਾਂ ਦਾ ਇੱਕ ਸੰਗ੍ਰਹਿ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਇੱਕ ਵਿਅਕਤੀਗਤ ਸਪੈਮ ਫਿਲਟਰ ਵਿਕਸਿਤ ਕਰਨਾ ਹੈ। ਇਸ ਵਿੱਚ ਈਮੇਲ ਸੁਨੇਹਿਆਂ ਤੋਂ 4600 ਤੋਂ ਵੱਧ ਨਿਰੀਖਣ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ 1820 ਦੇ ਕਰੀਬ ਸਪੈਮ ਹਨ।
ਐਨਰੋਨ ਡੇਟਾਸੈਟ (ਲਿੰਕ)
ਐਨਰੋਨ ਡੇਟਾ ਸੈੱਟ ਵਿੱਚ ਗੁਮਨਾਮ 'ਅਸਲੀ' ਈਮੇਲਾਂ ਦਾ ਇੱਕ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਜਨਤਾ ਨੂੰ ਉਨ੍ਹਾਂ ਦੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਉਪਲਬਧ ਹੈ। ਇਸ ਵਿੱਚ 150 ਤੋਂ ਵੱਧ ਉਪਭੋਗਤਾਵਾਂ, ਮੁੱਖ ਤੌਰ 'ਤੇ ਐਨਰੋਨ ਦੇ ਸੀਨੀਅਰ ਪ੍ਰਬੰਧਨ, ਤੋਂ ਅੱਧਾ ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਈਮੇਲਾਂ ਹਨ। ਇਹ ਡੇਟਾ ਸੈੱਟ ਢਾਂਚਾਗਤ ਅਤੇ ਅਸੰਗਠਿਤ ਦੋਵਾਂ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਵਰਤੋਂ ਲਈ ਉਪਲਬਧ ਹੈ। ਅਸੰਗਠਿਤ ਡੇਟਾ ਨੂੰ ਸਜਾਉਣ ਲਈ, ਤੁਹਾਨੂੰ ਡੇਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਪਵੇਗਾ।
ਸਿਫ਼ਾਰਿਸ਼ਕਰਤਾ ਸਿਸਟਮ ਡੇਟਾਸੈਟ (ਲਿੰਕ)
ਸਿਫਾਰਿਸ਼ਕਰਤਾ ਸਿਸਟਮ ਡੇਟਾਸੇਟ ਵੱਖ-ਵੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਾਲੇ ਵੱਖ-ਵੱਖ ਡੇਟਾਸੈਟਾਂ ਦਾ ਇੱਕ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਹੈ ਜਿਵੇਂ ਕਿ,
- ਉਤਪਾਦ ਸਮੀਖਿਆ
- ਸਟਾਰ ਰੇਟਿੰਗ
- ਤੰਦਰੁਸਤੀ ਟਰੈਕਿੰਗ
- ਗੀਤ ਡਾਟਾ
- ਸਮਾਜਿਕ ਨੈੱਟਵਰਕ
- ਟਾਈਮਸਟੈਂਪਸ
- ਉਪਭੋਗਤਾ/ਆਈਟਮ ਦੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ
- GPS ਡਾਟਾ
ਪੇਨ ਟ੍ਰੀਬੈਂਕ (ਲਿੰਕ)
ਇਹ ਕਾਰਪਸ, ਵਾਲ ਸਟਰੀਟ ਜਰਨਲ ਤੋਂ, ਕ੍ਰਮ ਲੇਬਲਿੰਗ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਲਈ ਪ੍ਰਸਿੱਧ ਹੈ।
NLTK (ਲਿੰਕ)
ਇਹ ਪਾਈਥਨ ਲਾਇਬ੍ਰੇਰੀ NLP ਲਈ 100 ਤੋਂ ਵੱਧ ਕਾਰਪੋਰਾ ਅਤੇ ਸ਼ਬਦਾਵਲੀ ਸਰੋਤਾਂ ਤੱਕ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਇਸ ਵਿੱਚ NLTK ਕਿਤਾਬ ਵੀ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਕਿ ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਲਈ ਇੱਕ ਸਿਖਲਾਈ ਕੋਰਸ ਹੈ। NLTK ਵਿੱਚ WordNet ਤੱਕ ਪਹੁੰਚ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਕਿ ਅੰਗਰੇਜ਼ੀ ਦਾ ਇੱਕ ਵੱਡਾ ਸ਼ਬਦਾਵਲੀ ਡੇਟਾਬੇਸ ਹੈ, ਜਿੱਥੇ ਨਾਂਵਾਂ, ਕਿਰਿਆਵਾਂ, ਵਿਸ਼ੇਸ਼ਣਾਂ ਅਤੇ ਕਿਰਿਆਵਾਂ ਵਰਗੇ ਸ਼ਬਦਾਂ ਨੂੰ ਸਾਂਝੇ ਅਰਥਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਸਿੰਸੈੱਟਾਂ ਵਿੱਚ ਸਮੂਹਬੱਧ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। NLTK NLP ਖੋਜ ਲਈ ਕਾਰਪੋਰਾ ਅਤੇ ਸ਼ਬਦਾਵਲੀ ਸਰੋਤਾਂ ਦੀ ਇੱਕ ਐਨੋਟੇਟਿਡ ਸੂਚੀ ਵੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਯੂਨੀਵਰਸਲ ਨਿਰਭਰਤਾਵਾਂ (ਲਿੰਕ)
UD 100 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ, 200 ਟ੍ਰੀਬੈਂਕਸ, ਅਤੇ 300 ਤੋਂ ਵੱਧ ਕਮਿਊਨਿਟੀ ਮੈਂਬਰਾਂ ਦੇ ਸਮਰਥਨ ਦੇ ਨਾਲ, ਵਿਆਕਰਣ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਦਾ ਇਕਸਾਰ ਤਰੀਕਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਡਾਟਾਸੈੱਟ
ਫਿਲਮਾਂ ਅਤੇ ਵਿੱਤ ਲਈ ਸ਼ਬਦਕੋਸ਼ (ਲਿੰਕ)

ਫਿਲਮਾਂ ਅਤੇ ਵਿੱਤ ਡੇਟਾਸੇਟ ਲਈ ਡਿਕਸ਼ਨਰੀਜ਼ ਵਿੱਤ ਭਰਨ ਅਤੇ ਫਿਲਮ ਸਮੀਖਿਆਵਾਂ ਵਿੱਚ ਸਕਾਰਾਤਮਕ ਜਾਂ ਨਕਾਰਾਤਮਕ ਧਰੁਵੀਤਾ ਲਈ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਸ਼ਬਦਕੋਸ਼ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਸ਼ਬਦਕੋਸ਼ IMDb ਅਤੇ US ਫਾਰਮ-8 ਭਰਨ ਤੋਂ ਬਣਾਏ ਗਏ ਹਨ।ਭਾਵਨਾ 140 (ਲਿੰਕ)
ਭਾਵਨਾ 140 ਵਿੱਚ 160,000 ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤੇ ਗਏ ਵੱਖ-ਵੱਖ ਇਮੋਸ਼ਨਸ ਦੇ ਨਾਲ 6 ਤੋਂ ਵੱਧ ਟਵੀਟਸ ਹਨ: ਟਵੀਟ ਦੀ ਮਿਤੀ, ਪੋਲਰਿਟੀ, ਟੈਕਸਟ, ਉਪਭੋਗਤਾ ਨਾਮ, ID, ਅਤੇ ਪੁੱਛਗਿੱਛ। ਇਹ ਡੇਟਾਸੈਟ ਤੁਹਾਡੇ ਲਈ ਟਵਿੱਟਰ ਗਤੀਵਿਧੀ 'ਤੇ ਅਧਾਰਤ ਕਿਸੇ ਬ੍ਰਾਂਡ, ਉਤਪਾਦ, ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ ਕਿਸੇ ਵਿਸ਼ੇ ਦੀ ਭਾਵਨਾ ਨੂੰ ਖੋਜਣਾ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ। ਕਿਉਂਕਿ ਇਹ ਡੇਟਾਸੈਟ ਸਵੈਚਲਿਤ ਤੌਰ 'ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਦੂਜੇ ਮਨੁੱਖੀ-ਐਨੋਟੇਟ ਟਵੀਟਸ ਦੇ ਉਲਟ, ਇਹ ਸਕਾਰਾਤਮਕ ਭਾਵਨਾਵਾਂ ਅਤੇ ਨਕਾਰਾਤਮਕ ਭਾਵਨਾਵਾਂ ਵਾਲੇ ਟਵੀਟਸ ਨੂੰ ਪ੍ਰਤੀਕੂਲ ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਦਾ ਹੈ।
ਮਲਟੀ-ਡੋਮੇਨ ਭਾਵਨਾ ਡੇਟਾਸੈਟ (ਲਿੰਕ)
ਇਹ ਮਲਟੀ-ਡੋਮੇਨ ਭਾਵਨਾ ਡੇਟਾਸੈਟ ਵੱਖ-ਵੱਖ ਉਤਪਾਦਾਂ ਲਈ ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆਵਾਂ ਦਾ ਭੰਡਾਰ ਹੈ। ਕੁਝ ਉਤਪਾਦ ਸ਼੍ਰੇਣੀਆਂ, ਜਿਵੇਂ ਕਿ ਕਿਤਾਬਾਂ, ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਹਜ਼ਾਰਾਂ ਵਿੱਚ ਚੱਲ ਰਹੀਆਂ ਹਨ, ਜਦੋਂ ਕਿ ਦੂਜਿਆਂ ਦੀਆਂ ਸਿਰਫ਼ ਕੁਝ ਸੌ ਸਮੀਖਿਆਵਾਂ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਟਾਰ ਰੇਟਿੰਗਾਂ ਵਾਲੀਆਂ ਸਮੀਖਿਆਵਾਂ ਨੂੰ ਬਾਈਨਰੀ ਲੇਬਲਾਂ ਵਿੱਚ ਬਦਲਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਸਟੈਂਡਫੋਰਡ ਸੈਂਟੀਮੈਂਟ ਟ੍ਰੀਬੈਂਕ (ਲਿੰਕ)
Rotten Tomatoes ਤੋਂ ਇਸ NLP ਡੇਟਾਸੇਟ ਵਿੱਚ ਲੰਬੇ ਵਾਕਾਂਸ਼ ਅਤੇ ਹੋਰ ਵਿਸਤ੍ਰਿਤ ਟੈਕਸਟ ਉਦਾਹਰਨਾਂ ਸ਼ਾਮਲ ਹਨ।
ਬਲੌਗ ਆਥਰਸ਼ਿਪ ਕਾਰਪਸ (ਲਿੰਕ)
ਇਸ ਸੰਗ੍ਰਹਿ ਵਿੱਚ ਲਗਭਗ 1.4 ਮਿਲੀਅਨ ਸ਼ਬਦਾਂ ਵਾਲੀਆਂ ਬਲੌਗ ਪੋਸਟਾਂ ਹਨ, ਹਰੇਕ ਬਲੌਗ ਇੱਕ ਵੱਖਰਾ ਡੇਟਾਸੈਟ ਹੈ।
OpinRank ਡਾਟਾਸੈੱਟ (ਲਿੰਕ)
Edmunds ਅਤੇ TripAdvisor ਤੋਂ 300,000 ਸਮੀਖਿਆਵਾਂ, ਕਾਰ ਮਾਡਲ ਜਾਂ ਯਾਤਰਾ ਮੰਜ਼ਿਲ ਅਤੇ ਹੋਟਲ ਦੁਆਰਾ ਆਯੋਜਿਤ।
ਟੈਕਸਟ ਡਾਟਾਸੈੱਟ
ਵਿਕੀ QA ਕਾਰਪਸ (ਲਿੰਕ)
ਓਪਨ-ਡੋਮੇਨ ਸਵਾਲ ਅਤੇ ਜਵਾਬ ਖੋਜ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ, WiKi QA ਕਾਰਪਸ ਸਭ ਤੋਂ ਵਿਆਪਕ ਜਨਤਕ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। Bing ਖੋਜ ਇੰਜਣ ਪੁੱਛਗਿੱਛ ਲੌਗਸ ਤੋਂ ਕੰਪਾਇਲ ਕੀਤਾ ਗਿਆ, ਇਹ ਸਵਾਲ-ਜਵਾਬ ਜੋੜਿਆਂ ਦੇ ਨਾਲ ਆਉਂਦਾ ਹੈ। ਇਸ ਵਿੱਚ 3000 ਤੋਂ ਵੱਧ ਸਵਾਲ ਅਤੇ 1500 ਲੇਬਲ ਵਾਲੇ ਜਵਾਬ ਵਾਕ ਹਨ।
ਕਨੂੰਨੀ ਕੇਸ ਰਿਪੋਰਟਾਂ ਡੇਟਾਸੈਟ (ਲਿੰਕ)
ਲੀਗਲ ਕੇਸ ਰਿਪੋਰਟਸ ਡੇਟਾਸੈਟ ਵਿੱਚ 4000 ਕਾਨੂੰਨੀ ਕੇਸਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਅਤੇ ਇਸਦੀ ਵਰਤੋਂ ਆਟੋਮੈਟਿਕ ਟੈਕਸਟ ਸੰਖੇਪ ਅਤੇ ਹਵਾਲਾ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਹਰੇਕ ਦਸਤਾਵੇਜ਼, ਕੈਚਫ੍ਰੇਜ਼, ਹਵਾਲਾ ਕਲਾਸਾਂ, ਹਵਾਲਾ ਕੈਚਫ੍ਰੇਜ਼, ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।
ਖ਼ਤਰਨਾਕ (ਲਿੰਕ)
Jeopardy dataset 200,000 ਤੋਂ ਵੱਧ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਇੱਕ Reddit ਉਪਭੋਗਤਾ ਦੁਆਰਾ ਇਕੱਠੇ ਕੀਤੇ ਗਏ ਪ੍ਰਸਿੱਧ ਕਵਿਜ਼ ਟੀਵੀ ਸ਼ੋਅ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੇ ਗਏ ਹਨ। ਹਰੇਕ ਡੇਟਾ ਪੁਆਇੰਟ ਨੂੰ ਇਸਦੀ ਪ੍ਰਸਾਰਿਤ ਮਿਤੀ, ਐਪੀਸੋਡ ਨੰਬਰ, ਮੁੱਲ, ਦੌਰ, ਅਤੇ ਸਵਾਲ/ਜਵਾਬ ਦੁਆਰਾ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
20 ਨਿਊਜ਼ ਗਰੁੱਪ (ਲਿੰਕ)
20,000 ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਵਿੱਚ 20 ਸਮਾਚਾਰ ਸਮੂਹਾਂ ਅਤੇ ਵਿਸ਼ਿਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ ਧਰਮ ਤੋਂ ਲੈ ਕੇ ਪ੍ਰਸਿੱਧ ਖੇਡਾਂ ਤੱਕ ਦੇ ਵਿਸ਼ਿਆਂ ਦਾ ਵੇਰਵਾ ਦਿੱਤਾ ਗਿਆ ਹੈ।
ਰਾਇਟਰਜ਼ ਨਿਊਜ਼ ਡਾਟਾਸੈੱਟ (ਲਿੰਕ)
ਪਹਿਲੀ ਵਾਰ 1987 ਵਿੱਚ ਪ੍ਰਗਟ ਹੋਇਆ, ਇਸ ਡੇਟਾਸੈਟ ਨੂੰ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੇ ਉਦੇਸ਼ਾਂ ਲਈ ਲੇਬਲ, ਸੂਚੀਬੱਧ ਅਤੇ ਕੰਪਾਇਲ ਕੀਤਾ ਗਿਆ ਹੈ।
ArXiv (ਲਿੰਕ)
ਇਸ ਮਹੱਤਵਪੂਰਨ 270 GB ਡੇਟਾਸੈਟ ਵਿੱਚ ਸਾਰੇ arXiv ਖੋਜ ਪੱਤਰਾਂ ਦਾ ਪੂਰਾ ਪਾਠ ਸ਼ਾਮਲ ਹੈ।
ਯੂਰਪੀਅਨ ਸੰਸਦ ਦੀ ਕਾਰਵਾਈ ਪੈਰਲਲ ਕਾਰਪਸ (ਲਿੰਕ)
ਸੰਸਦ ਦੀ ਕਾਰਵਾਈ ਦੇ ਵਾਕ ਜੋੜਿਆਂ ਵਿੱਚ 21 ਯੂਰਪੀਅਨ ਭਾਸ਼ਾਵਾਂ ਦੀਆਂ ਐਂਟਰੀਆਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ, ਜੋ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕਾਰਪੋਰਾ ਲਈ ਕੁਝ ਘੱਟ ਆਮ ਭਾਸ਼ਾਵਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਕਰਦੀਆਂ ਹਨ।
ਬਿਲੀਅਨ ਵਰਡ ਬੈਂਚਮਾਰਕ (ਲਿੰਕ)
WMT 2011 ਨਿਊਜ਼ ਕ੍ਰੌਲ ਤੋਂ ਲਿਆ ਗਿਆ, ਇਸ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਡੇਟਾਸੈਟ ਵਿੱਚ ਨਵੀਨਤਾਕਾਰੀ ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ ਤਕਨੀਕਾਂ ਦੀ ਜਾਂਚ ਲਈ ਲਗਭਗ ਇੱਕ ਅਰਬ ਸ਼ਬਦ ਸ਼ਾਮਲ ਹਨ।
ਆਡੀਓ ਸਪੀਚ ਡੇਟਾਸੈੱਟ
ਸਪੋਕਨ ਵਿਕੀਪੀਡੀਆ ਕਾਰਪੋਰਾ (ਲਿੰਕ)
ਇਹ ਡੇਟਾਸੈਟ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਤੋਂ ਪਰੇ ਜਾਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਵਾਲੇ ਹਰੇਕ ਲਈ ਸੰਪੂਰਨ ਹੈ। ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਡੱਚ ਅਤੇ ਜਰਮਨ ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਬੋਲੇ ਜਾਣ ਵਾਲੇ ਲੇਖਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ। ਇਸ ਵਿੱਚ ਵਿਸ਼ਿਆਂ ਦੀ ਵਿਭਿੰਨ ਸ਼੍ਰੇਣੀ ਹੈ ਅਤੇ ਸੈਂਕੜੇ ਘੰਟਿਆਂ ਵਿੱਚ ਚੱਲਣ ਵਾਲੇ ਸਪੀਕਰ ਸੈੱਟ ਹਨ।2000 HUB5 ਅੰਗਰੇਜ਼ੀ (ਲਿੰਕ)
2000 HUB5 ਅੰਗਰੇਜ਼ੀ ਡੇਟਾਸੈਟ ਵਿੱਚ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਵਿੱਚ 40 ਟੈਲੀਫੋਨ ਗੱਲਬਾਤ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਹਨ। ਡੇਟਾ ਨੈਸ਼ਨਲ ਇੰਸਟੀਚਿਊਟ ਆਫ਼ ਸਟੈਂਡਰਡਜ਼ ਐਂਡ ਟੈਕਨਾਲੋਜੀ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਅਤੇ ਇਸਦਾ ਮੁੱਖ ਫੋਕਸ ਗੱਲਬਾਤ ਦੇ ਭਾਸ਼ਣ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਭਾਸ਼ਣ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਣ 'ਤੇ ਹੈ।
LibriSpeech (ਲਿੰਕ)
LibriSpeech ਡੇਟਾਸੈਟ ਲਗਭਗ 1000 ਘੰਟਿਆਂ ਦੀ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਣ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਅਤੇ ਆਡੀਓ ਕਿਤਾਬਾਂ ਦੇ ਅਧਿਆਵਾਂ ਵਿੱਚ ਵਿਸ਼ਿਆਂ ਦੁਆਰਾ ਸਹੀ ਢੰਗ ਨਾਲ ਵੰਡਿਆ ਗਿਆ ਹੈ, ਇਸ ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ ਲਈ ਇੱਕ ਸੰਪੂਰਨ ਸਾਧਨ ਬਣਾਉਂਦਾ ਹੈ।
ਮੁਫਤ ਸਪੋਕਨ ਡਿਜਿਟ ਡੇਟਾਸੈਟ (ਲਿੰਕ)
ਇਸ NLP ਡੇਟਾਸੈਟ ਵਿੱਚ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਬੋਲੇ ਜਾਣ ਵਾਲੇ ਅੰਕਾਂ ਦੀਆਂ 1,500 ਤੋਂ ਵੱਧ ਰਿਕਾਰਡਿੰਗਾਂ ਸ਼ਾਮਲ ਹਨ।
M-AI ਲੈਬਸ ਸਪੀਚ ਡਾਟਾਸੈੱਟ (ਲਿੰਕ)
ਡੈਟਾਸੈੱਟ ਪ੍ਰਤੀਲਿਪੀ ਦੇ ਨਾਲ ਲਗਭਗ 1,000 ਘੰਟਿਆਂ ਦਾ ਆਡੀਓ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਕਈ ਭਾਸ਼ਾਵਾਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ ਅਤੇ ਮਰਦ, ਮਾਦਾ, ਅਤੇ ਮਿਸ਼ਰਤ ਆਵਾਜ਼ਾਂ ਦੁਆਰਾ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।
ਰੌਲੇ-ਰੱਪੇ ਵਾਲਾ ਸਪੀਚ ਡਾਟਾਬੇਸ (ਲਿੰਕ)
ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਸਮਾਨਾਂਤਰ ਰੌਲੇ-ਰੱਪੇ ਵਾਲੇ ਅਤੇ ਸਾਫ਼ ਸਪੀਚ ਰਿਕਾਰਡਿੰਗਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਸਪੀਚ ਇਨਹਾਂਸਮੈਂਟ ਸੌਫਟਵੇਅਰ ਡਿਵੈਲਪਮੈਂਟ ਲਈ ਹੈ ਪਰ ਚੁਣੌਤੀਪੂਰਨ ਸਥਿਤੀਆਂ ਵਿੱਚ ਭਾਸ਼ਣ ਦੀ ਸਿਖਲਾਈ ਲਈ ਵੀ ਫਾਇਦੇਮੰਦ ਹੈ।
ਸਮੀਖਿਆਵਾਂ ਡੇਟਾਸੈੱਟ
ਯੈਲਪ ਸਮੀਖਿਆਵਾਂ (ਲਿੰਕ)
ਯੈਲਪ ਡੇਟਾਸੇਟ ਵਿੱਚ 8.5 ਤੋਂ ਵੱਧ ਕਾਰੋਬਾਰਾਂ ਦੀਆਂ ਲਗਭਗ 160,000 ਮਿਲੀਅਨ ਸਮੀਖਿਆਵਾਂ, ਉਹਨਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ, ਅਤੇ ਉਪਭੋਗਤਾ ਡੇਟਾ ਦਾ ਇੱਕ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਹੈ। ਸਮੀਖਿਆਵਾਂ ਦੀ ਵਰਤੋਂ ਤੁਹਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਭਾਵਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਅੱਠ ਮਹਾਨਗਰ ਸਥਾਨਾਂ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੀਆਂ 200,000 ਤੋਂ ਵੱਧ ਤਸਵੀਰਾਂ ਹਨ।
IMDB ਸਮੀਖਿਆਵਾਂ (ਲਿੰਕ)
IMDB ਸਮੀਖਿਆਵਾਂ 50 ਹਜ਼ਾਰ ਤੋਂ ਵੱਧ ਫਿਲਮਾਂ ਲਈ ਕਾਸਟ ਜਾਣਕਾਰੀ, ਰੇਟਿੰਗਾਂ, ਵਰਣਨ ਅਤੇ ਸ਼ੈਲੀ ਵਾਲੇ ਸਭ ਤੋਂ ਪ੍ਰਸਿੱਧ ਡੇਟਾਸੇਟਾਂ ਵਿੱਚੋਂ ਹਨ। ਇਹ ਡੇਟਾਸੈਟ ਤੁਹਾਡੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਅਤੇ ਸਿਖਲਾਈ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆਵਾਂ ਅਤੇ ਰੇਟਿੰਗਾਂ ਡੇਟਾਸੈਟ (ਲਿੰਕ)
ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆ ਅਤੇ ਰੇਟਿੰਗ ਡੇਟਾਸੈਟ ਵਿੱਚ 1996 ਤੋਂ 2014 ਤੱਕ ਇਕੱਤਰ ਕੀਤੇ ਮੈਟਾਡੇਟਾ ਅਤੇ ਐਮਾਜ਼ਾਨ ਤੋਂ ਵੱਖ-ਵੱਖ ਉਤਪਾਦਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਦਾ ਇੱਕ ਕੀਮਤੀ ਸੰਗ੍ਰਹਿ ਹੈ - ਲਗਭਗ 142.8 ਮਿਲੀਅਨ ਰਿਕਾਰਡ। ਮੈਟਾਡੇਟਾ ਵਿੱਚ ਕੀਮਤ, ਉਤਪਾਦ ਵਰਣਨ, ਬ੍ਰਾਂਡ, ਸ਼੍ਰੇਣੀ, ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਸਮੀਖਿਆਵਾਂ ਵਿੱਚ ਟੈਕਸਟ ਗੁਣਵੱਤਾ, ਟੈਕਸਟ ਦੀ ਉਪਯੋਗਤਾ, ਰੇਟਿੰਗਾਂ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ।
ਸਵਾਲ ਅਤੇ ਜਵਾਬ ਡੇਟਾਸੈੱਟ
ਸਟੈਨਫੋਰਡ ਪ੍ਰਸ਼ਨ ਅਤੇ ਉੱਤਰ ਡੇਟਾਸੈਟ (SQAD) (ਲਿੰਕ)
ਇਸ ਰੀਡਿੰਗ ਸਮਝ ਡੇਟਾਸੈਟ ਵਿੱਚ 100,000 ਜਵਾਬਦੇਹ ਸਵਾਲ ਅਤੇ 50,000 ਜਵਾਬ ਨਾ ਦੇਣ ਯੋਗ ਸਵਾਲ ਹਨ, ਜੋ ਸਾਰੇ ਵਿਕੀਪੀਡੀਆ ਭੀੜ ਕਰਮਚਾਰੀਆਂ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਹਨ।
ਕੁਦਰਤੀ ਸਵਾਲ (ਲਿੰਕ)
ਇਸ ਸਿਖਲਾਈ ਸੈੱਟ ਵਿੱਚ 300,000 ਤੋਂ ਵੱਧ ਸਿਖਲਾਈ ਉਦਾਹਰਨਾਂ, 7,800 ਵਿਕਾਸ ਉਦਾਹਰਨਾਂ, ਅਤੇ 7,800 ਟੈਸਟ ਉਦਾਹਰਨਾਂ ਹਨ, ਹਰ ਇੱਕ Google ਪੁੱਛਗਿੱਛ ਅਤੇ ਇੱਕ ਮੇਲ ਖਾਂਦਾ ਵਿਕੀਪੀਡੀਆ ਪੰਨਾ ਹੈ।
TriviaQA (ਲਿੰਕ)
ਇਸ ਚੁਣੌਤੀਪੂਰਨ ਪ੍ਰਸ਼ਨ ਸੈੱਟ ਵਿੱਚ 950,000 QA ਜੋੜੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਮਨੁੱਖੀ-ਪ੍ਰਮਾਣਿਤ ਅਤੇ ਮਸ਼ੀਨ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਸਬਸੈੱਟ ਸ਼ਾਮਲ ਹਨ।
CLEVR (ਰਚਨਾਤਮਕ ਭਾਸ਼ਾ ਅਤੇ ਐਲੀਮੈਂਟਰੀ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ) (ਲਿੰਕ)
ਇਹ ਵਿਜ਼ੂਅਲ ਸਵਾਲ ਜਵਾਬ ਦੇਣ ਵਾਲੇ ਡੇਟਾਸੈਟ ਵਿੱਚ 3D ਰੈਂਡਰ ਕੀਤੀਆਂ ਵਸਤੂਆਂ ਅਤੇ ਵਿਜ਼ੂਅਲ ਸੀਨ ਬਾਰੇ ਵੇਰਵਿਆਂ ਵਾਲੇ ਹਜ਼ਾਰਾਂ ਸਵਾਲ ਸ਼ਾਮਲ ਹਨ।
ਤਾਂ, ਤੁਸੀਂ ਆਪਣੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕਿਹੜਾ ਡੇਟਾਸੈਟ ਚੁਣਿਆ ਹੈ?
ਜਿਵੇਂ ਅਸੀਂ ਜਾਂਦੇ ਹਾਂ, ਅਸੀਂ ਤੁਹਾਡੇ ਨਾਲ ਛੱਡ ਦਿਆਂਗੇ ਪ੍ਰੋ-ਟਿਪ.
ਆਪਣੀਆਂ ਜ਼ਰੂਰਤਾਂ ਲਈ ਇੱਕ NLP ਡੇਟਾਸੈਟ ਨੂੰ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ README ਫਾਈਲ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਜਾਣਨਾ ਯਕੀਨੀ ਬਣਾਓ। ਡੇਟਾਸੈਟ ਵਿੱਚ ਉਹ ਸਾਰੀ ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੋਵੇਗੀ ਜਿਸਦੀ ਤੁਹਾਨੂੰ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਡੇਟਾਸੈਟ ਦੀ ਸਮੱਗਰੀ, ਵੱਖ-ਵੱਖ ਮਾਪਦੰਡ ਜਿਨ੍ਹਾਂ 'ਤੇ ਡੇਟਾ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਗਿਆ ਹੈ, ਅਤੇ ਡੇਟਾਸੈਟ ਦੇ ਸੰਭਾਵਿਤ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ।
ਤੁਹਾਡੇ ਦੁਆਰਾ ਬਣਾਏ ਗਏ ਮਾਡਲਾਂ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਸਾਡੀਆਂ ਮਸ਼ੀਨਾਂ ਨੂੰ ਸਾਡੀਆਂ ਜ਼ਿੰਦਗੀਆਂ ਨਾਲ ਹੋਰ ਨਜ਼ਦੀਕੀ ਅਤੇ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਜੋੜਨ ਦੀ ਇੱਕ ਦਿਲਚਸਪ ਸੰਭਾਵਨਾ ਹੈ। NLP ਦੇ ਨਾਲ, ਕਾਰੋਬਾਰ, ਫਿਲਮਾਂ, ਬੋਲੀ ਮਾਨਤਾ, ਵਿੱਤ ਅਤੇ ਹੋਰ ਲਈ ਸੰਭਾਵਨਾਵਾਂ ਕਈ ਗੁਣਾ ਵੱਧ ਗਈਆਂ ਹਨ।


