ਡਾਟਾਸੈੱਟ ਖੋਲ੍ਹੋ
ਓਪਨ ਸੋਰਸ ਡੇਟਾਸੇਟਸ ਦੀ ਖੋਜ ਕਰੋ ਜੋ ਤੁਹਾਨੂੰ ML ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਜਾ ਰਹੇ ਹਨ
AI/ML ਮਾਡਲਾਂ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨ ਲਈ ਓਪਨ ਸੋਰਸ ਡੇਟਾਸੇਟਸ
ਤੁਹਾਡੇ AI ਅਤੇ ML ਮਾਡਲਾਂ ਦਾ ਆਉਟਪੁੱਟ ਓਨਾ ਹੀ ਵਧੀਆ ਹੈ ਜਿੰਨਾ ਡੇਟਾ ਤੁਸੀਂ ਇਸ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਵਰਤਦੇ ਹੋ - ਇਸ ਲਈ ਜੋ ਸ਼ੁੱਧਤਾ ਤੁਸੀਂ ਡੇਟਾ ਏਕੀਕਰਣ ਅਤੇ ਟੈਗਿੰਗ ਅਤੇ ਉਸ ਡੇਟਾ ਦੀ ਪਛਾਣ ਲਈ ਲਾਗੂ ਕਰਦੇ ਹੋ, ਮਹੱਤਵਪੂਰਨ ਹੈ!
ਇਸ ਲਈ ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਨਵੀਂ AI/ML ਪਹਿਲਕਦਮੀ ਸ਼ੁਰੂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ ਅਤੇ ਹੁਣ ਤੁਸੀਂ ਜਲਦੀ ਇਹ ਮਹਿਸੂਸ ਕਰ ਰਹੇ ਹੋ ਕਿ ਉੱਚ-ਗੁਣਵੱਤਾ ਸਿਖਲਾਈ ਡੇਟਾ ਲੱਭਣਾ ਤੁਹਾਡੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਵਧੇਰੇ ਚੁਣੌਤੀਪੂਰਨ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ ਹੋਵੇਗਾ ਕਿਉਂਕਿ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਡੇਟਾਸੈੱਟ ਉਹ ਬਾਲਣ ਹਨ ਜੋ AI/ ML ਇੰਜਣ ਚੱਲ ਰਿਹਾ ਹੈ। ਅਸੀਂ ਓਪਨ ਡੇਟਾਸੈਟਾਂ ਦੀ ਇੱਕ ਸੂਚੀ ਇਕੱਠੀ ਕੀਤੀ ਹੈ ਜੋ ਭਵਿੱਖ ਦੇ ਤੁਹਾਡੇ AI/ML ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਅਤੇ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਸੁਤੰਤਰ ਹਨ।
| ਵਿਸ਼ੇਸ਼ਤਾ | ਡਾਟਾ ਕਿਸਮ | ਡਾਟਾਸੈਟ ਦਾ ਨਾਮ | ਉਦਯੋਗ / ਵਿਭਾਗ | ਐਨੋਟੇਸ਼ਨ/ਵਰਤੋਂ ਕੇਸ | ਲਿੰਕ |
|---|---|---|---|---|---|
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆ | ਈ-ਕਾਮਰਸ | ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਉਪਭੋਗਤਾ ਅਤੇ ਉਤਪਾਦ ਵੇਰਵਿਆਂ ਦੇ ਨਾਲ ਸਾਦੇ ਟੈਕਸਟ ਵਿੱਚ ਪਿਛਲੇ 35 ਸਾਲਾਂ ਤੋਂ 18 ਮਿਲੀਅਨ ਸਮੀਖਿਆਵਾਂ ਅਤੇ ਰੇਟਿੰਗਾਂ ਦਾ ਇੱਕ ਸੈੱਟ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਵਿਕੀਪੀਡੀਆ ਲਿੰਕਸ ਡੇਟਾ | ਜਨਰਲ | ਲਿੰਕ | |
| ਵੇਰਵਾ | ਵਿਕੀਪੀਡੀਆ ਤੋਂ 1.9 ਬਿਲੀਅਨ ਸ਼ਬਦ ਵਾਲੇ 4 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਲੇਖ। ਹਰੇਕ ਲੇਖ ਵਿੱਚ ਸੰਬੰਧਿਤ ਇਕਾਈ ਲਈ ਹਾਈਪਰਲਿੰਕ ਹੁੰਦੇ ਹਨ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਸਟੈਂਡਫੋਰਡ ਸੈਂਟੀਮੈਂਟ ਟ੍ਰੀਬੈਂਕ | ਮਨੋਰੰਜਨ | ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | 10,000 ਤੋਂ ਵੱਧ ਰੋਟਨ ਟੋਮੈਟੋਜ਼ ਮੂਵੀ ਸਮੀਖਿਆ ਵਾਕਾਂ ਲਈ ਭਾਵਨਾ ਐਨੋਟੇਸ਼ਨ ਡੇਟਾਸੈਟ। ਵਾਕਾਂਸ਼ ਪੱਧਰ 'ਤੇ ਉਪਲਬਧ - ਹਰੇਕ ਵਾਕ ਨੂੰ ਪੈੱਨ ਟ੍ਰੀਬੈਂਕ ਫਾਰਮੈਟ ਵਿੱਚ ਪਾਰਸ ਟ੍ਰੀਜ਼ ਨੂੰ ਬਾਈਨਰਾਈਜ਼ ਕਰਕੇ ਉਪ-ਵਾਕਾਂਸ਼ਾਂ ਵਿੱਚ ਪਾਰਸ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਟਵਿੱਟਰ ਯੂਐਸ ਏਅਰਲਾਈਨ ਭਾਵਨਾ | ਏਅਰਲਾਈਨ | ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | 2015 ਵਿੱਚ ਯੂਐਸ ਏਅਰਲਾਈਨਜ਼ ਬਾਰੇ ਕੀਤੇ ਗਏ ਟਵੀਟ ਸਕਾਰਾਤਮਕ, ਨਿਰਪੱਖ ਅਤੇ ਨਕਾਰਾਤਮਕ ਭਾਵਨਾਵਾਂ ਵਿੱਚ ਵੰਡੇ ਗਏ। | ||||
| +CV | ਚਿੱਤਰ | ਇਮੇਜਨੈੱਟ | ਜਨਰਲ | ਲਿੰਕ | |
| ਵੇਰਵਾ | ਵੱਖ-ਵੱਖ ਫਾਈਲ ਫਾਰਮੈਟਾਂ ਵਿੱਚ 14 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਚਿੱਤਰਾਂ ਵਾਲਾ ਡੇਟਾਸੈੱਟ ਲਗਭਗ 21,000 ਸਿੰਸੈਟਾਂ ਨਾਲ ਮੈਪ ਕੀਤਾ ਗਿਆ ਹੈ। ਸਿੰਸੈਟਾਂ ਇੱਕ ਚਿੱਤਰ ਦੇ ਰੂਪ ਵਿੱਚ ਮੌਜੂਦ ਸੰਬੰਧਿਤ ਇਕਾਈਆਂ ਦੇ ਨਾਲ ਸਿੰਨੋਮਾਈਮ ਹਨ। 1 ਮਿਲੀਅਨ ਚਿੱਤਰਾਂ ਵਿੱਚ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਹੁੰਦੇ ਹਨ ਅਤੇ 1 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਚਿੱਤਰਾਂ ਵਿੱਚ SIFT ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ। | ||||
| +CV | ਚਿੱਤਰ | ਗੂਗਲ ਦੇ ਓਪਨ ਚਿੱਤਰ | ਜਨਰਲ | ਲਿੰਕ | |
| ਵੇਰਵਾ | 600 ਸ਼੍ਰੇਣੀਆਂ ਵਾਲਾ ਇਮੇਜਨੈੱਟ ਵਰਗਾ ਡੇਟਾਸੈੱਟ। ਵਿਕਾਸ, ਪ੍ਰਮਾਣਿਕਤਾ ਅਤੇ ਸਿਖਲਾਈ ਵੰਡਾਂ ਵਿੱਚ ਉਪਲਬਧ। ਕੁਝ ਤਸਵੀਰਾਂ ਵਿੱਚ ਬਾਊਂਡਿੰਗ ਬਾਕਸ ਅਤੇ ਵਿਜ਼ੂਅਲ ਸਬੰਧ ਵੀ ਸ਼ਾਮਲ ਹਨ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਕਾਰਨੇਲ ਮੂਵੀ ਡਾਇਲਾਗ | ਮਨੋਰੰਜਨ | ਸੰਵਾਦ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਕਾਲਪਨਿਕ ਗੱਲਬਾਤਾਂ ਦਾ ਸੰਗ੍ਰਹਿ, ਪਾਤਰਾਂ ਅਤੇ ਫਿਲਮਾਂ ਦੇ ਮੈਟਾਡੇਟਾ ਦੇ ਨਾਲ। ਹਰੇਕ ਕਤਾਰ ਦੋ ਲੋਕਾਂ ਵਿਚਕਾਰ ਇੱਕ ਸੰਵਾਦ ਹੈ, ਇੱਕ ਸਵਾਲ-ਜਵਾਬ ਫਾਰਮੈਟ ਵਿੱਚ। | ||||
| ਵੇਰਵਾ | ਅਪ੍ਰੈਲ 2007 ਅਤੇ ਅਕਤੂਬਰ 2007 ਦੇ ਵਿਚਕਾਰ ਯਾਹੂ ਜਵਾਬ ਪੋਰਟਲ ਤੋਂ ਸਵਾਲਾਂ ਅਤੇ ਜਵਾਬਾਂ ਵਾਲਾ ਇੱਕ ਸਵਾਲ-ਜਵਾਬ ਡੇਟਾਸੈੱਟ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਐਮਐਸ ਮਾਰਕੋ | ਜਨਰਲ | ਸਵਾਲ ਜਵਾਬ | ਲਿੰਕ |
| ਵੇਰਵਾ | Bing ਦੇ ਵੈੱਬ ਖੋਜ ਲੌਗਾਂ ਤੋਂ ਐਨੋਟੇਸ਼ਨਾਂ ਵਾਲਾ ਇੱਕ ਸਵਾਲ-ਜਵਾਬ ਡੇਟਾਸੈਟ। ਹਰੇਕ ਸਵਾਲ ਵਿੱਚ ਇੱਕ ਉਪਭੋਗਤਾ ਵੱਲੋਂ ਦਿੱਤਾ ਗਿਆ ਜਵਾਬ ਹੁੰਦਾ ਹੈ, ਨਾਲ ਹੀ ਵੈੱਬ ਪੈਰੇ ਵੀ ਹੁੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਜਵਾਬ ਹੁੰਦਾ ਹੈ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਕੁਦਰਤੀ ਪ੍ਰਸ਼ਨ ਡੇਟਾਸੈੱਟ | ਜਨਰਲ | ਸਵਾਲ ਜਵਾਬ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਗੂਗਲ ਦੁਆਰਾ ਜਾਰੀ ਕੀਤਾ ਗਿਆ, ਇਸ ਡੇਟਾਸੈੱਟ ਵਿੱਚ ਵਿਕੀਪੀਡੀਆ ਲੇਖਾਂ ਤੋਂ ਅਸਲ ਉਪਭੋਗਤਾ ਸਵਾਲ ਅਤੇ ਜਵਾਬ ਸ਼ਾਮਲ ਹਨ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਡੀਬੀਪੀਡੀਆ | ਜਨਰਲ | ਗਿਆਨ ਗ੍ਰਾਫ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਵਿਕੀਪੀਡੀਆ ਦੀ ਇੱਕ ਢਾਂਚਾਗਤ ਰੈਂਡਰਿੰਗ, ਜਿਸ ਵਿੱਚ ਇਕਾਈਆਂ ਅਤੇ ਸਬੰਧਾਂ ਨੂੰ ਗਿਆਨ ਗ੍ਰਾਫ਼ ਦੇ ਰੂਪ ਵਿੱਚ ਕੱਢਿਆ ਗਿਆ ਹੈ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਯਾਗੋ | ਜਨਰਲ | ਗਿਆਨ ਗ੍ਰਾਫ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਇੱਕ ਗਿਆਨ ਗ੍ਰਾਫ ਜਿਸ ਵਿੱਚ ਵਿਕੀਪੀਡੀਆ, ਵਰਡਨੈੱਟ, ਅਤੇ ਜੀਓਨੇਮਸ ਤੋਂ ਇਕਾਈਆਂ ਅਤੇ ਸਬੰਧ ਸ਼ਾਮਲ ਹਨ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਫ੍ਰੀਬੇਸ | ਜਨਰਲ | ਗਿਆਨ ਗ੍ਰਾਫ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਇੱਕ ਭੀੜ-ਸਰੋਤ ਗਿਆਨ ਅਧਾਰ ਜਿਸ ਵਿੱਚ ਇਕਾਈਆਂ ਅਤੇ ਸਬੰਧ ਸ਼ਾਮਲ ਹਨ, ਹੁਣ Google ਗਿਆਨ ਗ੍ਰਾਫ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤਾ ਗਿਆ ਹੈ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਓਨਟੋਨੋਟਸ | ਜਨਰਲ | ਸਿਮੈਂਟਿਕ ਰੋਲ ਲੇਬਲਿੰਗ | ਲਿੰਕ |
| ਵੇਰਵਾ | CoNLL ਸਾਂਝੇ ਕੰਮਾਂ ਵਿੱਚ ਵਰਤੇ ਗਏ ਸਿੰਟੈਕਟਿਕ, ਸਿਮੈਂਟਿਕ, ਅਤੇ ਡਿਸਕੋਰਸ-ਪੱਧਰ ਦੇ ਐਨੋਟੇਸ਼ਨਾਂ ਵਾਲਾ ਇੱਕ ਸੰਗ੍ਰਹਿ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਸੀਓਐਨਐਲਐਲ 2003 | ਜਨਰਲ | ਨਾਮ ਇਕਾਈ ਦੀ ਪਛਾਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਇੱਕ ਅੰਗਰੇਜ਼ੀ ਡੇਟਾਸੈੱਟ ਜੋ ਵਿਅਕਤੀ, ਸੰਗਠਨ, ਅਤੇ ਸਥਾਨ ਵਰਗੀਆਂ ਨਾਮੀ ਇਕਾਈਆਂ ਲਈ ਐਨੋਟੇਟ ਕੀਤਾ ਗਿਆ ਹੈ। | ||||
| +CV | ਚਿੱਤਰ | Coco | ਜਨਰਲ | ਆਬਜੈਕਟ ਖੋਜ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਸੰਦਰਭ ਵਿੱਚ ਆਮ ਵਸਤੂਆਂ: ਵਸਤੂ ਖੋਜ, ਵਿਭਾਜਨ, ਅਤੇ ਸੁਰਖੀ ਬਣਾਉਣ ਲਈ ਇੱਕ ਭਰਪੂਰ ਐਨੋਟੇਟਿਡ ਡੇਟਾਸੈੱਟ। | ||||
| +CV | ਚਿੱਤਰ | ਪਾਸਕਲ ਵੀਓਸੀ | ਜਨਰਲ | ਆਬਜੈਕਟ ਖੋਜ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਵਸਤੂ ਖੋਜ ਅਤੇ ਵਿਭਾਜਨ ਚੁਣੌਤੀਆਂ ਲਈ ਇੱਕ ਬੈਂਚਮਾਰਕ ਡੇਟਾਸੈੱਟ। | ||||
| +CV | ਚਿੱਤਰ | ਸਿਟੀਸਕੇਪਸ | ਆਟੋਨੋਮਸ ਡਰਾਈਵਿੰਗ | ਸਿਮੈਂਟਿਕ ਸੈਗਮੈਂਟੇਸ਼ਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | 30 ਕਲਾਸਾਂ ਲਈ ਪਿਕਸਲ-ਪੱਧਰੀ ਐਨੋਟੇਸ਼ਨਾਂ ਦੇ ਨਾਲ ਸ਼ਹਿਰੀ ਦ੍ਰਿਸ਼ ਸਮਝ ਲਈ ਡੇਟਾਸੈੱਟ। | ||||
| +CV | ਚਿੱਤਰ | MNIST | ਜਨਰਲ | ਅੰਕ ਵਰਗੀਕਰਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | 28x28 ਪਿਕਸਲ ਦੇ 60,000 ਸਿਖਲਾਈ ਅਤੇ 10,000 ਟੈਸਟ ਚਿੱਤਰਾਂ ਵਾਲਾ ਹੱਥ ਲਿਖਤ ਅੰਕ ਡੇਟਾਸੈਟ। | ||||
| +CV | ਚਿੱਤਰ | ਫੈਸ਼ਨ-ਐਮਐਨਆਈਐਸਟੀ | ਪਰਚੂਨ | ਚਿੱਤਰ ਵਰਗੀਕਰਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਜ਼ਲੈਂਡੋ ਦੇ ਲੇਖ ਚਿੱਤਰਾਂ ਦਾ ਡੇਟਾਸੈੱਟ MNIST ਦੇ ਫਾਰਮੈਟ ਵਿੱਚ, ਬੈਂਚਮਾਰਕਿੰਗ ਲਈ ਇੱਕ ਡ੍ਰੌਪ-ਇਨ ਰਿਪਲੇਸਮੈਂਟ ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਆਡੀਓ | LibriSpeech | ਜਨਰਲ | ASR | ਲਿੰਕ |
| ਵੇਰਵਾ | ਆਡੀਓਬੁੱਕਾਂ ਤੋਂ ਪ੍ਰਾਪਤ ਪੜ੍ਹੇ ਗਏ ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਣ ਦਾ ਇੱਕ ਸੰਗ੍ਰਹਿ, 1000 ਘੰਟੇ ਦੇ ਭਾਸ਼ਣ ਅਤੇ ਸੰਬੰਧਿਤ ਟੈਕਸਟ ਦੇ ਨਾਲ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਆਡੀਓ | ਟੈੱਡ-ਲੀਅਮ | ਜਨਰਲ | ASR | ਲਿੰਕ |
| ਵੇਰਵਾ | ਬੋਲੀ ਪਛਾਣ ਖੋਜ ਲਈ ਆਡੀਓ ਅਤੇ ਇਕਸਾਰ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨਾਂ ਦੇ ਨਾਲ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬਡ TED ਗੱਲਬਾਤ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਆਡੀਓ | ਟਿਮਿਟ | ਜਨਰਲ | ਫੋਨੇਮ ਪਛਾਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਅਮਰੀਕੀ ਅੰਗਰੇਜ਼ੀ ਬੋਲਣ ਵਾਲਿਆਂ ਦੀ ਧੁਨੀ-ਸੰਕੇਤਿਕ ਤੌਰ 'ਤੇ ਲਿਪੀਬੱਧ ਬੋਲੀ, ਜੋ ਕਿ ਧੁਨੀ ਪਛਾਣ ਦੇ ਕੰਮਾਂ ਲਈ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਆਡੀਓ | ਆਮ ਆਵਾਜ਼ | ਜਨਰਲ | ASR | ਲਿੰਕ |
| ਵੇਰਵਾ | ਦੁਨੀਆ ਭਰ ਦੇ ਵਲੰਟੀਅਰਾਂ ਦੁਆਰਾ ਪਾਏ ਗਏ ਪੜ੍ਹੇ ਗਏ ਭਾਸ਼ਣਾਂ ਦਾ ਇੱਕ ਬਹੁ-ਭਾਸ਼ਾਈ ਸੰਗ੍ਰਹਿ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਆਡੀਓ | VoxCeleb | ਜਨਰਲ | ਸਪੀਕਰ ਪਛਾਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਯੂਟਿਊਬ ਵੀਡੀਓਜ਼ ਤੋਂ ਇਕੱਤਰ ਕੀਤਾ ਗਿਆ ਇੱਕ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਸਪੀਕਰ ਪਛਾਣ ਡੇਟਾਸੈਟ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਵਿਕੀਪੀਡੀਆ ਡੰਪ | ਜਨਰਲ | ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਵਿਕੀਪੀਡੀਆ ਲੇਖਾਂ ਦੇ ਪੂਰੇ ਟੈਕਸਟ ਡੰਪ, ਨਿਯਮਿਤ ਤੌਰ 'ਤੇ ਅਪਡੇਟ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਜੋ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਗੀਗਾਵਰਡ | ਖ਼ਬਰਾਂ - HUASHIL | ਭਾਸ਼ਾ ਮਾਡਲਿੰਗ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਕਈ ਨਿਊਜ਼ ਏਜੰਸੀਆਂ ਤੋਂ ਨਿਊਜ਼ਵਾਇਰ ਟੈਕਸਟ ਡੇਟਾ ਦਾ ਇੱਕ ਵਿਆਪਕ ਪੁਰਾਲੇਖ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | IMDB ਸਮੀਖਿਆਵਾਂ | ਮਨੋਰੰਜਨ | ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਬਾਈਨਰੀ ਭਾਵਨਾ ਵਰਗੀਕਰਨ ਲਈ ਵੱਡਾ ਮੂਵੀ ਸਮੀਖਿਆ ਡੇਟਾਸੈਟ। | ||||
| +CV | ਵੀਡੀਓ | ਕੀਨੇਟਿਕਸ - 700 | ਜਨਰਲ | ਕਾਰਵਾਈ ਮਾਨਤਾ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਯੂਟਿਊਬ ਵੀਡੀਓ ਕਲਿੱਪਾਂ ਦਾ ਇੱਕ ਵੱਡੇ ਪੱਧਰ 'ਤੇ, ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਡੇਟਾਸੈਟ ਜੋ 700 ਮਨੁੱਖੀ ਕਿਰਿਆ ਕਲਾਸਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। | ||||
| +CV | ਵੀਡੀਓ | ਯੂਸੀਐਫ 101 | ਜਨਰਲ | ਕਾਰਵਾਈ ਮਾਨਤਾ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਯਥਾਰਥਵਾਦੀ ਐਕਸ਼ਨ ਵੀਡੀਓਜ਼ ਦਾ ਇੱਕ ਡੇਟਾਸੈੱਟ, 101 ਐਕਸ਼ਨ ਸ਼੍ਰੇਣੀਆਂ ਦੇ ਨਾਲ। | ||||
| +CV | ਵੀਡੀਓ | ਐਚਐਮਡੀਬੀ51 | ਜਨਰਲ | ਕਾਰਵਾਈ ਮਾਨਤਾ | ਲਿੰਕ |
| ਵੇਰਵਾ | 51 ਐਕਸ਼ਨ ਸ਼੍ਰੇਣੀਆਂ ਵਾਲਾ ਇੱਕ ਵੱਡਾ ਮਨੁੱਖੀ ਗਤੀ ਵੀਡੀਓ ਡੇਟਾਬੇਸ। | ||||
| ਵੇਰਵਾ | ਚਿਹਰੇ ਦੀਆਂ ਤਸਵੀਰਾਂ ਦਾ ਇੱਕ ਡੇਟਾਬੇਸ ਜੋ ਬੇਰੋਕ ਚਿਹਰੇ ਦੀ ਪਛਾਣ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। | ||||
| +CV | ਚਿੱਤਰ | CASIA-ਵੈੱਬਫੇਸ | ਜਨਰਲ | ਚਿਹਰਾ ਪਛਾਣ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਡੂੰਘੀ ਚਿਹਰਾ ਪਛਾਣ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਲੱਖਾਂ ਚਿਹਰੇ ਦੀਆਂ ਤਸਵੀਰਾਂ ਵਾਲਾ ਡੇਟਾਸੈਟ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਸਕੁਐਡ | ਜਨਰਲ | ਸਮਝ ਪੜਨਾ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਸਟੈਨਫੋਰਡ ਪ੍ਰਸ਼ਨ ਉੱਤਰ ਡੇਟਾਸੈੱਟ: ਵਿਕੀਪੀਡੀਆ ਲੇਖਾਂ ਦੇ ਸੈੱਟ 'ਤੇ ਭੀੜ-ਵਰਕਰਾਂ ਦੁਆਰਾ ਪੁੱਛੇ ਗਏ ਸਵਾਲ। | ||||
| ਵੇਰਵਾ | ਸੀਐਨਐਨ ਨਿਊਜ਼ ਲੇਖਾਂ 'ਤੇ ਆਧਾਰਿਤ ਸਵਾਲਾਂ ਅਤੇ ਜਵਾਬਾਂ ਵਾਲਾ ਇੱਕ ਮਸ਼ੀਨ ਸਮਝ ਡੇਟਾਸੈੱਟ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਮਲਟੀਐਨਐਲਆਈ | ਜਨਰਲ | ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਅਨੁਮਾਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਕਈ ਸ਼ੈਲੀਆਂ ਵਿੱਚ ਵਾਕ-ਜੋੜੇ ਦੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਅਨੁਮਾਨ ਲਈ ਇੱਕ ਡੇਟਾਸੈਟ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | ਐਸਐਨਐਲਆਈ | ਜਨਰਲ | ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਅਨੁਮਾਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਸਟੈਨਫੋਰਡ ਨੈਚੁਰਲ ਲੈਂਗੂਏਜ ਇਨਫਰੈਂਸ ਕਾਰਪਸ ਜਿਸ ਵਿੱਚ ਵਾਕ ਜੋੜਿਆਂ ਨੂੰ ਐਂਟੇਲਮੈਂਟ, ਵਿਰੋਧਾਭਾਸ, ਜਾਂ ਨਿਰਪੱਖ ਵਜੋਂ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਹੈ। | ||||
| ਵੇਰਵਾ | ਵਿਕੀਪੀਡੀਆ 'ਤੇ ਪ੍ਰਮਾਣਿਤ ਚੰਗੇ ਅਤੇ ਫੀਚਰਡ ਲੇਖਾਂ ਦੇ ਸੈੱਟ ਤੋਂ ਕੱਢੇ ਗਏ 100 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਟੋਕਨਾਂ ਦਾ ਸੰਗ੍ਰਹਿ। | ||||
| ਵੇਰਵਾ | ਕਾਰਾਂ ਦੀਆਂ 196 ਸ਼੍ਰੇਣੀਆਂ ਦੀਆਂ 16,185 ਤਸਵੀਰਾਂ ਦਾ ਡੇਟਾਸੈਟ। | ||||
| +CV | ਚਿੱਤਰ | ਆਕਸਫੋਰਡ ਫੁੱਲ 102 | ਬਾਟਨੀ | ਸੂਖਮ-ਦਾਣੇ ਵਾਲਾ ਵਰਗੀਕਰਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਯੂਨਾਈਟਿਡ ਕਿੰਗਡਮ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਮਿਲਣ ਵਾਲੇ 102 ਫੁੱਲਾਂ ਦੀਆਂ ਸ਼੍ਰੇਣੀਆਂ। | ||||
| +CV | ਚਿੱਤਰ | CIFAR-10 | ਜਨਰਲ | ਚਿੱਤਰ ਵਰਗੀਕਰਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | 10 ਵਰਗਾਂ ਦੀਆਂ ਤਸਵੀਰਾਂ: ਹਵਾਈ ਜਹਾਜ਼, ਆਟੋਮੋਬਾਈਲ, ਪੰਛੀ, ਬਿੱਲੀ, ਹਿਰਨ, ਕੁੱਤਾ, ਡੱਡੂ, ਘੋੜਾ, ਜਹਾਜ਼ ਅਤੇ ਟਰੱਕ। | ||||
| +CV | ਚਿੱਤਰ | CIFAR-100 | ਜਨਰਲ | ਚਿੱਤਰ ਵਰਗੀਕਰਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | CIFAR-10 ਵਰਗਾ ਇੱਕ ਡੇਟਾਸੈੱਟ, ਪਰ 100 ਬਰੀਕ-ਗ੍ਰੇਨਡ ਕਲਾਸਾਂ ਦੇ ਨਾਲ। | ||||
| +CV | ਚਿੱਤਰ | VOC ਵਿਅਕਤੀ ਲੇਆਉਟ | ਜਨਰਲ | ਪੋਜ਼ ਅਨੁਮਾਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | PASCAL VOC ਦਾ ਹਿੱਸਾ ਜੋ ਸਿਰ, ਹੱਥ ਅਤੇ ਪੈਰ ਵਰਗੇ ਵਿਅਕਤੀਆਂ ਦੇ ਲੇਆਉਟ ਐਨੋਟੇਸ਼ਨਾਂ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ। | ||||
| +CV | ਚਿੱਤਰ | MPII ਮਨੁੱਖੀ ਪੋਜ਼ | ਜਨਰਲ | ਪੋਜ਼ ਅਨੁਮਾਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | ਲਗਭਗ 25,000 ਤਸਵੀਰਾਂ ਜਿਨ੍ਹਾਂ ਵਿੱਚ 40,000 ਤੋਂ ਵੱਧ ਲੋਕ ਹਨ ਜਿਨ੍ਹਾਂ ਦੇ ਸਰੀਰ ਦੇ ਜੋੜਾਂ ਦੀ ਵਿਆਖਿਆ ਕੀਤੀ ਗਈ ਹੈ। | ||||
| ਵੇਰਵਾ | ਟੈਕਸਟ ਵਰਗੀਕਰਨ ਖੋਜ ਲਈ ਰਾਇਟਰਜ਼ ਨਿਊਜ਼ਵਾਇਰ ਲੇਖਾਂ ਦਾ ਸੰਗ੍ਰਹਿ। | ||||
| +ਐਨ ਐਲ ਪੀ | ਪਾਠ | 20 ਨਿਊਜ਼ ਗਰੁੱਪ | ਜਨਰਲ | ਟੈਕਸਟ ਵਰਗੀਕਰਨ | ਲਿੰਕ |
| ਵੇਰਵਾ | 20,000 ਨਿਊਜ਼ਗਰੁੱਪ ਦਸਤਾਵੇਜ਼ਾਂ ਦਾ ਸੰਗ੍ਰਹਿ 20 ਵੱਖ-ਵੱਖ ਨਿਊਜ਼ਗਰੁੱਪਾਂ ਵਿੱਚ ਵੰਡਿਆ ਹੋਇਆ ਹੈ। | ||||