Simple Machines Community Forum

SMF Support => Language Specific Support => Ελληνικά (Greek) => Topic started by: Nefeli on May 31, 2007, 04:54:24 AM

Title: Ποια είναι τα συν και τα πλην του UTF-8;
Post by: Nefeli on May 31, 2007, 04:54:24 AM
Αναρωτιέμαι καιρό τώρα για τα πλεονεκτήματα και τα μειονεκτήματα της κωδικοποίησης UTF-8.

Η κωδικοποίηση windows-1253 που τρέχω στο φόρουμ και στο πόρταλ, λειτουργούν μια χαρά για τις ανάγκες μου όσον αφορά την "εμβέλεια" του site σε γλώσσες, ωστόσο υστερεί σημαντικά όταν περνάω κάποιες άλλες λειτουργίες με διαφορετικές κωδικοποιήσεις. Αν υπολογίσει κανείς και τις ιδιαιτερότητες των φυλλομετρητών ως προς αυτές, καταλαβαίνει εύκολα το κομφούζιο που δημιουργείται. Δεν είναι εύκολο, ούτε διασκεδαστικό, να χάνει κανείς ώρες επί ωρών για τις ρυθμίσεις και αυτές να είναι τελικά δυσλειτουργικές αφού δεν έχουν ένα "global" χαρακτήρα, αφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία.

Στο διαδίκτυο κυκλοφορούν διιστάμενες απόψεις. Η μία θέλει την utf-8 ως το μέλλον των κωδικοποιήσεων και η άλλη την απεύχεται, χωρίς να έχω καταλάβει τους λόγους.

Θα μπορούσα, θα μου πείτε, να δοκιμάσω στο φόρουμ τη μετατροπή σε utf-8, μια δοκιμή πείθει το καθένα.
Θα το έκανα αν δεν ήξερα πως είναι μια λειτουργία ΜΗ αντιστρέψιμη! (κάνω μήπως λάθος;)
Έτσι δεν το έχω τολμήσει ποτέ αν και υποψιάζομαι πως είναι ίσως η λύση στο πρόβλημά μου.

Χρειάζομαι λοιπόν περισσότερα "στοιχεία", υπέρ ή κατά, από τη δική σας εμπειρία με ή άνευ utf-8, ώστε να αποκτήσω επιτέλους κριτήριο για το αν θέλω να παραμείνω στην  windows-1253 ή να το γυρίσω στην utf-8.

Μπορείτε να με βοηθήσετε;
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Nefeli on May 31, 2007, 05:28:50 AM
Διάβασα επίσης και το UTF-8 Readme (http://docs.simplemachines.org/index.php?topic=865) όπως και το UTF-8 vs ISO (http://www.simplemachines.org/community/index.php?topic=117568), το οποίο βρήκα πολύ πολύ χρήσιμο.

Υπογραμμίζω μόνο τα εξής:

QuoteWhy would I need UTF-8? ....... If the software integrating with SMF uses UTF-8. In some cases such an integration can require character sets to match.
είναι το πιο ισχυρό μου κίνητρο. Ένα πρόβλημα που περιορίζεται είναι η αλήθεια στα μέλη που διαβάζουν με IE και όχι με Firefox.

QuoteΤο μειονέκτημα είναι ότι θα σου πιάνει (σχεδόν) διπλάσιο χώρο, γιατί η κωδικοποίηση ενός όχι λατινικού χαρακτήρα (πχ. ελληνικά, κινέζικα, κτλ.) θα πιάνει 2 bytes, αντί για 1 στην περίπτωση του ISO-8859-7. Διπλάσιος χώρος και στο αρχείο μηνυμάτων και στη βάση και στο output (άρα περισσότερο bandwidth).


Η ερώτησή μου λοιπόν διαμορφώνεται ως εξής:

Όταν λέμε διπλάσιος χώρος, μικρότερη ταχύτητα, ακριβολογούμε ή είναι μόνο μια έκφραση;

Κι αν είναι απλή έκφραση, για ποιες διαφοροποιήσεις μεγεθών σε αναλογία μιλάμε;

Το "διπλάσιο" πχ αφορά στο σύνολο των δεδομένων του site; Από 50 θα γίνει 100;;;;;

Κι αν δεν περάσω εγώ παρά τα Ελληνικά, Αγγλικά, Γαλλικά άντε και Γερμανικά, θα έχω το ίδιο ακριβώς αποτέλεσμα στην αύξηση του μεγέθους;;;;  ::)
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: agridoc on May 31, 2007, 07:23:40 AM
QuoteΗ κωδικοποίηση windows-1253 που τρέχω στο φόρουμ και στο πόρταλ, λειτουργούν μια χαρά για τις ανάγκες μου όσον αφορά την "εμβέλεια" του site σε γλώσσες, ωστόσο υστερεί σημαντικά όταν περνάω κάποιες άλλες λειτουργίες με διαφορετικές κωδικοποιήσεις. Αν υπολογίσει κανείς και τις ιδιαιτερότητες των φυλλομετρητών ως προς αυτές, καταλαβαίνει εύκολα το κομφούζιο που δημιουργείται. Δεν είναι εύκολο, ούτε διασκεδαστικό, να χάνει κανείς ώρες επί ωρών για τις ρυθμίσεις και αυτές να είναι τελικά δυσλειτουργικές αφού δεν έχουν ένα "global" χαρακτήρα, αφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία.

Nefeli δεν κατάλαβα τι ακριβώς εννοείς, ιδιαίτερα το
Quoteαφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Nefeli on May 31, 2007, 01:00:20 PM
Στις εικόνες που επισυνάπτω αν προσέξεις φαίνονται οι διαφορές στις περιοχές του μενού και των ονομάτων των κατηγοριών αφ ενός και στη περιοχή του σουτμποξ από την άλλη, στους δύο  βασικούς φυλλομετρητές (έχω το σηματάκι του καθενός για να ξεχωρίζει).

Αν φτιάξω τη κωδικοποίηση του coppermine σε greek ISO 8859-7 αντί του utf-8 που είναι η προεπιλογή και σε "συμφωνία" με το smf και tiny, παίρνω το σουτμποξ σε ελληνικά αλλά όλο το πάνελ του coppermine σε τρέχα γύρευε σύμβολα!

Το πρόβλημα όμως δεν σταματάει εκεί. Η λύση του να βγάλω τελείως το σουτμποξ από τη κεντρική του coppermine είναι μια κουτσή λύση μια που όταν πάω να μεταφέρω δεδομένα από το coppermine στα blocks της κεντρικής σελίδας του tiny, (για παράδειγμα τα ονόματα ή τις κατηγορίες των εικόνων) αυτά φαίνονται τελείως ακαταλαβίστικα!

Όσον αφορά στην ερώτηση σου Agridoc :

QuoteNefeli δεν κατάλαβα τι ακριβώς εννοείς, ιδιαίτερα το
Quote
αφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία

Εννοώ πως στη περίπτωση πχ του ΙΕ, μπορεί κανείς να κάνει δεξί κλικ μέσα στο πλαίσιο του σουτμποξ, και να πάρει τα Ελληνικά ως αποτέλεσμα μιας "τοπικής" αλλαγής κωδικοποίησης. Αυτό όμως ισχύει μέχρι την επόμενη ανανέωση της σελίδας.

Είναι λοιπόν απαραίτητο να τρέχουν τα πάντα σε κοινή κωδικοποίηση. Αλλιώς τα προβλήματα είναι πάρα πολλά. Το πρόβλημα μου είναι αν πρέπει να διαλέξω όλα ISO ή UTF-8. Έχω και εγώ συγχιστεί πολύ με όλη την ιστορία.

Όπως και να έχει, θέλω να καταλάβω σε βάθος τη κατάσταση μια που οτιδήποτε άλλο μου φαίνεται σαν τα "σκουπίδια μου κάτω από το χαλί" :) ή αλλιώς στρουθοκαμηλισμός.

Προσθήκη:
Δεν μπορώ να υποχρεώσω κανένα να τρέχει μόνο Firefox κι ακόμη, δεν έχω τους υπόλοιπους φυλλομετρητές για να ελέγξω το εκεί αποτέλεσμα!
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: agridoc on May 31, 2007, 04:04:16 PM
QuoteΕίναι λοιπόν απαραίτητο να τρέχουν τα πάντα σε κοινή κωδικοποίηση.
Σωστό σαν βάση, όχι απαραίτητο πάντοτε.

Ολα είναι θέμα προγραμματισμού και όλα εξελίσσονται. Ενα πρόγραμμα που απευθύνεται παγκόσμια πρέπει να έχει λύσεις για όλες τις κωδικοποιήσεις αλλά και τα συστήματα γραφής (υπάρχει και το από δεξιά προς αριστερά). Αυτό όμως δεν συμβαίνει πάντα. Ο κώδικας έχει λάθη ή παραλείψεις ή ακόμα και πλεονάζοντα στοιχεία κώδικα που δημιουργούν προβλήματα ή περιορισμούς κατά περίπτωση.

Εχω δώσει αλλού την παρακάτω απάντηση
Αναλόγως τι θέλει να κάνει κανείς.

Για ελληνικά συγχρόνως με γλώσσες που έχουν λατινικό αλφάβητο ISO 8859-7 ή Windows-1253. Αν κάποιος θέλει συγχρόνως και μια άλλη γλώσσα με άλλο, μη λατινικό αλφάβητο (π.χ. κυριλλικό) και πολλά μηνύματα UTF-8.

Με τo ISO 8859-7 το database θα είναι μικρότερο και εφ' όσον και στο PC μου έχω Windows-1253 με βολεύει για την επεξεργασία HTML, PHP και άλλων αρχείων.

Θα επικρατήσει το UTF-8; Νομίζω οτι έχει πια καθιερωθεί αλλά αμφιβάλλω αν θα καταφέρει να επικρατήσει. Ο κυριότερος λόγος είναι τα εκατομμύρια των PC που λειτουργούν σ' όλο τον κόσμο με τοπικό codepage και η αγοραστική τους δύναμη όπως και οι απαιτήσεις τους για την χρήση των υπολογιστών τους.

Τα προγράμματα προσαρμόζονται ανάλογα με τις απαιτήσεις μας. Για να πουλήσουν σε χώρες με τοπικό codepage πρέπει να λειτουργούν και με αυτό.

Γενικά: Ελληνικό codepage.
Γιατί: Γιατί έτσι με βολεύει καλύτερα.
Μα θεωρητικά δεν είναι το πιο σωστό: Σκασίλα μου, εφ' όσον λειτουργεί εντάξει.



Οσον αφορά το μέγεθος της βάσης, αν ο κύριος όγκος είναι στα Ελληνικά είναι σημαντική η διαφορά, αν είναι στα Αγγλικά όχι.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Greek on May 31, 2007, 05:48:31 PM
Ας πω κι εγώ στα γρήγορα την γνώμη μου μιας και τρέχω σελίδες με ISO-8859-7 και UTF-8 .
Αν υπάρχει δικαίωμα επιλογής ανάμεσα σ' αυτά τα 2, επέλεξε ISO-8859-7.

Το UTF-8 μπορεί να θεωρείται και να είναι πιο «οικουμενικό» δημιουργεί όμως και αρκετά προβλήματα. Ένα γνωστό πρόβλημα σε σχέση με τα ελληνικά (το οποίο αντιμετωπίζω κι εγώ) είναι το email.

Γενικά, όπως είπε και ο agridoc αν η σελίδα δεν χρησιμοποιεί διαφορετικές γλώσσες, δεν υπάρχει κανένας απολύτως λόγος να βάλει κάποιος UTF-8.

Το ISO-8859-7 κάνει μια χαρά την δουλειά του.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Nefeli on May 31, 2007, 05:57:37 PM
Σ ευχαριστώ για την απάντηση. Κάλυψες τα ερωτηματικά μου κι ακόμα περισσότερα, αφού μου έδειξες καινούργιες διαστάσεις του όλου θέματος.

QuoteΘα επικρατήσει το UTF-8; Νομίζω οτι έχει πια καθιερωθεί αλλά αμφιβάλλω αν θα καταφέρει να επικρατήσει. Ο κυριότερος λόγος είναι τα εκατομμύρια των PC που λειτουργούν σ' όλο τον κόσμο με τοπικό codepage και η αγοραστική τους δύναμη όπως και οι απαιτήσεις τους για την χρήση των υπολογιστών τους.
Ομολογώ πως δεν κατάλαβα πλήρως, υποψιάζομαι μόνο, τη διαδικασία. Αν έχεις χρόνο, όποτε έχεις χρόνο, μου εξηγείς περισσότερο αν θες.

QuoteΤα προγράμματα προσαρμόζονται ανάλογα με τις απαιτήσεις μας. Για να πουλήσουν σε χώρες με τοπικό codepage πρέπει να λειτουργούν και με αυτό.
Συμφωνώ και επαυξάνω!!!!!!!!!!! Έχω κουραστεί να είμαι το εξωτικό γλωσσικό φρούτο μιας τίμιας πλην μικρής καταναλωτικής αγοράς και ως εκ τούτου μη υπολογήσιμης. Τα προγράμματα οφείλουν να προσαρμόζονται. Ιδίως όταν τα πληρώνουμε.

Ωστόσο, υπάρχουν και άλλοι δύο σημαντικοί παράγοντες που έχουν να κάνουν με:

1. Μιλάμε όχι μόνο για τους μεγιστάνες των λογισμικών αλλά και για το ανοιχτό και ελεύθερο , πράγμα που σημαίνει πως εκεί όχι μόνο οι ρόλοι άρα και τα "καταναλωτικά δικαιώματα" είναι συγκεχυμένα. Αλλά εξαρτάται κι από εμάς, τους χρήστες, να προωθούμε λύσεις μέσα από συσσωματώματα όπως καλή ώρα του φόρουμ του smf. Και εκεί αξίζουν συγχαρητήρια σε όλους εσάς που συμβάλλετε σε αυτό, και

2.  Αν κάτι με γοητεύει στο διαδίκτυο, είναι αυτή ακριβώς η εν δυνάμει δυνατότητα επικοινωνίας με διαφορετικές κουλτούρες, γλώσσες και ανθρώπους. Αυτό είναι κάτι που μόνο κάτι σαν το utf μπορεί να υποστηρίξει "ιδεολογικά" και "τεχνικά". Άρα ως τέτοιο, μήπως θα έπρεπε, λέω εγώ τώρα κι εσείς ανακόψτε μου τη φόρα, να υποστηριχθεί περισσότερο, ιδίως από γλώσσες ήσσονος εμπορικής εμβέλειας όπως η δική μας; Δεν θα μπορούσε πχ να βρεθεί τρόπος στο άμεσο μέλλον, να μειωθούν τα μειονεκτήματα του χώρου και της ταχύτητας που απαιτεί; 

Μάλλον ξέφυγα πάλι, ή μήπως όχι;  :)

Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Nefeli on May 31, 2007, 06:02:18 PM
Quote from: Greek on May 31, 2007, 05:48:31 PM
Ας πω κι εγώ στα γρήγορα την γνώμη μου μιας και τρέχω σελίδες με ISO-8859-7 και UTF-8 .
Αν υπάρχει δικαίωμα επιλογής ανάμεσα σ' αυτά τα 2, επέλεξε ISO-8859-7.

Το UTF-8 μπορεί να θεωρείται και να είναι πιο «οικουμενικό» δημιουργεί όμως και αρκετά προβλήματα. Ένα γνωστό πρόβλημα σε σχέση με τα ελληνικά (το οποίο αντιμετωπίζω κι εγώ) είναι το email.

Γενικά, όπως είπε και ο agridoc αν η σελίδα δεν χρησιμοποιεί διαφορετικές γλώσσες, δεν υπάρχει κανένας απολύτως λόγος να βάλει κάποιος UTF-8.

Το ISO-8859-7 κάνει μια χαρά την δουλειά του.


Γεια σου Greek, καιρό είχα να σε δω  :) . Δεν είδα την απάντησή σου πριν δημοσιεύσω το προηγούμενο!
Με την ευκαιρία να πω πως και ο agridoc με έπεισε για τη χρησιμοποίηση του ISO.
Το συζητάω όμως ..... εγκυκλοπαιδικά ακόμα μια που, όπως καταλαβαίνεις από τις διατυπώσεις μου, το ζήτημα πλέον δεν είναι οι "μερικές" και "τοπικές" λύσεις. Αυτές πες πως τις έχουμε .... :)
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: agridoc on June 01, 2007, 12:57:44 AM
Nefeli το UTF-8 είναι ένα σύστημα κωδικοποίησης χαρακτήρων, δεν είναι κοσμοθεωρία ούτε κόμμα να ενταχθεί κάποιος.

Το οτι δεν το επιλέγω, όπου νομίζω οτι δεν χρειάζεται, δεν σημαίνει οτι δεν αναγνωρίζω την προσφορά ή και την αναγκαιότητα του σε κάποιες περιπτώσεις.

Το λειτουργικό στο PC σου, όπως και στο δικό μου και των περισσοτέρων τρέχει σε windows-1253 και αυτό δεν μας στερεί την δυνατότητα να επικοινωνούμε με όλο τον κόσμο.

Παρ' ότι δεν επιλέγω UTF-8 για το site μου έχω κάνει πολλά test install και δοκιμές σε UTF-8 για να στηρίξω τον spiros και τα ελληνικά στην προσπάθεια του για την σωστή ανάπτυξη του SMF στον τομέα αυτό, όπως και τον Bloc, πολύ περισσότερο, για την ανάπτυξη των πολυγλωσσικών ικανοτήτων του Tiny Portal.

Για το CPG είχα γράψει πριν 6 μήνες
http://coppermine-gallery.net/forum/index.php?topic=37919.msg185511#msg185511
QuoteI didn't write that I am getting started in UTF-8, I wrote that UTF-8 is not desired. I have my reasons, and it is my choice. I would definitely recommend UTF-8 for other cases but not this one. UTF-8 is not always better, it has it's pros and cons. CPG seems to run it's support forum in ISO-8859-1 and I believe it' s the right choice, unless you create language specific support boards for non latin characters languages (and it needs a good percentage of messages in these languages to be beneficial). I am not arguing for or against UTF-8, I just believe that software should be flexible enough to let the user select the best choice for a specific use.

I believe that software developers should take care of the needs and choices of possible users. UTF-8 can be proposed and promoted by arguments, there are also other arguments against but it shouldn't and can't be forced on.

CPG is excellent software and should not loose language flexibility. Version 1.4x seems to work quite well with other languages and codepages and a latin-1 database, except the search problem. I think it could be overcomed, it's a matter of will for the team.

Εκεί πείραξα λίγο το πρόγραμμα για να δουλεύει σωστά με μη UTF-8 ελληνικά.

Συνοπτικά: Το λογισμικό πρέπει να είναι αρκετά ευέλικτο, ώστε να επιτρέπει σ' αυτόν που το χρησιμοποιεί να κάνει την καλύτερη επιλογή για μια συγκεκριμένη χρήση.

Οπωσδήποτε αυτό απαιτεί περισσότερη δουλειά στην ανάπτυξη και την εξέλιξη ενός λογισμικού.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Nefeli on June 01, 2007, 04:56:57 AM
Quote from: agridoc on June 01, 2007, 12:57:44 AM
Nefeli το UTF-8 είναι ένα σύστημα κωδικοποίησης χαρακτήρων, δεν είναι κοσμοθεωρία ούτε κόμμα να ενταχθεί κάποιος.

Ποτέ δεν ισχυρίστηκα κάτι τέτοιο. Αν το έλεγα, μάλλον θα υποτιμούσα τις κοσμοθεωρίες και θα υπερτιμούσα ίσως τα ... κόμματα. :)
Μίλησα για λειτουργία, για το τρόπο τελικά να είναι κάποιος συλλογικός, για μια, τελικά, στάση ζωής.
Δεν έκανα κήρυγμα. 

Αλλά τέλος πάντων .... μάλλον έχω ξε-φύγει.  :)
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Greek on June 01, 2007, 09:45:10 PM
Μια και ανοίχτηκε αυτό το θέμα ας κάνω μια ερώτηση, για την οποία θα ήθελα υπεύθυνη απάντηση.

Δημιουργώ μια σελίδα με βασική γλώσσα τα ελληνικά και δευτερεύουσες τα αγγλικά και τα γερμανικά.

Ξέρω ότι το iso-8859-7 με καλύπτει όσον αφορά τα αγγλικά. Με τα γερμανικά όμως;
Αν τα βάλω κι αυτά με iso-8859-7 ενδέχεται κάποιοι ειδικοί χαρακτήρες όπως το γερμανικό «παχύ» σίγμα β ή τα τονιζόμενα φωνήεντα να μου βγουν κινέζικα;

Θέλω να πετάξω το utf-8 γιατί το πρόβλημα με το e-mail είναι σοβαρό και δεν μπορώ να κάνω κάτι από την πλευρά μου.
Για να γίνω πιο συγκεκριμένος, π.χ. το yahoo.gr (και τα περισσότερα ελληνικά  web based emails υποθέτω) λειτουργεί με iso-8859-7, με αποτέλεσμα οι ελληνικοί χαρακτήρες να εμφανίζονται κινέζικοι.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: agridoc on June 01, 2007, 11:14:28 PM
Το site θα βασίζεται σε SMF?
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Greek on June 02, 2007, 04:33:56 AM
Όχι.
Είναι ανεξάρτητο script και δεν σχετίζεται με το SMF. Λειτουργεί όμως πάνω κάτω στην ίδια βάση.
Δηλαδή, εγγραφές μελών, χρήση βάσης δεδομένων (δική του. Όχι του SMF), προσωπικά μηνύματα και ειδοποιήσεις κ.α.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: agridoc on June 02, 2007, 02:43:26 PM
Είμαστε λίγο εκτός θέματος, οσον αφορά το SMF.

Μιλάμε για ένα νέο σύστημα με διαχείριση βάσης. Οι τρόποι προσέγγισης είναι πολλοί.

Στο SMF, όταν η κωδικοποίηση δεν είναι UTF-8 αποθηκεύει τους χαρακτήρες με ένα byte και τους ειδικούς χαρακτήρες με entities. Ετσι μπορείς να έχεις τις γλώσσες που θέλεις και περιστασιακά και άλλες γλώσσες.

Δες και εδώ Multilingual in SMF 1.1RC2 without UTF (http://www.simplemachines.org/community/index.php?topic=70517.0).

Στο email εκτός από το πρόγραμμα υπάρχουν ιδιαιτερότητες του συστήματος του server και του email client.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Greek on June 02, 2007, 05:23:56 PM
Ευχαριστώ για την απάντηση.
Ναι, κατά κάποιον τρόπο είμαι εκτός θέματος. Από την άλλη το θέμα «κωδικοποίηση χαρακτήρων» όμως υπερβαίνει το όποιο script.  ;)
Εντελώς πληροφοριακά πάντως, το δοκίμασα και είναι εφικτό να ενταχθεί και η γερμανική γλώσσα στο iso-8859-7.
Από την άλλη, το πρόβλημα με τα «κινέζικα» emails παραμένει, οπότε (και) κάπου αλλού βρίσκεται το πρόβλημα.
Κλείνω το off topic εδώ  :)
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: GoofyX on June 04, 2007, 05:02:49 PM
Ξαναεπιμένω σε αυτά που έγραψα σε μήνυμά μου (http://www.simplemachines.org/community/index.php?topic=117568.msg752831#msg752831) (τμήμα του οποίου παραθέτει η Nefeli εδώ) σε παλιότερο θέμα. Το UTF-8 είναι το μέλλον. Αυτό που αναφέρει ο agridoc για την τοπική κωδικοποίηση και τη μη χρήση UTF-8 είναι άτοπο. Το UTF-8 δε σου κόβει την «τοπική κωδικοποίηση», ίσα-ίσα, σου δίνει τη δυνατότητα να γράψεις σε αγγλικά, γερμανικά, τούρκικα, κινέζικα, ελληνικά, κτλ. Τι καλύτερο από αυτό δηλαδή; Έχεις όλες τις γλώσσες με τη μία.

Τα μειονεκτήματα είναι: διπλάσιος χώρος για τις γλώσσες με μη λατινικό αλφάβητο (πχ. ελληνικά, κινέζικα, κτλ. το «τρία» σε iso8859-7 θα πιάσει 4 bytes, σε UTF-8 8 bytes, αλλά το «smf» θα πιάσει 3 bytes είτε σε iso8859-*, είτε σε UTF-8, εξ' ου και το «σχεδόν διπλάσιος χώρος») και ελαφρώς μειωμένη ταχύτητα επεξεργασίας, εφόσον το σύστημα έχει να επεξεργαστεί τα διπλάσια bytes. Κατά τη γνώμη μου, αυτά είναι ελάχιστα μπροστά στα θετικά του UTF-8, εφόσον η ταχύτητα επεξεργασίας και ο χώρος πλέον εδώ και αρκετά χρόνια πλέον δεν είναι σημαντικό πρόβλημα.

Σε ένα φόρουμ SMF που πρόσφατα έστησα, που θα υποστηρίζει ελληνικά (κατά βάση), το έβαλα εξ' αρχής σε UTF-8 για να γλυτώσω από διάφορα προβλήματα κωδικοποιήσεων, κτλ. Μόνο και μόνο για διαχειριστικούς λόγους, επιλέγω UTF-8 (αρκεί να είναι και η εφαρμογή γραμμένη σωστά).

Από εκεί και πέρα, όπως βολεύεται κανείς. Αν θέλει διγλωσσία (ή και μία γλώσσα μόνο), τότε τα 1-byte συστήματα κωδικοποίησης είναι οκ, αλλιώς UTF-8.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: agridoc on June 04, 2007, 05:48:07 PM
Δεν έγραψα πουθενά ότι "UTF-8 σου κόβει την «τοπική κωδικοποίηση»".

Τρέχει κανένας από σας το PC του σε UTF-8? Οι φίλοι σας;

Ξεκινάω λοιπόν σαν βάση με την κωδικοποίηση που έχω στον υπολογιστή μου και επικρατεί στην χώρα μου.

Η λογική ερώτηση λοιπόν είναι αυτό που γράφεται στα Docs του SMF (http://docs.simplemachines.org/index.php?topic=865.msg1894#msg1894)
Why would I need UTF-8?
Για τι θα μπορούσε να χρειαστώ UTF-8;

Επιχειρήματα υπάρχουν, υπέρ και κατά υπάρχουν και για τις δύο λύσεις.

Επιλέγω κατά περίπτωση, ανάλογα με την χρήση και τον σκοπό. Δεν διαλέγω τζιπ, αν κινούμαι πάντα στην άσφαλτο, είναι φιγούρα και περιττά έξοδα (και όχι τόσο γρήγορο  8) ). Αν σκοπεύω όμως να πιάνω τα βουνά και τα χωράφια το χρειάζομαι για να μην κολλήσω και με μαζεύουν απ' τα κατσάβραχα.

Και κάτι ακόμα. Η μετατροπή σε UTF-8 είναι εφικτή και βελτιώνεται στις λεπτομέρειες, το αντίθετο συζητήσιμο.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: GoofyX on June 04, 2007, 05:59:28 PM
Ναι, απλά αναφέρεις παραπάνω στο σχόλιο #4,
QuoteΘα επικρατήσει το UTF-8; Νομίζω οτι έχει πια καθιερωθεί αλλά αμφιβάλλω αν θα καταφέρει να επικρατήσει. Ο κυριότερος λόγος είναι τα εκατομμύρια των PC που λειτουργούν σ' όλο τον κόσμο με τοπικό codepage και η αγοραστική τους δύναμη όπως και οι απαιτήσεις τους για την χρήση των υπολογιστών τους.
που ίσως αφήνει να παρερμηνευτεί... Κατά βάση, στα θετικά και αρνητικά δε διαφωνούμε, οπότε κανένα πρόβλημα. :)

Και ναι, στο Linux μου έχω UTF-8 παντού. Οι περισσότερες διανομές (από όσο γνωρίζω) είναι UTF-8. Και το windows-1253 δεν είναι στάνταρ (το iso-8859-7 είναι), είναι αυτό που καθιέρωσε η Microsoft για τα Windows μόνο και μόνο για να φαίνεται διαφορετική από τους υπόλοιπους (ενώ υπήρχε το iso τότε) και ότι έχει κάνει δουλειά.

Όπως λες κι εσύ, η μετατροπή σε UTF-8 από 1-byte σύστημα είναι εύκολη. Και το ανάποδο γίνεται, αλλά υπό προϋποθέσεις.

Αυτά. :)
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: sem27gr on September 26, 2007, 09:27:57 PM
Έχω την εξής ερώτηση, εγώ έχω utf8 database, το forum  (http://www.agrobioaua.com/forum/)μου λειτουργεί κανονικά με τα greek-utf8, τι θα γίνει αν κάποιος χρήστης χρησιμοποιήσει τα απλά english? Εν το μεταξύ έχω 3 γλώσσες στο φόρουμ
English, English-utf8 και greek-utf8...
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: spiros on February 17, 2008, 05:52:26 AM
Πρόσφατα έγινε μετατροπή σε UTF-8 στο δικό μου φόρουμ και θα εν ευθέτω χρόνο θα δημοσιευτεί και κείμενο για τη διαδικασία (η οποία στην περίπτωσή μου ήταν περίπλοκη καθώς υπήρχε και εγκατεστημένο coppermine στην ίδια βάση δεδομένων με διαφορετικά προβλήματα κωδικοποίησης).

Μερικές παρατηρήσεις: το μέγεθος της βάσης μειώθηκε ελαφρά (καθώς έγινε μετατροπή των οντοτήτων).

Πρόβλημα υπήρξε με το Ά (α κεφαλαίο τονούμενο) το οποίο μετά τη μετατροπή βγήκε ως απόστροφος. Για αυτό το ζήτημα ετοιμάζεται σκριπτ για να διορθωθεί.

Η αναζήτηση βελτιώθηκε σημαντικά.

Δείτε το εδώ: http://www.translatum.gr/forum/index.php

Από το αρχικό μήνυμα στο internationalization board:

I want to convert my forum to UTF-8 which is now in Windows-1253 and in the past when I tried there have been problems.

In the actual database Greek appears like this:
ÕðïøéÜæåôáé êÜðïéïò ðùò ç ãõíáßêá ôïõ ôïí áðáôÜ

And of course there are instances of html entities which should also be correctly converted.
& #916;& #949;& #957; & #956;& #960;& #959;& #961;& #949;& #943; & #960;& #945;& #961;& #940; & #957;& #945; & #941;& #967;& #949;& #953;

When I save a MySQL dump and try to open the file with Word, in order to appear "correctly" (meaning to display Greek as seen above), I have to select UTF-8 as encoding.

The tables' collation is latin1_swedish_ci and in the same database I have coppermine installed (as UTF-8) and html and page source displays fine, although in phpmyadmin Greek appears like this:     
Είναι ένα πλασÏ,,ικό μποÏ...κάλÎ.


Και το τελευταίο μήνυμα με το πρόβλημα του Ά:

One side-effect of the conversion: the Greek capital character Α was not converted correctly. Instead it appeared as ʼ.

For example, instead of
Άλλωστε

We got
ʼλλωστε
http://www.translatum.gr/forum/index.php/topic,8751.msg65229.html#msg65229
It looks the same on the database.


This is a problem with Greek codepages and the way they represent Greek A (Windows-1253 and ISO-8859-7)
http://www.cs.tut.fi/~jkorpela/unicode/greek.html#Alpha-tonos
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Greek on August 07, 2008, 08:07:35 PM
Επαναφέρω το θέμα μετά από καιρό.
Απ' ότι έχω δει η κωδικοποίηση του SMF για UTF-8 έχει τύπο general_ci.
Απ' όσο έχω διαβάσει όμως, αυτός ο τύπος κωδικοποίησης αν και σχετικά γρήγορος, δεν είναι αρκετά ακριβής ως προς την απόδοση των χαρακτήρων.
Αντιθέτως η κωδικοποίηση unicode_ci παρ' ότι υστερεί κάπως σε ταχύτητα, εν τούτοις είναι πιο ακριβής ως προς την απόδοση των ειδικών χαρακτήρων.

Δεν ξέρω αν έπραξα σωστά, αλλά εκ των υστέρων μετέτρεψα την βάση από general_ci σε unicode_ci.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: vkot on December 21, 2009, 03:17:32 AM
Η πολυγλωσσία δεν είναι ο μόνος λόγος για αλλαγή σε UTF-8. Ένας σημαντικός λόγος είναι η συμβατότητα με άλλες εφαρμογές που συνδέονται με το SMF: όχι μόνο mod του SMF αλλά και ανεξάρτητες εφαρμογές που συνδέονται με γέφυρες (αλλά και χωρίς γέφυρες, όταν θέλουμε πχ. με δικό μας script απλά να εμφανίζουμε περιεχόμενο της μιας εφαρμογής στην άλλη).

Στο site μου έχω SMF, php-nuke, και chat (ασύνδετo) με windows-1253. Επίσης, wiki και wordpress σε UTF-8. Σκοπεύω να μεταβώ σε joomla (που είναι σε UTF-8), σε σύνδεση με το SMF, και ίσως σε άλλο chat (UTF-8). Είχα συνηθίσει το windows-1253, αλλά αναγκαστικά πρέπει να πάω σε UTF-8 παντού στο site, κι έτσι θα μπορέσω εύκολα να κάνω την σύνδεση χρηστών και εμφάνιση περιεχομένου από τη μια εφαρμογή στην άλλη.
Δεν μπορώ να με φανταστώ να παραμένω σε windows-1253 έχοντας να μετατρέψω το joomla (και όχι μόνο) και τα όλα τα extensions που θέλω να χρησιμοποιήσω, σε windows-1253.

Βέβαια με στεναχωρεί λίγο που το SQL dump (του SMF μόνο) από ~600ΜΒ θα γίνει ~1GB, αλλά νομίζω ότι τελικά είναι μικρό το κακό.

Το θέμα με τα email σε UTF-8, υφίσταται ακόμα; Υπάρχουν ακόμα πολλά webmail που χρησιμοποιούν windows-1253;

Μια πρώτη δοκιμή για μετατροπή του φόρουμ, απέτυχε. Μου έβγαλε: ??????????. Θα το παλέψω όμως, πριν απευθυνθώ σε σας.

Greek,
Τι εννοείς με το "δεν είναι αρκετά ακριβής ως προς την απόδοση των χαρακτήρων";
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Greek on January 04, 2010, 09:29:35 PM
http://forums.mysql.com/read.php?103,187048,188748#msg-188748
Quote from: vkot on December 21, 2009, 03:17:32 AM
Greek,
Τι εννοείς με το "δεν είναι αρκετά ακριβής ως προς την απόδοση των χαρακτήρων";
http://forums.mysql.com/read.php?103,187048,188748#msg-188748
http://stackoverflow.com/questions/766809/whats-the-difference-between-utf8generalci-and-utf8unicodeci
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: GoofyX on February 05, 2012, 01:36:17 AM
Unicode over 60 percent of the web (http://googleblog.blogspot.com/2012/02/unicode-over-60-percent-of-web.html).
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Beelzeboss on August 03, 2014, 11:14:06 AM
Να ρωτήσω, αν εχουμε εγκατεστημενα τα greek utf-8 και το collation στη database ειναι κανονικα σε utf-8 general ci, θα πρεπει απαραιτητα να εγκαταστησουμε και τα english utf-8 ή μπορουμε και να μεινουμε και στα default english της smf που ειναι ISO-8859-1; Ευχαριστω.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: GoofyX on August 03, 2014, 11:30:40 AM
Quote from: Beelzeboss on August 03, 2014, 11:14:06 AM
Να ρωτήσω, αν εχουμε εγκατεστημενα τα greek utf-8 και το collation στη database ειναι κανονικα σε utf-8 general ci, θα πρεπει απαραιτητα να εγκαταστησουμε και τα english utf-8 ή μπορουμε και να μεινουμε και στα default english της smf που ειναι ISO-8859-1; Ευχαριστω.

Τα αγγλικά είναι η μόνη γλώσσα που δεν «υπάρχει» σε iso ή utf-8, γιατί ακόμη και σε ascii character set, καλύπτεται. Άρα δεν έχεις να κάνεις κάτι. Με τα ελληνικά είναι το θέμα.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Beelzeboss on August 03, 2014, 11:51:00 AM
Quote from: GoofyX on August 03, 2014, 11:30:40 AM
Τα αγγλικά είναι η μόνη γλώσσα που δεν «υπάρχει» σε iso ή utf-8, γιατί ακόμη και σε ascii character set, καλύπτεται. Άρα δεν έχεις να κάνεις κάτι. Με τα ελληνικά είναι το θέμα.

Ειχα διαβασει παλιοτερα και εδω οτι το utf-8 επηρεαζει μονο τους μη λατινικους χαρακτηρες και αρα στα αγγλικα δεν θα παιζει καποιο ρολο αλλα ειχε παρει το ματι μου παλιοτερα τα english utf-8 και το ειχα απορια. Σε ευχαριστω για την απαντηση.

Και να ρωτησω και κατι αλλο σχετικο, στην database υπαρχουν καποια λιγα tables (εχουν δημιουργηθει απο τα mods) τα οποια ειναι σε latin1_swedish_ci αντι για utf8 general_ci που ειναι ολα τα υπολοιπα. Πρεπει να μετατραπουν ολα σε utf8 ή τα αφηνουμε ως εχει;

ΥΓ. Δεν εχω καποιο προβλημα στο forum. Απλα για την απορια.
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: GoofyX on August 03, 2014, 11:54:26 AM
Quote from: Beelzeboss on August 03, 2014, 11:51:00 AM
Και να ρωτησω και κατι αλλο σχετικο, στην database υπαρχουν καποια λιγα tables (εχουν δημιουργηθει απο τα mods) τα οποια ειναι σε latin1_swedish_ci αντι για utf8 general_ci που ειναι ολα τα υπολοιπα. Πρεπει να μετατραπουν ολα σε utf8 ή τα αφηνουμε ως εχει;

ΥΓ. Δεν εχω καποιο προβλημα στο forum. Απλα για την απορια.

Αν αυτοί οι πίνακες δεν περιέχουν κάποιο κείμενο που εμφανίζεται στο φόρουμ, λογικά δε θα έχεις πρόβλημα (όπως λες ότι δεν έχεις), άρα θα έλεγα μην το πειράζεις, άστο ως έχει. :)
Title: Re: Ποιά είναι τα συν και τα πλην του UTF-8;
Post by: Beelzeboss on August 03, 2014, 12:00:12 PM
Quote from: GoofyX on August 03, 2014, 11:54:26 AM
Αν αυτοί οι πίνακες δεν περιέχουν κάποιο κείμενο που εμφανίζεται στο φόρουμ, λογικά δε θα έχεις πρόβλημα (όπως λες ότι δεν έχεις), άρα θα έλεγα μην το πειράζεις, άστο ως έχει. :)

Περιεχουν λατινικους χαρακτηρες ή αριθμους (ip) αλλα θα ακολουθησω τη συμβουλη σου. ;) Οπως λεγεται, ο,τι δουλευει σωστα, δεν το πειραζουμε. :D
Title: Re: Ποια είναι τα συν και τα πλην του UTF-8;
Post by: Darkness2000 on March 17, 2020, 03:18:36 PM
Προσωπικά για εμένα το UTF-8 είναι καλό, αλλά ένα λάθος και μπορεί να βρεθείς από την Ελληνική γλώσσα σε κάτι σαν " Κινέζικα " και άντε μετά να

ξανά γράψεις όοολο το φόρουμ ( ενότητες - περιγραφή - δημοσιεύσεις ) απ' την αρχή...